文件编码检测器
免费在线使用 文件编码检测器 无需安装即可使用工具
關於檔案編碼偵測器
檢查貼上的文字,回報其最可能的字元編碼,同時給出信心分數以及偵測到的任何位元組順序標記(BOM)。偵測器會用 TextEncoder 對輸入進行編碼,檢查 BOM 簽章(UTF-8、UTF-16 LE、UTF-16 BE),驗證 UTF-8 的多位元組序列,並對沒有 BOM 的 UTF-16 採用啟發式判斷,最終回傳編碼徽章、百分比信心度以及選用的 BOM 說明。
使用方法
1. 將要檢查的文字貼到輸入文字框中。 2. 點擊 Detect(未輸入文字時該按鈕不可用)。 3. 查看 Detected Encoding 徽章、Confidence 百分比以及任何 BOM 說明。 4. 點擊 Copy,將單行摘要複製到剪貼簿。
偵測邏輯與信心度
偵測分階段執行:開頭的 EF BB BF 位元組序列會以 100% 信心度回傳 UTF-8 並附 BOM 說明;FF FE 以 100% 回傳 UTF-16 LE;FE FF 以 100% 回傳 UTF-16 BE。如果所有位元組都是 ASCII(<= 0x7F),則以 100% 回傳 ASCII。否則,將位元組當作 UTF-8 多位元組序列(2 位元組的 C2-DF、3 位元組的 E0-EF、4 位元組的 F0-F4,後接 80-BF 續位元組)逐位元組走訪;如果所有高位位元組都符合該模式,則回傳 UTF-8,信心度依高位位元組比例在 80 到 99 之間。如果 UTF-8 驗證失敗,則使用零位元組模式啟發式判斷為 UTF-16 LE 或 BE(無 BOM),信心度 75%;最終回退結果為 UTF-8(可能)信心度 60%。
▶為什麼把文字貼到偵測器後看不到原始檔案的編碼?
瀏覽器會先解碼貼上的文字,將其轉為 JavaScript 字串後工具才接收到,因此工具會用 TextEncoder 對該字串重新編碼,並回報重新編碼後位元組的編碼,而不是磁碟上原始檔案的位元組編碼。
▶信心度百分比代表什麼?
100% 表示存在 BOM 或為純 ASCII,編碼是唯一確定的。80-99% 表示位元組模式嚴格符合 UTF-8 多位元組規則。75% 表示在沒有 BOM 的情況下使用了 UTF-16 零位元組啟發式判斷,60% 則是混合內容的最終 UTF-8 回退結果。
▶本工具能偵測 GBK、Shift-JIS 或 Big5 嗎?
不能。偵測器只能區分 ASCII、UTF-8(帶或不帶 BOM)以及 UTF-16(LE/BE,帶或不帶 BOM)。傳統的單位元組和雙位元組編碼會被回報為 UTF-8 回退結果。
▶Copy 按鈕會產生什麼?
它會複製一行格式為 'ENCODING (NN% confidence)' 的內容,當偵測到 BOM 時還會附加 ' - BOM note',例如 'UTF-8 (100% confidence) - UTF-8 BOM detected'。
如果这个工具对你有帮助,请考虑请我喝杯咖啡。
請幫我買杯咖啡吧。