文件编码检测
免费在线使用 文件编码检测 无需安装即可使用工具
关于文件编码检测器
检查粘贴的文本,报告其最可能的字符编码,同时给出置信度分数以及检测到的任何字节顺序标记(BOM)。检测器会用 TextEncoder 对输入进行编码,检查 BOM 签名(UTF-8、UTF-16 LE、UTF-16 BE),校验 UTF-8 的多字节序列,并对没有 BOM 的 UTF-16 采用启发式判断,最终返回编码徽标、百分比置信度以及可选的 BOM 说明。
使用方法
1. 将要检查的文本粘贴到输入文本框中。 2. 点击 Detect(未输入文本时该按钮不可用)。 3. 查看 Detected Encoding 徽标、Confidence 百分比以及任何 BOM 说明。 4. 点击 Copy,将单行摘要复制到剪贴板。
检测逻辑与置信度
检测分阶段执行:开头的 EF BB BF 字节序列会以 100% 置信度返回 UTF-8 并附 BOM 说明;FF FE 以 100% 返回 UTF-16 LE;FE FF 以 100% 返回 UTF-16 BE。如果所有字节都是 ASCII(<= 0x7F),则以 100% 返回 ASCII。否则,将字节作为 UTF-8 多字节序列(2 字节的 C2-DF、3 字节的 E0-EF、4 字节的 F0-F4,后接 80-BF 续字节)逐字节遍历;如果所有高位字节都满足该模式,则返回 UTF-8,置信度按高位字节比例在 80 到 99 之间。如果 UTF-8 校验失败,则使用零字节模式启发式判断为 UTF-16 LE 或 BE(无 BOM),置信度 75%;最终回退结果为 UTF-8(可能)置信度 60%。
▶为什么把文本粘贴到检测器后看不到原始文件的编码?
浏览器会先解码粘贴的文本,将其转为 JavaScript 字符串后工具才接收到,因此工具会用 TextEncoder 对该字符串重新编码,并报告重新编码后字节的编码,而不是磁盘上原始文件的字节编码。
▶置信度百分比代表什么?
100% 表示存在 BOM 或为纯 ASCII,编码是唯一确定的。80-99% 表示字节模式严格满足 UTF-8 多字节规则。75% 表示在没有 BOM 的情况下使用了 UTF-16 零字节启发式判断,60% 则是混合内容的最终 UTF-8 回退结果。
▶本工具能检测 GBK、Shift-JIS 或 Big5 吗?
不能。检测器只能区分 ASCII、UTF-8(带或不带 BOM)以及 UTF-16(LE/BE,带或不带 BOM)。传统的单字节和双字节编码会被报告为 UTF-8 回退结果。
▶Copy 按钮会生成什么?
它会复制一行格式为 'ENCODING (NN% confidence)' 的内容,当检测到 BOM 时还会附加 ' - BOM note',例如 'UTF-8 (100% confidence) - UTF-8 BOM detected'。
如果这个工具对你有帮助的话,请考虑请我喝杯咖啡。
请给我买杯咖啡吧。