Question 1

XML 里包含什么？

Accepted Answer

一个，含块（标题、作者、创建者、生成器、创建和修改日期、页数）和块，每个列出页码、尺寸和提取的文本。

Question 2

会提取图片或保留布局吗？

Accepted Answer

不会。仅提取文本层和元数据。图片、字体和视觉布局不会被体现——目标是机器可读的文本。

Question 3

为什么我的 PDF 文本是空的？

Accepted Answer

该 PDF 很可能是没有文本层的扫描图片。PDF 转 XML 读取的是内嵌文本而非图片，因此扫描文档需要先进行 OCR 才能变为可搜索文本。

Question 4

有页数或大小限制吗？

Accepted Answer

没有固定限制，但解析在浏览器中进行，因此非常大的 PDF 可能会更慢或占用更多内存，具体取决于设备。

Question 5

我的 PDF 隐私吗？

Accepted Answer

完全隐私。PDF 使用 pdf.js 在本地解析，不会上传到任何服务器，文件始终留在你的设备上。

PDF 转 XML

关于 PDF 转 XML