Question 1

XML 裡包含什麼？

Accepted Answer

一個，含區塊（標題、作者、建立者、產生器、建立與修改日期、頁數）和區塊，每個列出頁碼、尺寸與擷取的文字。

Question 2

會擷取圖片或保留版面嗎？

Accepted Answer

不會。僅擷取文字層與中繼資料。圖片、字型與視覺版面不會被呈現——目標是機器可讀的文字。

Question 3

為什麼我的 PDF 文字是空的？

Accepted Answer

該 PDF 很可能是沒有文字層的掃描圖片。PDF 轉 XML 讀取的是內嵌文字而非圖片，因此掃描文件需要先進行 OCR 才能變為可搜尋文字。

Question 4

有頁數或大小限制嗎？

Accepted Answer

沒有固定限制，但解析在瀏覽器中進行，因此非常大的 PDF 可能會較慢或佔用更多記憶體，視裝置而定。

Question 5

我的 PDF 隱私嗎？

Accepted Answer

完全隱私。PDF 使用 pdf.js 在本機解析，不會上傳到任何伺服器，檔案始終留在你的裝置上。

PDF转XML

關於 PDF 轉 XML