PDF转XML
免费在线使用 PDF转XML 无需安装即可使用工具
關於 PDF 轉 XML
PDF 轉 XML 可提取 PDF 的中繼資料與文字內容,產生結構化的 XML 文件,供你檢視、複製或下載。它使用 pdf.js 完全在瀏覽器中讀取檔案,不會上傳任何內容。適合用於建立索引、資料管線,或將 PDF 內容提供給其他處理 XML 的工具。
使用方法
1. 點擊上傳區域,或將 .pdf 檔案拖放到此處 2. 工具讀取 PDF 並產生 XML 文件 3. 在程式碼面板中檢視 XML 輸出 4. 點擊「下載」儲存 .xml 檔案,或點擊「複製 XML」貼到其他地方
提示與最佳實踐
XML 會擷取文件中繼資料(標題、作者、建立者、產生器、日期、頁數)以及每頁的文字與尺寸。文字取自 PDF 的文字層,因此僅為掃描圖片的 PDF 會得到空文字——如需最佳效果,請使用具真實文字層的 PDF。
▶XML 裡包含什麼?
一個 <document>,含 <metadata> 區塊(標題、作者、建立者、產生器、建立與修改日期、頁數)和 <pages> 區塊,每個 <page> 列出頁碼、尺寸與擷取的文字。
▶會擷取圖片或保留版面嗎?
不會。僅擷取文字層與中繼資料。圖片、字型與視覺版面不會被呈現——目標是機器可讀的文字。
▶為什麼我的 PDF 文字是空的?
該 PDF 很可能是沒有文字層的掃描圖片。PDF 轉 XML 讀取的是內嵌文字而非圖片,因此掃描文件需要先進行 OCR 才能變為可搜尋文字。
▶有頁數或大小限制嗎?
沒有固定限制,但解析在瀏覽器中進行,因此非常大的 PDF 可能會較慢或佔用更多記憶體,視裝置而定。
▶我的 PDF 隱私嗎?
完全隱私。PDF 使用 pdf.js 在本機解析,不會上傳到任何伺服器,檔案始終留在你的裝置上。
如果这个工具对你有帮助,请考虑请我喝杯咖啡。
請幫我買杯咖啡吧。