Question 1

XML には何が含まれますか？

Accepted Answer

の中にブロック（タイトル、作成者、クリエータ、プロデューサ、作成日・更新日、ページ数）とブロックがあり、各に番号、寸法、抽出テキストが記載されます。

Question 2

画像の抽出やレイアウトの保持はされますか？

Accepted Answer

いいえ。テキスト層とメタデータのみが抽出されます。画像、フォント、視覚的なレイアウトは反映されず、機械可読なテキストを目的としています。

Question 3

PDF のテキストが空になるのはなぜですか？

Accepted Answer

その PDF はおそらくテキスト層のないスキャン画像です。PDF to XML は埋め込みテキストを読み取るもので画像ではないため、スキャン文書はまず OCR にかけて検索可能にする必要があります。

Question 4

ページ数やサイズに制限はありますか？

Accepted Answer

固定の制限はありませんが、解析はブラウザ内で行われるため、非常に大きい PDF はデバイスによっては時間がかかったりメモリを多く消費したりすることがあります。

Question 5

PDF はプライベートですか？

Accepted Answer

完全にプライベートです。PDF は pdf.js でローカルに解析され、サーバーにはアップロードされないため、ファイルはデバイス上に留まります。

PDFからXMLへの変換

PDF to XML について