PDFからXMLへの変換
無料でオンラインで利用可能 PDFからXMLへの変換 インストール不要のツール
PDF to XML について
PDF to XML は、PDF のメタデータとテキスト内容を抽出し、構造化された XML 文書にして表示、コピー、ダウンロードできるようにします。pdf.js によりファイルはブラウザ内で完全に読み込まれ、何もアップロードされません。索引作成、データパイプライン、PDF の内容を他の XML 処理ツールに渡す用途に便利です。
使い方
1. アップロード欄をクリックするか、.pdf ファイルをドラッグ&ドロップします 2. ツールが PDF を読み込み、XML 文書を構築します 3. コードパネルで XML 出力を確認します 4.「ダウンロード」で .xml ファイルを保存するか、「XML をコピー」で他へ貼り付けます
コツとベストプラクティス
XML には文書のメタデータ(タイトル、作成者、クリエータ、プロデューサ、日付、ページ数)と各ページのテキストおよび寸法が含まれます。テキストは PDF のテキスト層から取得するため、画像のみのスキャン PDF ではテキストが空になります。最良の結果を得るには、実際のテキスト層がある PDF をお使いください。
▶XML には何が含まれますか?
<document> の中に <metadata> ブロック(タイトル、作成者、クリエータ、プロデューサ、作成日・更新日、ページ数)と <pages> ブロックがあり、各 <page> に番号、寸法、抽出テキストが記載されます。
▶画像の抽出やレイアウトの保持はされますか?
いいえ。テキスト層とメタデータのみが抽出されます。画像、フォント、視覚的なレイアウトは反映されず、機械可読なテキストを目的としています。
▶PDF のテキストが空になるのはなぜですか?
その PDF はおそらくテキスト層のないスキャン画像です。PDF to XML は埋め込みテキストを読み取るもので画像ではないため、スキャン文書はまず OCR にかけて検索可能にする必要があります。
▶ページ数やサイズに制限はありますか?
固定の制限はありませんが、解析はブラウザ内で行われるため、非常に大きい PDF はデバイスによっては時間がかかったりメモリを多く消費したりすることがあります。
▶PDF はプライベートですか?
完全にプライベートです。PDF は pdf.js でローカルに解析され、サーバーにはアップロードされないため、ファイルはデバイス上に留まります。
このツールがあなたに役立ったなら、私にコーヒーをご馳走することをお勧めします。
私にコーヒーを買ってください。