PDF에서 XML로 변환
무료 온라인 서비스 PDF에서 XML로 변환 설치가 필요 없는 도구
PDF to XML 소개
PDF to XML은 PDF의 메타데이터와 텍스트 내용을 추출해 구조화된 XML 문서로 만들어 보고, 복사하고, 다운로드할 수 있게 합니다. pdf.js로 파일을 브라우저 내에서 완전히 읽으므로 아무것도 업로드되지 않습니다. 인덱싱, 데이터 파이프라인, PDF 내용을 다른 XML 처리 도구에 전달하는 용도에 유용합니다.
사용 방법
1. 업로드 영역을 클릭하거나 .pdf 파일을 끌어다 놓습니다 2. 도구가 PDF를 읽고 XML 문서를 만듭니다 3. 코드 패널에서 XML 출력을 확인합니다 4.「다운로드」로 .xml 파일을 저장하거나, 「XML 복사」로 다른 곳에 붙여넣습니다
팁과 모범 사례
XML에는 문서 메타데이터(제목, 작성자, 생성자, 프로듀서, 날짜, 페이지 수)와 각 페이지의 텍스트 및 크기가 포함됩니다. 텍스트는 PDF의 텍스트 레이어에서 가져오므로, 이미지로만 된 스캔 PDF는 텍스트가 비게 됩니다. 최상의 결과를 원하면 실제 텍스트 레이어가 있는 PDF를 사용하세요.
▶XML에는 무엇이 포함되나요?
<document> 안에 <metadata> 블록(제목, 작성자, 생성자, 프로듀서, 생성·수정 날짜, 페이지 수)과 <pages> 블록이 있으며, 각 <page>는 번호, 크기, 추출된 텍스트를 나열합니다.
▶이미지를 추출하거나 레이아웃을 보존하나요?
아니요. 텍스트 레이어와 메타데이터만 추출됩니다. 이미지, 글꼴, 시각적 레이아웃은 반영되지 않으며, 기계 판독 가능한 텍스트가 목표입니다.
▶제 PDF의 텍스트가 비어 있는 이유는?
해당 PDF가 텍스트 레이어가 없는 스캔 이미지일 가능성이 높습니다. PDF to XML은 포함된 텍스트를 읽지 사진을 읽는 것이 아니므로, 스캔 문서는 먼저 OCR을 거쳐 검색 가능하게 만들어야 합니다.
▶페이지 수나 크기 제한이 있나요?
고정된 제한은 없지만 파싱이 브라우저에서 이루어지므로, 매우 큰 PDF는 기기에 따라 더 오래 걸리거나 메모리를 더 많이 사용할 수 있습니다.
▶내 PDF는 안전한가요?
완전히 안전합니다. PDF는 pdf.js로 로컬에서 파싱되며 서버로 업로드되지 않으므로 파일은 기기에 머무릅니다.
이 도구가 당신에게 도움이 되었다면, 저에게 커피 한 잔 사주세요.
제게 커피 한 잔 사주세요.