Question 1

XML에는 무엇이 포함되나요?

Accepted Answer

안에 블록(제목, 작성자, 생성자, 프로듀서, 생성·수정 날짜, 페이지 수)과 블록이 있으며, 각 는 번호, 크기, 추출된 텍스트를 나열합니다.

Question 2

이미지를 추출하거나 레이아웃을 보존하나요?

Accepted Answer

아니요. 텍스트 레이어와 메타데이터만 추출됩니다. 이미지, 글꼴, 시각적 레이아웃은 반영되지 않으며, 기계 판독 가능한 텍스트가 목표입니다.

Question 3

제 PDF의 텍스트가 비어 있는 이유는?

Accepted Answer

해당 PDF가 텍스트 레이어가 없는 스캔 이미지일 가능성이 높습니다. PDF to XML은 포함된 텍스트를 읽지 사진을 읽는 것이 아니므로, 스캔 문서는 먼저 OCR을 거쳐 검색 가능하게 만들어야 합니다.

Question 4

페이지 수나 크기 제한이 있나요?

Accepted Answer

고정된 제한은 없지만 파싱이 브라우저에서 이루어지므로, 매우 큰 PDF는 기기에 따라 더 오래 걸리거나 메모리를 더 많이 사용할 수 있습니다.

Question 5

내 PDF는 안전한가요?

Accepted Answer

완전히 안전합니다. PDF는 pdf.js로 로컬에서 파싱되며 서버로 업로드되지 않으므로 파일은 기기에 머무릅니다.

PDF에서 XML로 변환

PDF to XML 소개