pdf 문서의 글씨를 추출하는 오픈소스가 있나요??

pdf 문서의 글씨를 추출하는 오픈소스가 있나요??

QA

pdf 문서의 글씨를 추출하는 오픈소스가 있나요??

본문

저장된 파일을 검사해서 pdf일 경우, pdf내에 글씨를 가져와서 출력하는 것을

 

만들고 싶은데 어떻게 해야 할 지 모르겠습니다..

이 질문에 댓글 쓰기 :

답변 2

원본 PDF에 저장된 형식에 따라서 달라집니다.

 

텍스트형태로 저장했다면 변환프로그램을 활용할수 있지만, 일부는 이미지형태로 PDF로 변환되있는 경우도 있기때문에 모든경우에 대응하실려면 많은 기술이 필요할것 같습니다.

 

텍스트형태라면 https://stackoverflow.com/questions/14782751/convert-pdf-to-html-in-php 을 참조해보세요.

말씀하신 프로그램은 윈도우 환경에서 작동할것으로 예상됩니다.
리눅스 환경이시라면 두번째 답변의 xpdf를 참조해보세요.

직접 서버를 구축 및 조작하실수 있다면  파이썬의 http://www.unixuser.org/~euske/python/pdfminer/ 이용하는 방법도 있습니다.

후처리를 위해서 필요한게 아니고 단순하게 웹상에서 사용자에게 볼수 있게만 하실꺼라면
https://mozilla.github.io/pdf.js/
를 이용하는게 더 간단할것 같습니다.

답변을 작성하시기 전에 로그인 해주세요.
전체 123,125 | RSS
QA 내용 검색

회원로그인

(주)에스아이알소프트 / 대표:홍석명 / (06211) 서울특별시 강남구 역삼동 707-34 한신인터밸리24 서관 1404호 / E-Mail: admin@sir.kr
사업자등록번호: 217-81-36347 / 통신판매업신고번호:2014-서울강남-02098호 / 개인정보보호책임자:김민섭(minsup@sir.kr)
© SIRSOFT