pdf 문서의 글씨를 추출하는 오픈소스가 있나요??

pdf 문서의 글씨를 추출하는 오픈소스가 있나요??

QA

pdf 문서의 글씨를 추출하는 오픈소스가 있나요??

답변 2

본문

저장된 파일을 검사해서 pdf일 경우, pdf내에 글씨를 가져와서 출력하는 것을

 

만들고 싶은데 어떻게 해야 할 지 모르겠습니다..

이 질문에 댓글 쓰기 :

답변 2

원본 PDF에 저장된 형식에 따라서 달라집니다.

 

텍스트형태로 저장했다면 변환프로그램을 활용할수 있지만, 일부는 이미지형태로 PDF로 변환되있는 경우도 있기때문에 모든경우에 대응하실려면 많은 기술이 필요할것 같습니다.

 

텍스트형태라면 https://stackoverflow.com/questions/14782751/convert-pdf-to-html-in-php 을 참조해보세요.

말씀하신 프로그램은 윈도우 환경에서 작동할것으로 예상됩니다.
리눅스 환경이시라면 두번째 답변의 xpdf를 참조해보세요.

직접 서버를 구축 및 조작하실수 있다면  파이썬의 http://www.unixuser.org/~euske/python/pdfminer/ 이용하는 방법도 있습니다.

후처리를 위해서 필요한게 아니고 단순하게 웹상에서 사용자에게 볼수 있게만 하실꺼라면
https://mozilla.github.io/pdf.js/
를 이용하는게 더 간단할것 같습니다.

답변을 작성하시기 전에 로그인 해주세요.
QA 내용 검색
질문등록
전체 123,684
© SIRSOFT
현재 페이지 제일 처음으로