이전 목록 다음
채택완료

pdf 문서의 글씨를 추출하는 오픈소스가 있나요??

저장된 파일을 검사해서 pdf일 경우, pdf내에 글씨를 가져와서 출력하는 것을

 

만들고 싶은데 어떻게 해야 할 지 모르겠습니다..

|

답변 2개 / 댓글 1개

채택된 답변
+20 포인트

원본 PDF에 저장된 형식에 따라서 달라집니다.

 

텍스트형태로 저장했다면 변환프로그램을 활용할수 있지만, 일부는 이미지형태로 PDF로 변환되있는 경우도 있기때문에 모든경우에 대응하실려면 많은 기술이 필요할것 같습니다.

 

텍스트형태라면 https://stackoverflow.com/questions/14782751/convert-pdf-to-html-in-php 을 참조해보세요.

로그인 후 평가할 수 있습니다

답변에 대한 댓글 1개

말씀하신 프로그램은 윈도우 환경에서 작동할것으로 예상됩니다.
리눅스 환경이시라면 두번째 답변의 xpdf를 참조해보세요.

직접 서버를 구축 및 조작하실수 있다면 파이썬의 http://www.unixuser.org/~euske/python/pdfminer/ 이용하는 방법도 있습니다.

후처리를 위해서 필요한게 아니고 단순하게 웹상에서 사용자에게 볼수 있게만 하실꺼라면
https://mozilla.github.io/pdf.js/
를 이용하는게 더 간단할것 같습니다.

댓글을 작성하려면 로그인이 필요합니다.

thumb-3543499036_1590475334.1784_730x130.png

 

 

가장 추천수가 높은 답변글을 써봤는데 폴더만 생성되고 pdf는 안나오네요... 응용프로그램까지 옮겨놨는데

로그인 후 평가할 수 있습니다

댓글을 작성하려면 로그인이 필요합니다.

답변을 작성하려면 로그인이 필요합니다.

로그인
🐛 버그신고