PDF 파일 에서 텍스트 추출 > 자유게시판

자유게시판

PDF 파일 에서 텍스트 추출 정보

PDF 파일 에서 텍스트 추출

본문

PDF에서 특정 텍스트를 추출하여 DB화 시키는 업무가 주어졌습니다.

 

PHP로 진행하는 프로젝트라, 일단 PHP 라이브러리를 찾아보고, 샘플코드를 돌려보았습니다.

음... 텍스트가 50%이하로 추출됩니다. 추출되지 않은  글자가 깨진것처럼 보여서 인코딩 문제가 아닐까 생각되네요.

mac에서 해서 발생한 문제라, linux나 windows 에서는 발생안할수도 있다는 생각이 들었지만, 찾는데 시간이 걸리니 이정도로 테스트를 멈췄습니다.

 

두번째로 자바로 텍스트를 추출했습니다. github에 별이 제일 많은걸로 테스트. 

데이타가 99% 이상 잘 추출되고, 추출된 텍스트의 줄띄움도 들어가 있어서, 그냥봐도 구분이 될정도로 깔끔하게 표시됩니다.

 

원래 크롤링이나 데이타 쪽은 파이썬이 강세라서 한번 테스트 해볼려다가, 자바쪽 품질이 좋아서 패스했습니다.

(파이썬도 99%이상 잘 추출될거라 생각되네요.)

 

결론) PDF에서 텍스트(특히 한글) 추출은 java나 파이썬으로 하세요.

 

시간이 된다면,

PDF에서 텍스트를 추출해서, 번역기 처리를 한뒤에, 다시 PDF문서로 변환하는 작업을 한번 해보고 싶네요.

이게 노가다이긴 한데, 쓸모가 있어 보이네요. (논문 검색 사이트에 이런 기능이 들어간걸 본것 같음)

추천
2

베스트댓글

댓글 3개

PHP는 웹사이트 외에 다른 용도로 사용하기에는 무리죠. 그렇다보니 그런 기능을하는 라이브러리도 매우 취약하고요. 해봤자 복잡하지않은 엑셀 파일 다루는 정도까지죠.
고생하였습니다 ㅠㅠ
위추 꾹 눌러드렸어요~!
제 경험상 Python의 경우 널리 사용되는 모듈인 PyPDF2는 한글 인코딩에 문제가 있으므로
PDFMiner 또는 PDFPlumber를 추천 드립니다 :)
그럼 좋은 주말 되세요!
전체 118 |RSS
자유게시판 내용 검색

회원로그인

진행중 포인트경매

  1. 참여71 회 시작24.04.19 15:40 종료24.04.26 15:40
(주)에스아이알소프트 / 대표:홍석명 / (06211) 서울특별시 강남구 역삼동 707-34 한신인터밸리24 서관 1404호 / E-Mail: admin@sir.kr
사업자등록번호: 217-81-36347 / 통신판매업신고번호:2014-서울강남-02098호 / 개인정보보호책임자:김민섭(minsup@sir.kr)
© SIRSOFT