그누보드 - PDF 파일 에서 텍스트 추출

PDF 파일 에서 텍스트 추출 > 자유게시판

자유게시판

PDF 파일 에서 텍스트 추출 정보

PDF 파일 에서 텍스트 추출

솔그루 자기소개 아이디로 검색 전체게시물 회원게시물 (58.♡.♡.95)
2022.07.16 11:26:20
조회 691
댓글 3

본문

PDF에서 특정 텍스트를 추출하여 DB화 시키는 업무가 주어졌습니다.

PHP로 진행하는 프로젝트라, 일단 PHP 라이브러리를 찾아보고, 샘플코드를 돌려보았습니다.

음... 텍스트가 50%이하로 추출됩니다. 추출되지 않은 글자가 깨진것처럼 보여서 인코딩 문제가 아닐까 생각되네요.

mac에서 해서 발생한 문제라, linux나 windows 에서는 발생안할수도 있다는 생각이 들었지만, 찾는데 시간이 걸리니 이정도로 테스트를 멈췄습니다.

두번째로 자바로 텍스트를 추출했습니다. github에 별이 제일 많은걸로 테스트.

데이타가 99% 이상 잘 추출되고, 추출된 텍스트의 줄띄움도 들어가 있어서, 그냥봐도 구분이 될정도로 깔끔하게 표시됩니다.

원래 크롤링이나 데이타 쪽은 파이썬이 강세라서 한번 테스트 해볼려다가, 자바쪽 품질이 좋아서 패스했습니다.

(파이썬도 99%이상 잘 추출될거라 생각되네요.)

결론) PDF에서 텍스트(특히 한글) 추출은 java나 파이썬으로 하세요.

시간이 된다면,

PDF에서 텍스트를 추출해서, 번역기 처리를 한뒤에, 다시 PDF문서로 변환하는 작업을 한번 해보고 싶네요.

이게 노가다이긴 한데, 쓸모가 있어 보이네요. (논문 검색 사이트에 이런 기능이 들어간걸 본것 같음)

베스트댓글

베스트 jihan006 자기소개 아이디로 검색 전체게시물 회원게시물

자기소개 아이디로 검색 전체게시물 회원게시물

(104.♡.♡.35)

22.07.16 11:34:51 모바일

PHP는 웹사이트 외에 다른 용도로 사용하기에는 무리죠. 그렇다보니 그런 기능을하는 라이브러리도 매우 취약하고요. 해봤자 복잡하지않은 엑셀 파일 다루는 정도까지죠.

댓글 3개

jihan006 자기소개 아이디로 검색 전체게시물 회원게시물

자기소개 아이디로 검색 전체게시물 회원게시물

(104.♡.♡.35)

22.07.16 11:34:51 모바일

리오닥터 자기소개 아이디로 검색 전체게시물 회원게시물

자기소개 아이디로 검색 전체게시물 회원게시물

(175.♡.♡.161)

22.07.16 15:21:40

고생하셨습니다~

Innisfree 자기소개 아이디로 검색 전체게시물 회원게시물

자기소개 아이디로 검색 전체게시물 회원게시물

(117.♡.♡.153)

22.07.16 17:49:33

고생하였습니다 ㅠㅠ
위추 꾹 눌러드렸어요~!
제 경험상 Python의 경우 널리 사용되는 모듈인 PyPDF2는 한글 인코딩에 문제가 있으므로
PDFMiner 또는 PDFPlumber를 추천 드립니다 :)
그럼 좋은 주말 되세요!

전체 118 |RSS

로그인

진행중 포인트경매

PDF 파일 에서 텍스트 추출 > 자유게시판

자유게시판

본문

베스트댓글

댓글 3개

회원로그인

로그인

진행중 포인트경매