pdf 중복 문서 체크 방법(중복 문서 체크 솔루션)
본문
pdf문서에서 txt만 저장한 다음. 중복된 문서를 가려 내려 합니다.
txt로 저장하는것은 xpdf에 있는 프로그램으로 처리가 되었는데 중복 문서 체크 하는것이 어렵습니다. 문서가 100만 단위여서 빠르게 체크할 방법을 찾고 있는 중입니다.
무료 검색엔진에는 아파치의 solr 같은것이 있던데요.
검색엔진이 있으면 중복문서 솔루션도 있을것 같은데 찾아도 보이질 않아 혹시 보신분 있으시면 덧글 부탁드립니다.
답변 1
안녕하세요? ^^
즐거운 일욜 오후 보내고 계시는가요??
구글링해보니 아래와 같은 솔루션들이 있네요~
위 문서에 소개된 프로그램들은 PDF 파일뿐만 아니라 범용으로 사용할 수 있네요 :)
만약 직접 구현하셔야 된다면,
PDF 파일의 MD5 hash를 구하여 파일명과 hash값을 DB에 넣은 후
SQL문에서 HAVING COUNT(*) > 1을 사용하여 동일한 값을 찾는 방법은 어떨까요? ^-^
그럼 남은 주말 즐겁게 보내세요~!
답변을 작성하시기 전에 로그인 해주세요.