I

[Python] HWP 파일을 불러오기

· 3년 전 · 6520

리눅스 백엔드에서 HWP 파일을 처리하는 것은 상당히 골치아픈 일입니다.

다행히 Python에는 HWP 파일을 핸들링하는 모듈도 있습니다 ^^

 

1. Olefile

[code]

import olefile 

 

= olefile.OleFileIO('한컴파일.hwp'# HWP 파일 열기

encoded_text = f.openstream('PrvText').read() # PrvText 스트림의 내용 꺼내기

decoded_text = encoded_text.decode('UTF-16'# 유니코드를 UTF-16으로 디코딩

print(decoded_text)

[/code]

 

Olefile 모듈은 Microsoft OLE2 파일을 조작하기 위한 모듈로서

위와 같은 방법으로 한컴 HWP 파일도 불러올 수 있습니다 ^^

 

 

2. PyHWP의 HWP5TXT

[code]

from subprocess import Popen, PIPE

 

file = '한컴파일.hwp'

process = Popen(['hwp5txt'file], stdout=PIPE, stderr=PIPE)

stdout, stderr = process.communicate()

data = stdout.decode('utf-8')

print(data)

[/code]

 

PyHWP 모듈은 Olefile에 dependent하기 때문에

Olefile에서 제대로 불러오지 못하는 HWP 파일의 경우

PyHWP에서도 마찬가지로 잘 불러올 수 없다는 문제가 있습니다.

그러한 경우에 위와 같이 PyHWP 설치시 함께 설치되는 hwp5txt.exe 파일을 이용하면

대부분의 문제를 해결할 수 있습니다 ^^

다만 EXE 파일이므로 윈도우 환경에서만 실행 가능하다는 한계가 있습니다.

|
댓글을 작성하시려면 로그인이 필요합니다. 로그인

개발자팁

개발과 관련된 유용한 정보를 공유하세요. 질문은 QA에서 해주시기 바랍니다.

+
분류 제목 글쓴이 날짜 조회
OS 3년 전 조회 1,385
PHP 3년 전 조회 1,173
PHP 3년 전 조회 1,461
Mobile 3년 전 조회 1,435
PHP 3년 전 조회 2,385
MySQL 3년 전 조회 2,998
OS 3년 전 조회 2,092
JavaScript 3년 전 조회 1,583
PHP 3년 전 조회 1,586
기타 3년 전 조회 1,344
PHP 3년 전 조회 4,630
PHP 3년 전 조회 1,615
기타 3년 전 조회 1.2만
기타 3년 전 조회 2,452
기타 3년 전 조회 6,521
기타 3년 전 조회 3,767
기타 3년 전 조회 1,554
JavaScript 3년 전 조회 1,725
기타 3년 전 조회 1,315
기타 3년 전 조회 1,518
기타 3년 전 조회 1,353
웹서버 3년 전 조회 2,247
PHP 3년 전 조회 1,379
PHP 3년 전 조회 2,084
PHP 3년 전 조회 1,574
JavaScript 3년 전 조회 2,185
JavaScript 3년 전 조회 2,114
기타 3년 전 조회 1,474
JavaScript 3년 전 조회 2,032
기타 3년 전 조회 1,389
🐛 버그신고