IT 와 DT/조각모음
[파이썬 Python] PDF에서 text 추출해 txt파일 저장하기
Eyhad
2022. 9. 16. 09:15
매달 올려야 할 인보이스 결재를 편하게 하고자 파이썬을 두드려봅니다
(●'◡'●)
→ STEP1 PDF에서 text 추출해 txt 파일로 저장
STEP2 txt 파일에서 필요한 부분 엑셀 특정 행/열에 저장
오늘은 STEP1만 챱챱
우선!! cmd에서 pip install PyPDF2하고 시작
from PyPDF2 import PdfFileReader, PdfFileWriter
file_path = '파일이름.pdf'
pdf = PdfFileReader(file_path)
with open('파일이름.txt', 'w') as f:
for page_num in range(pdf.numPages):
# print('Page: {0}'.format(page_num))
pageObj = pdf.getPage(page_num)
try:
txt = pageObj.extractText()
print(''.center(100, '-'))
except:
pass
else:
f.write('Page {0}\n'.format(page_num+1))
f.write(''.center(100, '-'))
f.write(txt)
f.close()