IT 와 DT/조각모음

[파이썬 Python] PDF에서 text 추출해 txt파일 저장하기

Eyhad 2022. 9. 16. 09:15

매달 올려야 할 인보이스 결재를 편하게 하고자 파이썬을 두드려봅니다

 

(●'◡'●)

 

 

→  STEP1  PDF에서 text 추출해 txt 파일로 저장

      STEP2  txt 파일에서 필요한 부분 엑셀 특정 행/열에 저장 

 

오늘은 STEP1만 챱챱

 

 

 

 

 

 

우선!! cmd에서 pip install PyPDF2하고 시작  

 

 

from PyPDF2 import PdfFileReader, PdfFileWriter

file_path = '파일이름.pdf'
pdf = PdfFileReader(file_path)

with open('파일이름.txt', 'w') as f:
    for page_num in range(pdf.numPages):
        # print('Page: {0}'.format(page_num))
        pageObj = pdf.getPage(page_num)

        try:
            txt = pageObj.extractText()
            print(''.center(100, '-'))
        except:
            pass
        else:
            f.write('Page {0}\n'.format(page_num+1))
            f.write(''.center(100, '-'))
            f.write(txt)
    f.close()

 

 

 

 

'IT 와 DT > 조각모음' 카테고리의 다른 글

Database Lock 데이터베이스 락  (0) 2023.01.11
Data Measurement Chart  (0) 2022.10.14
OSI 7 계층 (OSI 7 Layer)  (1) 2022.09.14