IT 관련/파이썬

파이썬 pdf 텍스트 추출

과정에서 오는 행복 2022. 5. 20. 14:36

[사전설치]
>>> pip install pdfplumber

[코딩]
import pdfplumber

with pdfplumber.open("[토이매거진]5월호.pdf") as pdf :
    for i, page in enumerate(pdf.pages):  # enumerate 인덱스 값과 콘텐츠도 같이 가져옴
        print(i, page)
        # 24 <Page:25>
        # ...
        # 190 <Page:191>

with pdfplumber.open("[토이매거진]5월호.pdf") as pdf :
    #for page in pdf.pages :
    # print(pdf.pages[131])       # 특정페이지의 텍스트만 가져옴

    #print(pdf.pages[131].extract_text())        # 특정페이지의 텍스트만 가져옴

    print(pdf.pages[131].height, pdf.pages[131].width)
    crop_content = pdf.pages[131].crop(bbox = (100, 300, 300, 500))     # 특정 좌표 값만 가져옴
    print(crop_content.extract_text())

[이미지]


[결과]
아카데미과학
토이트론
데이비드토이
한립토이스
오즈토이

 

반응형