파이썬 pdf 텍스트 추출

IT 관련/파이썬

과정에서 오는 행복 2022. 5. 20. 14:36

[사전설치]
>>> pip install pdfplumber

[코딩]
import pdfplumber

with pdfplumber.open("[토이매거진]5월호.pdf") as pdf :

for i, page in enumerate(pdf.pages): # enumerate 인덱스 값과 콘텐츠도 같이 가져옴

print(i, page)

# 24 <Page:25>

# ...

# 190 <Page:191>

with pdfplumber.open("[토이매거진]5월호.pdf") as pdf :

#for page in pdf.pages :

# print(pdf.pages[131]) # 특정페이지의 텍스트만 가져옴

#print(pdf.pages[131].extract_text()) # 특정페이지의 텍스트만 가져옴

print(pdf.pages[131].height, pdf.pages[131].width)

crop_content = pdf.pages[131].crop(bbox = (100, 300, 300, 500)) # 특정 좌표 값만 가져옴

print(crop_content.extract_text())

[이미지]

[결과]
아카데미과학
토이트론
데이비드토이
한립토이스
오즈토이

지식을 나눠요