IT 관련/파이썬
파이썬 pdf 텍스트 추출
과정에서 오는 행복
2022. 5. 20. 14:36
[사전설치]
>>> pip install pdfplumber
[코딩]
import pdfplumber
with pdfplumber.open("[토이매거진]5월호.pdf") as pdf :
for i, page in enumerate(pdf.pages): # enumerate 인덱스 값과 콘텐츠도 같이 가져옴
print(i, page)
# 24 <Page:25>
# ...
# 190 <Page:191>
with pdfplumber.open("[토이매거진]5월호.pdf") as pdf :
#for page in pdf.pages :
# print(pdf.pages[131]) # 특정페이지의 텍스트만 가져옴
#print(pdf.pages[131].extract_text()) # 특정페이지의 텍스트만 가져옴
print(pdf.pages[131].height, pdf.pages[131].width)
crop_content = pdf.pages[131].crop(bbox = (100, 300, 300, 500)) # 특정 좌표 값만 가져옴
print(crop_content.extract_text())
[이미지]

[결과]
아카데미과학
토이트론
데이비드토이
한립토이스
오즈토이
반응형