[사전설치]
>>> pip install pdfplumber
[코딩]
import pdfplumber
with pdfplumber.open("[토이매거진]5월호.pdf") as pdf :
for i, page in enumerate(pdf.pages): # enumerate 인덱스 값과 콘텐츠도 같이 가져옴
print(i, page)
# 24 <Page:25>
# ...
# 190 <Page:191>
with pdfplumber.open("[토이매거진]5월호.pdf") as pdf :
#for page in pdf.pages :
# print(pdf.pages[131]) # 특정페이지의 텍스트만 가져옴
#print(pdf.pages[131].extract_text()) # 특정페이지의 텍스트만 가져옴
print(pdf.pages[131].height, pdf.pages[131].width)
crop_content = pdf.pages[131].crop(bbox = (100, 300, 300, 500)) # 특정 좌표 값만 가져옴
print(crop_content.extract_text())
[이미지]
[결과]
아카데미과학
토이트론
데이비드토이
한립토이스
오즈토이
반응형
'IT 관련 > 파이썬' 카테고리의 다른 글
파이썬 Superset 연결 (1) | 2022.05.20 |
---|---|
파이썬 image 내용 추출 (0) | 2022.05.20 |
파이썬 파일 올리고 내리기(sftp) (0) | 2022.05.20 |
파이썬 selelium (자동 스크롤) (0) | 2022.05.20 |
파이썬 selenium (브라우저 여러개 띄우기) (0) | 2022.05.20 |