오늘은 파이썬 두 번째 포스팅으로 특정 게시판의 제목을 크롤링하여 엑셀 파일에 저장하는 소스를 작성해 보도록 하겠습니다. 해당 강좌는 인프런의 잔재미코딩님의 강좌를 기반으로 작성되는 것이고 공부한 내용의 복습 차원에서 제가 이해하고 있는 부분에 대해 메모를 남겨 놓는 포스팅입니다.
from urllib.requests import urlopen
from bs4 import BeautifulSoup
import openpyxl
# 파이썬 엑셀파일 클래스 임포트
excel_file = openpyxl.Workbook()
excel_sheet = excel_file.active
excel_sheet.column_dimensions['B'].width = 100
# 엑셀 시트에서 B 컬럼의 가로폭을 조정
num = 0
excel_sheet.append(['No', 'Subject'])
# 엑셀 첫행에 No / Subject 삽입
res = urlopen('https://seeko.earlyadopter.co.kr/bbs/board.php?bo_table=mainnews')
soup = BeautifulSoup(res, 'html.parser')
data = soup.select('li >div.wr-subject > a')
for item in data:
num += 1
excel_sheet.append([num, item.get_text().replace('\t', '').replace('\n', '')])
# 크롤링한 제목의 탭/줄바꿈을 replace ( 문자열 치환 ) 하여 공백으로 처리
excel_A1 = excel_sheet['A1']
excel_A1.alignment = openpyxl.styles.Alignment(horizontal = "center")
# 엑셀 A1 열을 센터로 정렬
excel_B1 = excel_sheet['B1']
excel_B1.alignment = openpyxl.styles.Alignment(horizontal = "center")
# 엑셀 파일 저장 ( 괄호 안에 파일명으로 엑셀 파일 생성 )
excel_file.save('test.xlsx')
excel_file.close()
'Coding Study > Python' 카테고리의 다른 글
파이썬으로 특정 사이트 로그인해서 정보 크롤링하기 (2) | 2020.02.25 |
---|---|
파이썬 - 공공 데이터 포털 Open API XML 데이터 가져오기 (0) | 2020.02.20 |
파이썬 - 네이버 Open API 를 이용한 쇼핑 검색결과 엑셀 파일에 저장하기 (1) | 2020.02.17 |
파이썬 웹크롤링 - 네이버 쇼핑 BEST 100 상품명 크롤링하기 (0) | 2020.02.12 |
파이썬 웹크롤링(1) - Bloter 기사 제목 크롤링하기 (0) | 2020.02.09 |