728x90
반응형
오늘은 2일 전에 포스팅했던 G마켓 베스트 100 > 패션의류 카테고리 페이지의 상품명과 가격을 크롤링하고 해당 상품의 상품 상세 페이지의 공급사 정보까지 추가적으로 크롤링하는 소스를 작성해 보도록 하겠습니다. 아직 파이썬 초보 개발자로서 제가 공부하고 코딩해 본 소스에 대해 기록을 남기는 차원입니다.
import requests
from bs4 import BeautifulSoup
res = requests.get('http://corners.gmarket.co.kr/Bestsellers?viewType=G&groupCode=G01')
soup = BeautifulSoup(res.content, 'html.parser')
data = soup.select('div.best-list')
dataitems = data[1]
products = dataitems.select('ul > li')
for index, product in enumerate(products):
title = product.select_one('a.itemname')
price = product.select_one('div.s-price > strong')
res_info = requests.get(title['href'])
# itemname class의 href 태그 데이터를 res_info 변수에 저장
soup_info = BeautifulSoup(res_info.content, 'html.parser')
provider_info = soup_info.select_one('div.item-topinfo > div.item-topinfo_headline > p > a > strong')
# 공급사명 데이터 추출
print(str(index + 1)+'.', title.get_text(), price.get_text(), provider_info.get_text())
# 상품명앞에 번호를 추가하기 위해 index 변수를 1씩 증가시켜 문자열로 type 변환
# provider_info 는 상품상세페이지의 공급사명 데이터를 가지고 있는 변수를 출력
728x90
반응형
'Coding Study > Python' 카테고리의 다른 글
( Python ) 지마켓 베스트 카테고리 - 상품명, 가격 중복 크롤링하기 (0) | 2020.11.24 |
---|---|
네이버 쇼핑 특정 카테고리 인기상품 Top 100 크롤링해서 엑셀파일에 저장하기 (0) | 2020.11.21 |
Python - 네이버 Open API 를 이용해서 특정 키워드 뉴스 10개 가져오기 (0) | 2020.11.19 |
파이썬 기초를 위해 어떤 강의를 들어야 할까? (0) | 2020.05.24 |
Python - Mysql 접속하기 / Query 구문 실행하기 (0) | 2020.03.16 |