python+selenium扒取淘宝上的商品
cac55 2024-09-27 06:50 33 浏览 0 评论
使用的开源组件和版本
按照我写文章的调性,还是先列使用的技术和版本,如下:
python 3.8
selenium 3.141.0
背景和目标
python + selenium可以做很多的事情,最常见的就是扒取网上的信息了。我要做的商城正好需要模拟一些商品信息(造数据),但是商品不是特别容易模拟,涉及到图片、规格参数、详细介绍等,人工模拟根本不现实,所以就有了这篇文章的内容,目标我选择淘宝。
写代码第一步-先要对需求做一下分析,要明确以下两点:
- 1. 我要什么样的数据
简单来说我要的是一批商品数据,最好包括商品名称、价格、图片和详细介绍。考虑一下一般商城下的场景,对于商品,肯定首先要有分类,很可能分类不止一级,每个商品分类下才是具体某个商品,我们按照商品有两级分类先来设计一下相关的表结构(由于我的数据库是mongoDB,相关的表结构就直接用类json的形式表示了)
一级类目表
{category_name:"", category_label:""}
二级类目表
{second_cat_name, second_cat_abel, parent_category}
商品表
{
product_no, //商品唯一编号
product_name, //商品中文名
product_brand, //商品品牌
first_category, //一级分类
second_category, //二级分类
price, //商品价格
product_attrs: [] //商品规格参数
product_thumb_imgs: [] //商品缩略图
product_main_img: //商品主图
product_detail: //商品详细介绍
}
- 2.实现路径是什么样的
爬取网上的信息,其实只需要三步:
1. 控制浏览器打开一个窗口(driver)
2. 定位到某个元素 (location)
3. 获取这个元素的信息 (text)
看起来似乎挺简单(然而我搞了差不多一天),下面就详细介绍一下实现过程。
实现python对浏览器的控制
from selenium import webdriver
from selenium.webdriver.support.ui import WebDriverWait
browser = webdriver.Chrome(
executable_path="D:\CodeRepertories\python_projects\python_example\spider\drivers\chromedriver.exe")
wait = WebDriverWait(browser, 15)
browser.maximize_window()
browser.get('https://shopsearch.taobao.com/browse/shop_search.htm')
核心就是上面这段代码,当然首先你的python环境中需要先安装了selenium,并且chromedriver需要预先准备,下载地址如下:
http://npm.taobao.org/mirrors/chromedriver/
根据你的浏览器版本下载就可以了。
读取商品类目
首先我在浏览器上F12分析了淘宝首页,首页内容看似比较像类目,但实际内容并不是那种一级下面包含二级,二级下面包含商品这种,淘宝首页更像是加工过的,类目已经被打散了,我找到了另一个有明显类目的地址,就是上面的地址:
https://shopsearch.taobao.com/browse/shop_search.htm
这个其实是淘宝店铺搜索的页面
但是python控制打开这个页面时,淘宝自动重定向到了登录页面,额... 所以首先我们要过登录这一关,其实就是输入用户名密码(代码中我隐去了,不然泄露了...),点击登录就可以。然后才能打开目标页面
def fetch_product():
print('start...')
browser.get('https://shopsearch.taobao.com/browse/shop_search.htm')
browser.find_element_by_id("fm-login-id").send_keys("<user_name>")
browser.find_element_by_id("fm-login-password").send_keys("<password>")
browser.find_element_by_css_selector(".fm-btn > button").click()
wait.until(
EC.presence_of_element_located((By.CSS_SELECTOR, '#shopsearchindex-hotcat'))
)
# category = browser.find_elements_by_css_selector("[class='cat-menswear level-one-cat-item']")
category = browser.find_elements_by_css_selector(".level-one-cat-item")
for subCategory in category:
# 获取一级类目的英文标识,作为name
class_name = subCategory.get_attribute("class").split(' ')[0]
category_label = subCategory.find_element_by_css_selector(".level-one-cat").text
# 打印一级类目
category = {}
category['category_name'] = class_name[4:len(class_name)]
category['category_label'] = category_label
print(category)
这里有两个要点,一个是定位元素,css_selector非常强大,基本相当于写html页面中的class的时候的形式,通过id,css-class类名,标签等均可,如下几个例子:
# 使用class定位
browser.find_element_by_css_selector(".fm-btn > button").click()
# 也可以像下面这样
browser.find_elements_by_css_selector("[class='cat-menswear level-one-cat-item']")
# 或者通过id
browser.find_elements_by_css_selector("#J_AttrUL")
另一个是 wait.until 的使用,其实就是在当前页面等待,直到条件满足。一般是监控某一个元素出现。
读取商品二级类目下的商品
接下来就是读取二级类目了,接着上面的代码,subCategory已经包含了二级类目的名称,我们逐个获取就可以。
for secondLevel in subCategory.text.split('\n')[1:]:
# 打印二级类目
second_category = {}
second_category['second_cat_name'] = secondLevel
second_category['second_cat_abel'] = secondLevel
second_category['parent_category'] = class_name[4:len(class_name)]
print(second_category)
search_product_label(class_name[4:len(class_name)], secondLevel)
search_product_label方法就是通过二级类目获取类目下的商品了,我是通过将二级类目的中文描述放在首页上的搜索框内,触发搜索,然后在结果中找到对应的商品来实现的。
def search_product_label(first_category_name, second_category_label):
"""
移动端,爬取淘宝商品的方式,二级类目作为关键词搜索相关商品
:param first_category_name: 一级类目的英文名
:param second_category_label: 二级类目的中文描述
:return: None
"""
get_product_from_pc(first_category_name, second_category_label)
def get_product_from_pc(first_category_name, second_category_label):
"""
pc端,爬取淘宝商品的方式
:param first_category_name:
:param second_category_label:
:return:
"""
browser.get('https://www.taobao.com')
input = wait.until(
EC.presence_of_element_located((By.CSS_SELECTOR, '#q'))
)
submit = wait.until(
EC.element_to_be_clickable((By.CSS_SELECTOR, '#J_TSearchForm > div.search-button > button')))
input.send_keys(second_category_label)
# 搜索关键字
submit.click()
wait.until(EC.visibility_of_any_elements_located((By.CSS_SELECTOR, "#mainsrp-itemlist")))
products_list = browser.find_elements_by_css_selector("[class='item J_MouserOnverReq ']")
# 遍历商品列表每个商品打开一个新的窗口,获取其中的商品信息
for productItem in products_list:
try:
assemble_product(productItem)
except Exception as e:
print(e)
# 关闭当前窗口
browser.close()
browser.switch_to.window(browser.window_handles[0])
def assemble_product(productItem):
product = {}
# print(productItem.text)
product['product_main_img'] = "https:" + productItem.find_element_by_css_selector(
".pic-box-inner > div > a > img").get_attribute("src")
productItem.click()
browser.switch_to.window(browser.window_handles[-1])
# 先将页面滚动到底部,解决页面懒加载的时候元素没有出现的问题
browser.execute_script("window.scrollTo({top:1000,behavior: 'smooth'})")
wait.until(EC.visibility_of_element_located((By.CSS_SELECTOR, "#J_DetailMeta")))
url_params_list = browser.current_url.split('?')[1].split('&')
# 截取商品唯一标识
for params in url_params_list:
if params.startswith('id='):
product['product_no'] = params.split('=')[1]
# 截取商品名称
product['product_name'] = browser.find_element_by_css_selector(".tb-detail-hd > h1").text
# 商品品牌
brand_element = wait.until(EC.visibility_of_element_located((By.CSS_SELECTOR, "#J_BrandAttr > div > b")))
product['product_brand'] = brand_element.text
# 获取商品属性
attr_elements = browser.find_elements_by_css_selector("#J_AttrUL > li")
attr_list = []
for attr_element in attr_elements:
attr_list.append(attr_element.text)
product['product_attrs'] = attr_list
# 获取商品价格
product['price'] = browser.find_element_by_css_selector(".tm-price-panel > dd > span").text
# 获取商品图片,缩略图,保存时保存原图,不同尺寸的图可以通过增加尺寸后缀显示
img_elements = browser.find_elements_by_css_selector("#J_UlThumb > li > a > img")
thumb_img_list = []
for img in img_elements:
thumb_img_list.append("https:" + img.get_attribute("src").split('jpg_')[0] + "jpg")
product['product_thumb_imgs'] = thumb_img_list
# 获取商品详细介绍
desc_elements = browser.find_elements_by_css_selector("#description > .content > p > img")
detail_imgs = []
for detail in desc_elements:
detail_imgs.append(detail.get_attribute("src"))
product['product_detail'] = detail_imgs
print(product)
代码比较长,其实都是因为我要定位到特定的元素,或者点击某一个元素,要处理成我要的数据格式。其中关注两个地方就可以:
- 1. 触发点击某一个商品后浏览器打开了新的标签页,所以需要控制浏览器进入到新的页面中,然后在新页面中读取完成后要关闭标签页
product['product_main_img'] = "https:" + productItem.find_element_by_css_selector(
".pic-box-inner > div > a > img").get_attribute("src")
productItem.click()
# 控制跳转到新的标签页
browser.switch_to.window(browser.window_handles[-1])
.......
# 结束后关闭标签页并回到原来的列表页面
browser.close()
browser.switch_to.window(browser.window_handles[0])
- 2. 另一个地方就是下面这段代码:
browser.execute_script("window.scrollTo({top:1000,behavior: 'smooth'})")
这是控制浏览器向下滚动的,由于淘宝的懒加载机制,如果你的屏幕较小,打开页面时就只会展示一小段内容,下面的商品详情,品牌等信息根本没有加载,那么你的页面就会一直等待下去,直到超时!
(这里只是向下滚动了1000像素,实测下来大部分商品读取都没有问题了。但是其实并没有从根本上解决懒加载引起的问题,只能算是治标的方案,治本的,目前还没有头绪,我试了别的方式,比如直接滚动到底部,但是没有用,
直接滚动到底部,中间部分的内容其实仍未触发加载。)
然后就可以执行看结果了
if __name__ == "__main__":
fetch_product()
爬虫的部分就到这里了,其实还有最后一步是数据写入mongoDB,比较简单,这里就不写了,感兴趣的朋友可以看我之前的一篇文章。
如果觉得有用的话,可以抬手点个赞哦,后续还会有更多干货,欢迎关注。
相关推荐
- 小车五位自动循环往返控制_小车自动往返控制系统
-
需求描述:用三相异步电动机拖动一辆小车在A、B、C、D、E五点之间自动循环往返运行,小车初始在A点,按下启动按钮,小车依次前进到B、C、D、E点,并分别停止2s返回到A点停止。按下停止...
- 自动灌溉系统_自动灌溉系统by
-
需求描述:PLC时钟设定每日6:00、18:00自动启动灌溉系统,每次运行15分钟后停止;非定时时段按下手动灌溉按钮,立即启动并运行15分钟;土壤湿度传感器检测到湿润时,跳过本次定时灌溉...
- 主板ERP开启还是关闭好_主板设置erp是什么
-
主板功能的开启与关闭,本质是在“节能环保”和“使用便利”之间做选择。为帮你快速决策,先给出直接结论,再深入解析原理、影响及操作步骤,让你根据自身需求精准设置。一、直接结论:ERP功能如何选?...
- 新电脑必做5项设置!做完再玩,流畅安全多用三年
-
刚拿到新电脑,兴奋之余先别急着开机畅玩!做好以下这5大设置,能让你的爱机长期保持流畅如新,安全又省心。尤其是最后一招,很多老用户都不知道!1关闭隐私常规,杜绝数据偷跑新电脑首次开机进行系统初始化时,...
- 属于 PHP 开发者的 Supervisor 实用指南
-
属于PHP开发者的Supervisor实用指南在PHP开发中,我们经常需要运行一些后台进程:队列处理、长时间运行的脚本、WebSocket服务器等。这些进程可能会因为各种原因意外退出,手...
- 领导半夜12点微信派活?三句高情商回复,反手拿捏让他不敢再烦
-
友友们大家来啦!今天来和大家一起分享精彩话题老规矩先点赞再看文!0102别在这里害人了,现在能保住工作就烧高香了,再得瑟,明天早上去办离职0304很简单,把他一起拉上,每半小时打电话或语音汇报,一两次...
- "零点黑科技!硬盘自动备份+离线神操作,服务器数据安全躺赢"
-
公司有一台服务器,数据库需要每天零点进行数据库备份,要求在本机备份一次,再在移动硬盘上异地备份一次。备份完成后硬盘自动离线。具体思路如下:数据库自动备份时间为每天0点,备份过程约需1分钟。0点时开启硬...
- 峰谷电:白天贵、晚上便宜,你家真的适合开通吗?
-
电费单又超预算了?别急着关掉空调,其实你可能错过了一个"电费打折"的机会——峰谷电。它就像电影院的日场和夜场票,白天贵、晚上便宜,聪明利用,电费真的能省下来。一、峰谷电是什么?峰谷电把...
- 电脑开机密码设置全指南:从基础到进阶的安全防护
-
在数字化时代,电脑存储着大量个人隐私和重要数据,设置开机密码是保护信息安全的第一道防线。本文将系统介绍Windows、macOS、Linux三大主流操作系统及BIOS层面的密码设置方法,同时涵盖密码管...
- 自动喷香机_香薰机自动喷香机
-
需求描述:PLC时钟设定每日9:00、14:00、18:00自动启动喷雾,每次喷雾3秒后停止;非定时时段按下手动喷雾按钮,立即喷雾3秒;香薰液缺液传感器检测到液位过低时,停止喷雾并亮报警...
- macbook系统自动启动项在哪里查看
-
了解和管理MacBook的开机自动启动项,是优化系统启动速度和运行效率的好方法。下面我来为你介绍几种查看和管理这些启动项的方法。查看和管理MacBook启动项1.通过系统设置(最简单直接的方法)...
- 想让电脑自己到点开机和关机?这4个超实用的设置方法快收好!
-
嘿,你是不是也经常忙到忘记关电脑?或者早上想用电脑时发现还没开机?别慌,今天我就跟你分享几个超实用的方法,帮你轻松搞定电脑的定时开关机设置。不管你是电脑小白还是有点基础,这篇教程都能让你秒懂操作,省时...
- 定时关机这样操作小白也会 一招设定工作日关机 指定时间关机
-
在日常使用电脑的过程中,我们常常会遇到这样的情况:晚上睡觉前忘记手动关机,导致电脑整夜运行,既浪费电又缩短硬件寿命;或者在下载大文件时,需要等待很长时间才能完成,却不能一直守在电脑前,下载完成后也无法...
- 日本无线电操作证试题,这些问题你能答的上来吗?
-
一直以来,我们对于日本的业余无线电的印象都停留在“操作能力强,爱好者数目众多”上,然而我们对于他们的业余无线电体系所知甚少。日本业余无线电操作证的等级分作四级,最基本的四级操作证书具有8MHz以下、2...
- 你知道吗?单边带信号就像DNA分子一样!
-
我们在准备B级操作证书的过程中,避免不了的要接触到一个新的名词——SSB。单边带是传统AM模式的一种特殊的形式,在传送相同的信息的过程中,其占用的带宽仅为AM模式的一半,那么SSB模式到底是怎样的一种...
你 发表评论:
欢迎- 一周热门
- 最近发表
- 标签列表
-
- 如何绘制折线图 (52)
- javaabstract (48)
- 新浪微博头像 (53)
- grub4dos (66)
- s扫描器 (51)
- httpfile dll (48)
- ps实例教程 (55)
- taskmgr (51)
- s spline (61)
- vnc远程控制 (47)
- 数据丢失 (47)
- wbem (57)
- flac文件 (72)
- 网页制作基础教程 (53)
- 镜像文件刻录 (61)
- ug5 0软件免费下载 (78)
- debian下载 (53)
- ubuntu10 04 (60)
- web qq登录 (59)
- 笔记本变成无线路由 (52)
- flash player 11 4 (50)
- 右键菜单清理 (78)
- cuteftp 注册码 (57)
- ospf协议 (53)
- ms17 010 下载 (60)