百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

python+selenium扒取淘宝上的商品

cac55 2024-09-27 06:50 26 浏览 0 评论

使用的开源组件和版本

按照我写文章的调性,还是先列使用的技术和版本,如下:

python 3.8

selenium 3.141.0

背景和目标

python + selenium可以做很多的事情,最常见的就是扒取网上的信息了。我要做的商城正好需要模拟一些商品信息(造数据),但是商品不是特别容易模拟,涉及到图片、规格参数、详细介绍等,人工模拟根本不现实,所以就有了这篇文章的内容,目标我选择淘宝。



写代码第一步-先要对需求做一下分析,要明确以下两点:

  1. 1. 我要什么样的数据

简单来说我要的是一批商品数据,最好包括商品名称、价格、图片和详细介绍。考虑一下一般商城下的场景,对于商品,肯定首先要有分类,很可能分类不止一级,每个商品分类下才是具体某个商品,我们按照商品有两级分类先来设计一下相关的表结构(由于我的数据库是mongoDB,相关的表结构就直接用类json的形式表示了)

一级类目表

{category_name:"", category_label:""}

二级类目表

{second_cat_name, second_cat_abel, parent_category}

商品表

{

product_no, //商品唯一编号

product_name, //商品中文名

product_brand, //商品品牌

first_category, //一级分类

second_category, //二级分类

price, //商品价格

product_attrs: [] //商品规格参数

product_thumb_imgs: [] //商品缩略图

product_main_img: //商品主图

product_detail: //商品详细介绍

}

  1. 2.实现路径是什么样的

爬取网上的信息,其实只需要三步:

1. 控制浏览器打开一个窗口(driver)

2. 定位到某个元素 (location)

3. 获取这个元素的信息 (text)

看起来似乎挺简单(然而我搞了差不多一天),下面就详细介绍一下实现过程。

实现python对浏览器的控制

from selenium import webdriver
from selenium.webdriver.support.ui import WebDriverWait

browser = webdriver.Chrome(
    executable_path="D:\CodeRepertories\python_projects\python_example\spider\drivers\chromedriver.exe")
wait = WebDriverWait(browser, 15)

browser.maximize_window()
browser.get('https://shopsearch.taobao.com/browse/shop_search.htm')

核心就是上面这段代码,当然首先你的python环境中需要先安装了selenium,并且chromedriver需要预先准备,下载地址如下:

http://npm.taobao.org/mirrors/chromedriver/

根据你的浏览器版本下载就可以了。

读取商品类目

首先我在浏览器上F12分析了淘宝首页,首页内容看似比较像类目,但实际内容并不是那种一级下面包含二级,二级下面包含商品这种,淘宝首页更像是加工过的,类目已经被打散了,我找到了另一个有明显类目的地址,就是上面的地址:

https://shopsearch.taobao.com/browse/shop_search.htm

这个其实是淘宝店铺搜索的页面

但是python控制打开这个页面时,淘宝自动重定向到了登录页面,额... 所以首先我们要过登录这一关,其实就是输入用户名密码(代码中我隐去了,不然泄露了...),点击登录就可以。然后才能打开目标页面

def fetch_product():
    print('start...')
    browser.get('https://shopsearch.taobao.com/browse/shop_search.htm')
    browser.find_element_by_id("fm-login-id").send_keys("<user_name>")
    browser.find_element_by_id("fm-login-password").send_keys("<password>")
    browser.find_element_by_css_selector(".fm-btn > button").click()
    wait.until(
        EC.presence_of_element_located((By.CSS_SELECTOR, '#shopsearchindex-hotcat'))
    )
    # category = browser.find_elements_by_css_selector("[class='cat-menswear level-one-cat-item']")
    category = browser.find_elements_by_css_selector(".level-one-cat-item")
    for subCategory in category:
        # 获取一级类目的英文标识,作为name
        class_name = subCategory.get_attribute("class").split(' ')[0]
        category_label = subCategory.find_element_by_css_selector(".level-one-cat").text
        # 打印一级类目
        category = {}
        category['category_name'] = class_name[4:len(class_name)]
        category['category_label'] = category_label
        print(category)

这里有两个要点,一个是定位元素,css_selector非常强大,基本相当于写html页面中的class的时候的形式,通过id,css-class类名,标签等均可,如下几个例子:

# 使用class定位
browser.find_element_by_css_selector(".fm-btn > button").click()
# 也可以像下面这样
browser.find_elements_by_css_selector("[class='cat-menswear level-one-cat-item']")
# 或者通过id
browser.find_elements_by_css_selector("#J_AttrUL")

另一个是 wait.until 的使用,其实就是在当前页面等待,直到条件满足。一般是监控某一个元素出现。

读取商品二级类目下的商品

接下来就是读取二级类目了,接着上面的代码,subCategory已经包含了二级类目的名称,我们逐个获取就可以。

for secondLevel in subCategory.text.split('\n')[1:]:
            # 打印二级类目
            second_category = {}
            second_category['second_cat_name'] = secondLevel
            second_category['second_cat_abel'] = secondLevel
            second_category['parent_category'] = class_name[4:len(class_name)]
            print(second_category)
            search_product_label(class_name[4:len(class_name)], secondLevel)

search_product_label方法就是通过二级类目获取类目下的商品了,我是通过将二级类目的中文描述放在首页上的搜索框内,触发搜索,然后在结果中找到对应的商品来实现的。

def search_product_label(first_category_name, second_category_label):
    """
    移动端,爬取淘宝商品的方式,二级类目作为关键词搜索相关商品
    :param first_category_name: 一级类目的英文名
    :param second_category_label: 二级类目的中文描述
    :return: None
    """
    get_product_from_pc(first_category_name, second_category_label)


def get_product_from_pc(first_category_name, second_category_label):
    """
    pc端,爬取淘宝商品的方式
    :param first_category_name:
    :param second_category_label:
    :return:
    """
    browser.get('https://www.taobao.com')
    input = wait.until(
        EC.presence_of_element_located((By.CSS_SELECTOR, '#q'))
    )
    submit = wait.until(
        EC.element_to_be_clickable((By.CSS_SELECTOR, '#J_TSearchForm > div.search-button > button')))
    input.send_keys(second_category_label)
    # 搜索关键字
    submit.click()
    wait.until(EC.visibility_of_any_elements_located((By.CSS_SELECTOR, "#mainsrp-itemlist")))
    products_list = browser.find_elements_by_css_selector("[class='item J_MouserOnverReq  ']")
    # 遍历商品列表每个商品打开一个新的窗口,获取其中的商品信息
    for productItem in products_list:
        try:
            assemble_product(productItem)
        except Exception as e:
            print(e)
        # 关闭当前窗口
        browser.close()
        browser.switch_to.window(browser.window_handles[0])


def assemble_product(productItem):
    product = {}
    # print(productItem.text)
    product['product_main_img'] = "https:" + productItem.find_element_by_css_selector(
        ".pic-box-inner > div > a > img").get_attribute("src")
    productItem.click()
    browser.switch_to.window(browser.window_handles[-1])
    # 先将页面滚动到底部,解决页面懒加载的时候元素没有出现的问题
    browser.execute_script("window.scrollTo({top:1000,behavior: 'smooth'})")
    wait.until(EC.visibility_of_element_located((By.CSS_SELECTOR, "#J_DetailMeta")))
    url_params_list = browser.current_url.split('?')[1].split('&')
    # 截取商品唯一标识
    for params in url_params_list:
        if params.startswith('id='):
            product['product_no'] = params.split('=')[1]
    # 截取商品名称
    product['product_name'] = browser.find_element_by_css_selector(".tb-detail-hd > h1").text
    # 商品品牌
    brand_element = wait.until(EC.visibility_of_element_located((By.CSS_SELECTOR, "#J_BrandAttr > div > b")))
    product['product_brand'] = brand_element.text
    # 获取商品属性
    attr_elements = browser.find_elements_by_css_selector("#J_AttrUL > li")
    attr_list = []
    for attr_element in attr_elements:
        attr_list.append(attr_element.text)
    product['product_attrs'] = attr_list
    # 获取商品价格
    product['price'] = browser.find_element_by_css_selector(".tm-price-panel > dd > span").text
    # 获取商品图片,缩略图,保存时保存原图,不同尺寸的图可以通过增加尺寸后缀显示
    img_elements = browser.find_elements_by_css_selector("#J_UlThumb > li > a > img")
    thumb_img_list = []
    for img in img_elements:
        thumb_img_list.append("https:" + img.get_attribute("src").split('jpg_')[0] + "jpg")
    product['product_thumb_imgs'] = thumb_img_list
    # 获取商品详细介绍
    desc_elements = browser.find_elements_by_css_selector("#description > .content > p > img")
    detail_imgs = []
    for detail in desc_elements:
        detail_imgs.append(detail.get_attribute("src"))
    product['product_detail'] = detail_imgs
    print(product)

代码比较长,其实都是因为我要定位到特定的元素,或者点击某一个元素,要处理成我要的数据格式。其中关注两个地方就可以:

  1. 1. 触发点击某一个商品后浏览器打开了新的标签页,所以需要控制浏览器进入到新的页面中,然后在新页面中读取完成后要关闭标签页
product['product_main_img'] = "https:" + productItem.find_element_by_css_selector(
        ".pic-box-inner > div > a > img").get_attribute("src")
    productItem.click()
    # 控制跳转到新的标签页
    browser.switch_to.window(browser.window_handles[-1])

    .......
    # 结束后关闭标签页并回到原来的列表页面
    browser.close()
    browser.switch_to.window(browser.window_handles[0])
  1. 2. 另一个地方就是下面这段代码:


browser.execute_script("window.scrollTo({top:1000,behavior: 'smooth'})")

这是控制浏览器向下滚动的,由于淘宝的懒加载机制,如果你的屏幕较小,打开页面时就只会展示一小段内容,下面的商品详情,品牌等信息根本没有加载,那么你的页面就会一直等待下去,直到超时!

(这里只是向下滚动了1000像素,实测下来大部分商品读取都没有问题了。但是其实并没有从根本上解决懒加载引起的问题,只能算是治标的方案,治本的,目前还没有头绪,我试了别的方式,比如直接滚动到底部,但是没有用,

直接滚动到底部,中间部分的内容其实仍未触发加载。)


然后就可以执行看结果了

if __name__ == "__main__":
    fetch_product()



爬虫的部分就到这里了,其实还有最后一步是数据写入mongoDB,比较简单,这里就不写了,感兴趣的朋友可以看我之前的一篇文章。

如果觉得有用的话,可以抬手点个赞哦,后续还会有更多干货,欢迎关注。

相关推荐

基于FPGA的伪随机序列发生器设计(fpga伪随机数发生器)

基于FPGA的伪随机序列发生器设计1基本概念与应用1)LFSR:线性反馈移位寄存器(linearfeedbackshiftregister,LFSR)是指给定前一状态的输出,将该输出的线性...

基于MATLAB的BP神经网络预测计算App

BP(BackPropagation)神经网络可用于数据的预测,是经常使用的预测方法之一。之前介绍了基于MATLAB的guide制作的BP神经网络预测计算GUI界面,但是随着MATLAB版本的更新,之...

《matlab/simulink仿真ROS学习笔记》第1期

PC平台:window10软件平台:MATLABR2016a备注:不知道具体的matlab版本号,可以打开matlab在终端界面输入:version查看一,调用matlab软件中自带的ROS步骤:...

matlab读取表格数据以固定周期通过串口发送

如题,这里对数据的处理对于熟悉matlab各函数操作的同学来讲,是常规操作,但对于matlab新手或只是想借用matlab工具将存于PC端文件中的数据通过串口发送出去的工程人员来说,由于对matlab...

选择电磁阀必须要知道的8个因素(电磁阀的选择应从哪些方面考虑)

如何正确选择电磁阀,电磁阀的种类、规格、标准以及根据不同的介质选择的型号各不相相同,电磁阀的参数选择不全面的话,会影响使用寿命、诱发各种潜在危险甚至事故,下面诺伊曼的工程师将与您一起探讨关于正确选择电...

一种图像局部特征快速匹配算法(图像局部特征描述和提取方法研究)

摘要:在图像处理和机器视觉领域,SIFT是目前被广泛应用的一种基于局部特征的图像匹配算法。针对SIFT算法匹配速度较慢和常常存在错误匹配对的问题,本文提出在匹配过程中采用角度相似性分析替代传统的欧...

增益映射耦合局部正则化的图像重构算法

朱莉(西安科技大学计算机学院,陕西西安710054)摘要:针对当前的图像重构方法在对多帧超分辨率图像复原时,存在明显的模糊效应与振铃效应的不足,提出增益映射控制耦合局部正则化的图像重构算法。首...

每天一个MATLAB小技巧(9)(matlab简单教程)

欢迎关注公众号:【阿波兹得】上文接:每天一个MATLAB小技巧(8)如果你觉得我的文章对你有亿点点帮助的话,兄弟姐妹们看的时候顺便戳一下关注、点赞、收藏~谢谢朋友们,大家的支持就是我不断更新的最大动力...

零基础入门Matlab:两小时快速上手指南

前言Matlab作为一款强大的数学计算和可视化工具,广泛应用于工程、科研和数据分析领域。本文为零基础学习者量身定制,通过简洁明了的讲解和案例,助你快速掌握Matlab核心功能,两小时轻松入门!1.界...

用改进的深度差分特征识别人体部位

摘要:为了进一步提高人体部位识别正确率,考虑人体部位尺寸不一特性,提出了改进型深度差分特征。改进型深度差分特征根据人体部位尺寸大小确定特征偏移量取值,然后利用随机森林算法训练分类模型,实现了人体部...

MATLAB《自动控制原理》相关编程(二)

摘要:本文主要讲解自动控制原理中涉及的相关MATLAB函数,包括拉式变换和反拉式变换、传递函数的化简(并联和串联)、带延时的传递函数、单位速度、单位加速度和其他任意输入的响应。1.拉式变换时域函数转...

MATLAB-图片自动编号、命名及保存

在进行运算的可以,可能经常需要对图形进行保存,手动操作比较繁琐,可以自动的生成图片并按照一定的规律自动命名,这样可以提高效率。实现功能会涉及到一些函数的使用和往期介绍的图像的保存方法。下面简单回顾一下...

MATLAB的Simulink常用模块(一)(simulink的matlab function模块)

在MATLAB的Simulink中有些常用的模块,今天主要介绍常数模块、示波器模块、以及模块属性的操作函数。1.模块的构成元素输入/输出端口:作为模块之间传递数据的纽带,连接输入信号和输出信号。模块...

闪耀金色光芒的冥王侍卫,掌管宇宙睡意的使者,温柔杀手修普诺斯

在极乐净土中有两位守护冥王哈迪斯的神,一个是死神塔纳多斯,另一个就是他的哥哥修谱诺斯。这两个神明一个是能掌握人类生死的大权,另一个则是负责人类和神仙的睡眠。可以说这两个人都十分的厉害。那么作者就给大...

无线安全的高级利用:隔离网络里你不知道的Wi-Fi隐蔽传输通道

2018年4月,在荷兰阿姆斯特丹HackInTheBox安全会议上,我们分享了一个关于隔离网攻击技术的议题——GhostTunnel:CovertDataExfiltratio...

取消回复欢迎 发表评论: