百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

[爬虫技术]一个抓取淘宝和天猫平台商品信息的蜘蛛实现(C#)

cac55 2024-09-27 06:50 32 浏览 0 评论

一个搞JAVA的朋友向他的朋友介绍了我们是专门做爬虫的,正好他的朋友最近在搞一个项目,是需要抓取主流电商商品价格,所以他就让他的朋友来咨询下我们。

某日我去了朋友的朋友的公司,大概5-6个人在那等我了,他们在讨论如何抓取这些信息,他们目前的方案是用WebBrowser并模拟用户点击操作来抓取数据,因为他们觉得电商的店铺商品信息模版每家都不同,而且数据都是动态加载的,所以没法用正则获取之类的(我都表示听不懂了)。

因为以前没有抓过淘宝这类电商网站(我们小公司,搞不了大数据分析-_-!),所以我花了几分钟时间,分析了下淘宝和天猫的页面,模版是不一样,但是需要的数据都是JSON格式返回,这种数据流用HttpRequest方式是再友好不过的了!我就和他们说不需要用Web方式抓取,那样的效率是相当低的,直接抓源码才是王道。

这是搜索店铺关键字“青菜”得到的结果,分析数据包,得到获取数据的地址为:

https://tmatch.simba.taobao.com/?name=dpad&o=j&elemtid=7&count=15&pid=430409_1006&keyword=%C7%E0%B2%CB

这个地址获取到的代码(部分示例):

p4presult =[{"REDKEY":"\u6ce1\u83dc\u814c\u5236","LOCATION":"","WANGWANGID":"mslibilly","GRADE":"73068","ISMALL":"0","EURL":"https:\/\/click.simba.taobao.com\/cc_im?p=%C7%E0%B2%CB&s=551112387&k=417&e=7YCatPHk%2FF5hoLrwsPpYV3puZ%2Fzagl5qD5xrGhdGfNFR%2FMI8Ma2TJp%2BEXxfslVeLi1JzEvsCyQWWGvcByUVtX2eS%2B3UZTe47MM%2B3jOJi2zW%2FVBgc1EAWB5X%2FsF%2FL%2BC29nmE%2BkkFcKYE8qbPMVyo4DaVZk9GTLuFuveNkwDZO%2B4dGFiz9B1zOtihdfoeHEuwzFyKSMYwxw2suwttNEWKHRt1S4XMZVG3ZG%2FTfPOTEP3I%2FAziju%2BHWPSv3KlO5q2yrE51XnaPzYhPPXtx8ota2cAxZLhp6giIWOQdKU6bV%2Bc4yIKIlmswCq4zyJPUuvLna3PJEGgbVC32jzB2stJTlhOuTLzOI%2FOAyK46g51dBbTX6TxBh0Blia1cmBl3YwvWUnb8MUGm%2Fw5jrnjTSKUokU0BcjQpXcTkT","SELLERID":"70759806","CREATIVEELEMENTS":{"DESCRIPTION":"","DISPLAYURL":"https:\/\/msesd.taobao.com\/index.htm?spm=2013.1.w5002-9925530888.2.cuAsCj","IMGURL":"https:\/\/img.alicdn.com\/imgextra\/i1\/14344067885902339\/TB282E_bFXXXXcOXXXXXXXXXXXX_!!12414344-0-saturn_solar.jpg_sum.jpg"

这么友好的数据,不分析可惜了。还有WebBrowser那种方式只是有辱蜘蛛程序。

同样的分析方式,进入店铺,抓取店铺里的数据地址:

https://shop106956264.taobao.com/i/asynSearch.htm?_ksTS=1462893454477_130&callback=jsonp131&mid=w-4253175477-0&wid=4253175477&path=/search.htm&search=y&spm=a1z10.3-c.w4002-4253175477.82.HMjruY&viewType=grid&pageNo=1

这里是店铺的商品信息了,页码参数:pageNo,切换页码可获取店铺全部商品信息

<dd class=\"detail\"><a class=\"item-name J_TGoldData\" href=\"//item.taobao.com/item.htm?id=36610888871\" target=\"_blank\" data-gold-url=\"/inshopse\" data-gold-data='{\"gokey\":\"at_bucketid=inshop_c_alg:6350;&srppage=1&scid=&lf_aclog=5-36610888871-28-hotsell_desc-389369376&?src=shopsystem--11.227.2.38&sort=volume:des&sellerid=389369376&tab=all&ss_bucket=20&rank_src=inshop_pc_tb&buyernick=adobo&navigator=property&s=0&n=28&app=inshop&outfmt=json&bts=%7B%22inshop_c_alg%22%3A%7B%22bucket%22%3A%7B%22name%22%3A%22ltr%22%2C%22id%22%3A6350%2C%22groups%22%3A%7B%22inshop_c%22%3A%22%22%2C%22qp4main%22%3A%22%22%2C%22qrs4inshop%22%3A%22%22%2C%22sp%22%3A%22rewrite_query%3Don%22%7D%7D%7D%7D&stats_click=&rn=d58a095b794cb043cdf5a9630ff88d5e\", \"cna\": \"bfYLEF+bQ0MCAXLeROqBYCGK\",\"bc_type\":\"c\" }' > DIY佛牌链子</a><div class=\"attribute\"><div class=\"cprice-area\"><span class=\"symbol\">&yen;</span><span class=\"c-price\">68.00 </span></div></div></dd>

下面写了个示例程序(C#.NET over VS2013)

这里简单讲了下电商数据的一般获取方式,同理,天猫,JD等的获取方式也都大致相同,不要把抓取数据想的那么复杂,更不能只看表面的东西,蜘蛛程序和正常用户的获取数据路径有时候并不相同。所以写蜘蛛程序尽量避免站在普通用户的角度去获取想要的数据。

这里提供下示例程序的源码供大家参考下:

http://www.zimiclub.com/thread-9-1-1.html

相关推荐

基于FPGA的伪随机序列发生器设计(fpga伪随机数发生器)

基于FPGA的伪随机序列发生器设计1基本概念与应用1)LFSR:线性反馈移位寄存器(linearfeedbackshiftregister,LFSR)是指给定前一状态的输出,将该输出的线性...

基于MATLAB的BP神经网络预测计算App

BP(BackPropagation)神经网络可用于数据的预测,是经常使用的预测方法之一。之前介绍了基于MATLAB的guide制作的BP神经网络预测计算GUI界面,但是随着MATLAB版本的更新,之...

《matlab/simulink仿真ROS学习笔记》第1期

PC平台:window10软件平台:MATLABR2016a备注:不知道具体的matlab版本号,可以打开matlab在终端界面输入:version查看一,调用matlab软件中自带的ROS步骤:...

matlab读取表格数据以固定周期通过串口发送

如题,这里对数据的处理对于熟悉matlab各函数操作的同学来讲,是常规操作,但对于matlab新手或只是想借用matlab工具将存于PC端文件中的数据通过串口发送出去的工程人员来说,由于对matlab...

选择电磁阀必须要知道的8个因素(电磁阀的选择应从哪些方面考虑)

如何正确选择电磁阀,电磁阀的种类、规格、标准以及根据不同的介质选择的型号各不相相同,电磁阀的参数选择不全面的话,会影响使用寿命、诱发各种潜在危险甚至事故,下面诺伊曼的工程师将与您一起探讨关于正确选择电...

一种图像局部特征快速匹配算法(图像局部特征描述和提取方法研究)

摘要:在图像处理和机器视觉领域,SIFT是目前被广泛应用的一种基于局部特征的图像匹配算法。针对SIFT算法匹配速度较慢和常常存在错误匹配对的问题,本文提出在匹配过程中采用角度相似性分析替代传统的欧...

增益映射耦合局部正则化的图像重构算法

朱莉(西安科技大学计算机学院,陕西西安710054)摘要:针对当前的图像重构方法在对多帧超分辨率图像复原时,存在明显的模糊效应与振铃效应的不足,提出增益映射控制耦合局部正则化的图像重构算法。首...

每天一个MATLAB小技巧(9)(matlab简单教程)

欢迎关注公众号:【阿波兹得】上文接:每天一个MATLAB小技巧(8)如果你觉得我的文章对你有亿点点帮助的话,兄弟姐妹们看的时候顺便戳一下关注、点赞、收藏~谢谢朋友们,大家的支持就是我不断更新的最大动力...

零基础入门Matlab:两小时快速上手指南

前言Matlab作为一款强大的数学计算和可视化工具,广泛应用于工程、科研和数据分析领域。本文为零基础学习者量身定制,通过简洁明了的讲解和案例,助你快速掌握Matlab核心功能,两小时轻松入门!1.界...

用改进的深度差分特征识别人体部位

摘要:为了进一步提高人体部位识别正确率,考虑人体部位尺寸不一特性,提出了改进型深度差分特征。改进型深度差分特征根据人体部位尺寸大小确定特征偏移量取值,然后利用随机森林算法训练分类模型,实现了人体部...

MATLAB《自动控制原理》相关编程(二)

摘要:本文主要讲解自动控制原理中涉及的相关MATLAB函数,包括拉式变换和反拉式变换、传递函数的化简(并联和串联)、带延时的传递函数、单位速度、单位加速度和其他任意输入的响应。1.拉式变换时域函数转...

MATLAB-图片自动编号、命名及保存

在进行运算的可以,可能经常需要对图形进行保存,手动操作比较繁琐,可以自动的生成图片并按照一定的规律自动命名,这样可以提高效率。实现功能会涉及到一些函数的使用和往期介绍的图像的保存方法。下面简单回顾一下...

MATLAB的Simulink常用模块(一)(simulink的matlab function模块)

在MATLAB的Simulink中有些常用的模块,今天主要介绍常数模块、示波器模块、以及模块属性的操作函数。1.模块的构成元素输入/输出端口:作为模块之间传递数据的纽带,连接输入信号和输出信号。模块...

闪耀金色光芒的冥王侍卫,掌管宇宙睡意的使者,温柔杀手修普诺斯

在极乐净土中有两位守护冥王哈迪斯的神,一个是死神塔纳多斯,另一个就是他的哥哥修谱诺斯。这两个神明一个是能掌握人类生死的大权,另一个则是负责人类和神仙的睡眠。可以说这两个人都十分的厉害。那么作者就给大...

无线安全的高级利用:隔离网络里你不知道的Wi-Fi隐蔽传输通道

2018年4月,在荷兰阿姆斯特丹HackInTheBox安全会议上,我们分享了一个关于隔离网攻击技术的议题——GhostTunnel:CovertDataExfiltratio...

取消回复欢迎 发表评论: