三步走，教你定制自己的个性python爬虫，代码都省了有木有~

博客小编 (155) 2024-04-16 16:01:01

想抓取各大招聘网站上的职位信息吗，想抓取各大电商网站上的商品信息吗，想抓取1024上各种不可描述吗？看这里，看这里，简单三步走，各种数据，你值得拥有。

一个基于scrapy 的二次开发框架webWalker，只需要配置xpath或正则表达式，就可以在互联网上随心所欲，想抓哪里抓哪里！

框架目标：写最少的代码，实现定制化抓取

需要掌握技能

xpath表达式，正则表达式，以及css表达式，至少会其中一项
python 字典和列表数据结构

以下技能最好掌握

python lambda 表达式的使用
python 简单函数编写
了解scrapy的基本概念，参见scrapy简单介绍

抓取经验：

抓取国外81个电商网站70W商品SKU（库存量单位）信息
抓取国内各大招聘网站各行业的职位信息
抓取不可描述的网站上各种不可描述的图片及下载链接

以下是干货：

手把手教你实现网站分类下项目信息的抓取

我们以bluefly为例进行讲解（声明声明，本文不是bluefly的软文，bluefly不是指蓝翔，虽然我是山东的，更是济南的，但你们问我挖掘机的事情，宝宝表示一脸萌比）

三步走，教你定制自己的个性python爬虫，代码都省了有木有~ (https://mushiming.com/) 第1张

一、安装web-walker

需要python2.7

git clone https://github.com/ShichaoMa/webWalker.git
cd webWalker/walker && (sudo) python setup.py install

or

(sudo) pip install web-walker

可以直接从git上clone代码，但更推荐使用pip安装，windows 系统和ubuntu系统均支持。

二、配置抓取信息

打开你要抓取网站，找到一个你要抓取项目的分类。比如，我们选择woman shirt

三步走，教你定制自己的个性python爬虫，代码都省了有木有~ (https://mushiming.com/) 第2张

一共找到了910个商品，我们要把每一件shirt的商品信息都抓取下来。

首先我们打开浏览器开发者工具F12，推荐使用chrome浏览器，找到下一页的xpath表达式

三步走，教你定制自己的个性python爬虫，代码都省了有木有~ (https://mushiming.com/) 第3张

不懂xpath的可以看这里，一个非常简单的XML路径语言，用来寻找网页中的元素，很容易学习。[XPath 教程]

**注意：**现在的开发者工具都会有copy xpath这个功能，但不推荐使用，因为copy出来的xpath专一性很强。可能你抓取其它商品或者其它页的时候，xpath已经不适用了，使用id ，标签名，加上class去匹配一个xpath路径，会更通用一些。

我们找到的结果是

'//*[@id="page-content"]//a[@rel="next"]/@href'

好的，先记下来，一会儿用来配置。

然后，我们找到商品链接的xpath表达式

我们找到的结果是

'//ul[@class="mz-productlist-list mz-l-tiles"]/li//a[@class="mz-productlisting-title"]/@href'

保存起来。

接下来，我们点开商品链接，在商品页面寻找我们需要的信息。

三步走，教你定制自己的个性python爬虫，代码都省了有木有~ (https://mushiming.com/) 第5张

让我们一个一个找到这些信息所在位置

'//p[@class="mz-productbrand"]/a/text()' # 商标
'//span[@class="mz-breadcrumb-current"]/text()' # 标题
'//*[@id="product-selection"]//div[@itemprop="price"]/text()' # 原价
'//*[@id="product-selection"]//div[@class="mz-price is-saleprice"]/text()' # 现价
'//div[@class="mz-productoptions-valuecontainer"]/span/text()' # 尺寸
'//div[@class="mz-productoptions-optioncontainer colorList"]/div/span/text()' # 颜色
'//li[@itemprop="productID"]/text()' # 商品唯一id
......

当然，你还可以抓取其它信息。

好了，在有这些信息之后，让我们开始配置我们的程序吧。

使用scrapy生成一个项目

ubuntu@dev:~/myprojects$ scrapy startproject demo
New Scrapy project 'demo' created in:
    /home/ubuntu/myprojects/demo

You can start your first spider with:
    cd demo
    scrapy genspider example example.com


# 目录结构如下
.
├── demo
│   ├── __init__.py
│   ├── items.py
│   ├── pipelines.py
│   ├── settings.py
│   └── spiders
│       └── __init__.py
└── scrapy.cfg

或者直接从test中复制myapp，如果要改项目名字，记得修改scarpy.cfg中的名字

删除掉其中的demo/items.py demo/piplines.py，并使用myapp/settings.py，myapp/spipders/init.py 替掉原来的文件
在spiders目录下，创建page_xpath.py, item_xpath.py, item_field.py, spiders.py，编写以下内容

# spiders.py

# -*- coding:utf-8 -*

SPIDERS = { # 配置spider, spider名称一个字典，字典中为这个spider的一些自定义属性，可为空
    "bluefly": {}
}

# page_xpath.py

# -*- coding:utf-8 -*

PAGE_XPATH = { # 配置网站分类页中获取下一页链接的方式，具体策略参见wiki
    "bluefly": [
        '//*[@id="page-content"]//a[@rel="next"]/@href',
    ]
}

# item_xpath.py

# -*- coding:utf-8 -*

ITEM_XPATH = { # 配置网站分类页中获取商品页链接的方式，xpath表达式
    "bluefly": [
        '//ul[@class="mz-productlist-list mz-l-tiles"]/li//a[@class="mz-productlisting-title"]/@href',
    ]
}

# item_field

# -*- coding:utf-8 -*

ITEM_FIELD = { # 商品页中，所需信息的获取方式，具体策略参见wiki
    "bluefly": [
        ('product_id', {
            "xpath": [
                '//li[@itemprop="productID"]/text()',
            ],
        }),
        ('brand', {
            "xpath": [
                '//p[@class="mz-productbrand"]/a/text()',
            ],
        }),
        ('title', {
            "xpath": [
                '//span[@class="mz-breadcrumb-current"]/text()',
            ],
        }),
        ('price', {
            "xpath": [
                '//*[@id="product-selection"]//div[@itemprop="price"]/text()',
            ],
        }),
        ('new_price', {
            "xpath": [
                '//*[@id="product-selection"]//div[@class="mz-price is-saleprice"]/text()',
            ],
        }),
        ('size', {
            "xpath": [
                '//div[@class="mz-productoptions-valuecontainer"]/span/text()',
            ],
        }),
        ('color', {
            "xpath": [
                '//div[@class="mz-productoptions-optioncontainer colorList"]/div/span/text()',
            ],
        }),
    ]
}

修改demo/settings.py 文件，或者直接新建localsettings.py，增加自定义配置，要修改的项目在settings.py已注明

配置完毕，接下来我们就要开始抓取了。

三启动我们的程序

启动redis

#如果没有安装redis，可以使用自带的custom-redis，配置文件中需写明CUSTOM_REDIS=True
custom-redis-server -p 6379

注：cutom-redis是我实现的python 版的简单redis 参见GitHub - ShichaoMa/custom_redis: python实现简单redis，实现redis基本功能以及可插拔数据结构

三步走，教你定制自己的个性python爬虫，代码都省了有木有~ (https://mushiming.com/) 第6张

启动爬虫

cd demo
scrapy crawl bluefly

三步走，教你定制自己的个性python爬虫，代码都省了有木有~ (https://mushiming.com/) 第7张

投放任务

# 使用自带的costom-redis 需要加上 --custom
# 投放分类链接
feed -c test_01 -s bluefly -u "http://www.bluefly.com/women/clothing/skirts" --custom

三步走，教你定制自己的个性python爬虫，代码都省了有木有~ (https://mushiming.com/) 第8张

爬虫在努力的工作中。

可以在配置文件中配置是将log打到控制台，文件还是kafka（用来关联elk做日志管理）中。

查看任务状态

# 使用自带的costom-redis 需要加上 --custom
check test_01 --custom

三步走，教你定制自己的个性python爬虫，代码都省了有木有~ (https://mushiming.com/) 第10张

总数居然只有96，有没有搞错！！！

或许你看到这个结果时，第一反应就是这样的，但是，请相信我可以解释这一切。当你不对scrapy做任何限制的时候，scrapy会同时下载十几个网页（具体看配置），抓取速度可能会很快，这样的就会导致，下一页还没翻完，当前页的商品已经差不多抓取完毕了，所以才会这种现象出现。

三步走，教你定制自己的个性python爬虫，代码都省了有木有~ (https://mushiming.com/) 第11张
全部商品抓取完毕，至于为什么刚才是910，现在只有907。那是因为这些电商网站的商品数量会经常变化，不要在意这些细节。。。如果你没有更改pipline配置，会默认使用JSONPipline进行数据存储，关闭程序后，会在程序的项目根目录task文件夹下生成json格式的文件用来存储抓取信息。

最后

在学习python中有任何困难不懂的可以微信扫描下方CSDN官方认证二维码加入python交流学习
多多交流问题，互帮互助，这里有不错的学习教程和开发工具。
（python兼职资源+python全套学习资料）

三步走，教你定制自己的个性python爬虫，代码都省了有木有~ (https://mushiming.com/) 第12张

一、Python所有方向的学习路线

Python所有方向的技术点做的整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照上面的知识点去找对应的学习资源，保证自己学得较为全面。
三步走，教你定制自己的个性python爬虫，代码都省了有木有~ (https://mushiming.com/) 第13张

二、Python必备开发工具

三步走，教你定制自己的个性python爬虫，代码都省了有木有~ (https://mushiming.com/) 第14张

三、Python视频合集

观看零基础学习视频，看视频学习是最快捷也是最有效果的方式，跟着视频中老师的思路，从基础到深入，还是很容易入门的。
三步走，教你定制自己的个性python爬虫，代码都省了有木有~ (https://mushiming.com/) 第15张

四、实战案例

光学理论是没用的，要学会跟着一起敲，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战案例来学习。
三步走，教你定制自己的个性python爬虫，代码都省了有木有~ (https://mushiming.com/) 第16张

五、Python练习题

检查学习结果。
三步走，教你定制自己的个性python爬虫，代码都省了有木有~ (https://mushiming.com/) 第17张

六、面试资料

我们学习Python必然是为了找到高薪的工作，下面这些面试题是来自阿里、腾讯、字节等一线互联网大厂最新的面试资料，并且有阿里大佬给出了权威的解答，刷完这一套面试资料相信大家都能找到满意的工作。
三步走，教你定制自己的个性python爬虫，代码都省了有木有~ (https://mushiming.com/) 第18张

最后，千万别辜负自己当时开始的一腔热血，一起变强大变优秀。

THE END

发表回复

请先登录账户再评论哦

三步走，教你定制自己的个性python爬虫，代码都省了有木有~

需要掌握技能

以下技能最好掌握

抓取经验：

手把手教你实现网站分类下项目信息的抓取

一、安装web-walker

二、配置抓取信息

三启动我们的程序

最后

一、Python所有方向的学习路线

二、Python必备开发工具

三、Python视频合集

四、实战案例

五、Python练习题

六、面试资料

HDLBits(八)学习笔记——Counters(计数器)

京东应急物资供应链管理平台_京东智慧供应链

vivadoltx文件_tcl脚本语言

什么是覆盖方法_表格怎么覆盖相同内容

推荐文章

Oracle的学习心得和知识总结（六）|Oracle数据库同义词技术详解

发表回复

热门文章

推荐文章

三步走，教你定制自己的个性python爬虫，代码都省了有木有~

需要掌握技能

以下技能最好掌握

抓取经验：

手把手教你实现网站分类下项目信息的抓取

一、安装web-walker

二、配置抓取信息

三 启动我们的程序

最后

一、Python所有方向的学习路线

二、Python必备开发工具

三、Python视频合集

四、实战案例

五、Python练习题

六、面试资料

HDLBits(八)学习笔记——Counters(计数器)

京东应急物资供应链管理平台_京东智慧供应链

vivadoltx文件_tcl脚本语言

什么是覆盖方法_表格怎么覆盖相同内容

推 荐 文 章

Oracle的学习心得和知识总结（六）|Oracle数据库同义词技术详解

发表回复

热门文章

推荐文章

三启动我们的程序

推荐文章