爬虫 - 后羿采集器
快速数据采集 快速数据收集
1.软件爬虫 获取数据 解析数据 保存数据
2.程序爬虫 获取数据(requests selenium) 解析数据(正则 css xpath) 保存数据(csv excel 数据库)
收集速度:程序爬虫>软件爬虫
思路:
1.确定目标数据
2.找网站
3.构建爬虫任务 复制目标网站地址
新建分组:test

创建新的任务

创建之后软件会自动进行数据的采集,采集加载完成之后再选择需要的数据。


如果要爬详情页数据:点击深入采集(深入采集的第一个链接必须要保留,软件会自动进入第一个链接字段)

关于预执行和预登录:

预执行:告诉软件应该怎么做

有些网站必须要先登录之后才能获取数据(比如:淘宝 知乎)
则会弹出预登录窗口:

关于流程图模式:
