爬虫 - 后羿采集器
快速数据采集 快速数据收集
1.软件爬虫 获取数据 解析数据 保存数据
2.程序爬虫 获取数据(requests selenium) 解析数据(正则 css xpath) 保存数据(csv excel 数据库)
收集速度:程序爬虫>软件爬虫
思路:
1.确定目标数据
2.找网站
3.构建爬虫任务 复制目标网站地址
新建分组:test
创建新的任务
创建之后软件会自动进行数据的采集,采集加载完成之后再选择需要的数据。
如果要爬详情页数据:点击深入采集(深入采集的第一个链接必须要保留,软件会自动进入第一个链接字段)
关于预执行和预登录:
预执行:告诉软件应该怎么做
有些网站必须要先登录之后才能获取数据(比如:淘宝 知乎)
则会弹出预登录窗口:
关于流程图模式: