本文将循序渐进介绍3大爬虫必备技术
- HttpClietn(负责请求页面并获得页面)
- Jsout(负责解析页面,提取元素)
- WebMagic(Java的一个爬虫框架,利用WebMagic可以整合1、2中的繁琐操作)
WebMagic框架我们留到下一期讲解。
使用网络爬虫其实就是要用Java程序去访问Html页面,并对Html页面进行解析,而Java中HttpClient技术可以很好的访问Html页面,实现抓取网页数据的功能。话不多说,我们立即进入HttpClient的学习吧
1.1 Get请求
tips:以下只介绍使用中涉及的对象、方法,至于异常处理请大家实际操作中自己选择处理方式。
以下代码为可用程序:
请求百度页面时,有时候会出现请求失败的问题,目前博主还没有有效解决方案,不过只要多请求几次即可,大家知道原因的欢迎补充
以百度为例,我们要检索三星S20手机,首先分析百度的URL
接下来我们来编写我们的代码,主要方法与上述一致,这里直接给出可用代码
1.2 POST请求
POST的无参请求与GET请求的使用方式一样,只不过这次创建的时HTTPPOST对象
在POST请求中,如果需要带参数的话,必须使用一些对象来模拟表单请求
以下为使用的对象
可用代码如下:
1.3 连接池
通过上述的学习我们发现,每次爬取信息都要创建以此连接,使用完后又得关闭连接。因此我们使用连接池技术,避免频繁的创建销毁,提高爬取效率。话不多说,进入代码的学习。
- 创建连接池
- 从连接池中获取连接
1.4 参数设置
通过HttpClient,我们可以轻松的抓取网页了,那么得到网页后,我们该如何解析呢,这个时候Jsoup就登场了。
使用Maven工程导入Jsoup依赖:
接下来直接进入本文的关键部分,WebMagic爬虫框架
版权声明:
本文来源网络,所有图片文章版权属于原作者,如有侵权,联系删除。
本文网址:https://www.mushiming.com/mjsbk/15273.html