当前位置:网站首页 > 技术博客 > 正文

java爬虫步骤




本文将循序渐进介绍3大爬虫必备技术

  1. HttpClietn(负责请求页面并获得页面)
  2. Jsout(负责解析页面,提取元素)
  3. WebMagic(Java的一个爬虫框架,利用WebMagic可以整合1、2中的繁琐操作)
    WebMagic框架我们留到下一期讲解。

使用网络爬虫其实就是要用Java程序去访问Html页面,并对Html页面进行解析,而Java中HttpClient技术可以很好的访问Html页面,实现抓取网页数据的功能。话不多说,我们立即进入HttpClient的学习吧

1.1 Get请求

tips:以下只介绍使用中涉及的对象、方法,至于异常处理请大家实际操作中自己选择处理方式。

 

以下代码为可用程序:

 

请求百度页面时,有时候会出现请求失败的问题,目前博主还没有有效解决方案,不过只要多请求几次即可,大家知道原因的欢迎补充

以百度为例,我们要检索三星S20手机,首先分析百度的URL

接下来我们来编写我们的代码,主要方法与上述一致,这里直接给出可用代码

 

1.2 POST请求

POST的无参请求与GET请求的使用方式一样,只不过这次创建的时HTTPPOST对象

 

在POST请求中,如果需要带参数的话,必须使用一些对象来模拟表单请求

以下为使用的对象

 

可用代码如下:

 

1.3 连接池

通过上述的学习我们发现,每次爬取信息都要创建以此连接,使用完后又得关闭连接。因此我们使用连接池技术,避免频繁的创建销毁,提高爬取效率。话不多说,进入代码的学习。

  • 创建连接池
 
  • 从连接池中获取连接
 

1.4 参数设置

 

通过HttpClient,我们可以轻松的抓取网页了,那么得到网页后,我们该如何解析呢,这个时候Jsoup就登场了。

 

使用Maven工程导入Jsoup依赖:

 

接下来直接进入本文的关键部分,WebMagic爬虫框架

版权声明


相关文章:

  • nlp销售课程的心得与感悟2024-12-20 16:01:01
  • 2021免费dns2024-12-20 16:01:01
  • 霍夫曼树代码2024-12-20 16:01:01
  • java集合详解以及底层实现2024-12-20 16:01:01
  • 王银简介2024-12-20 16:01:01
  • 破除压缩文件密码2024-12-20 16:01:01
  • fopen函数使用2024-12-20 16:01:01
  • java面试宝典pdf免费下载2024-12-20 16:01:01
  • 进程和线程对应关系2024-12-20 16:01:01
  • xampp安装包2024-12-20 16:01:01