当前位置:网站首页 > 技术博客 > 正文

爬虫中的url是什么



一、前言

在使用Python爬虫时,需要模拟发起网络请求,主要用到的库有requests库和python内置的urllib库,一般建议使用requests,它是对urllib的再次封装。

那它们两者有什么区别 ?

下面通过案例详细的讲解 ,了解他们使用的主要区别。

简介:

urllib库的response对象是先创建http,request对象,装载到reques.urlopen里完成http请求。

返回的是http,response对象,实际上是html属性。使用.read().decode()解码后转化成了str字符串类型,decode解码后中文字符能够显示出来。

运行结果:

注意:

通常爬取网页,在构造http请求的时候,都需要加上一些额外信息,什么Useragent,cookie等之类的信息,或者添加代理服务器。往往这些都是一些必要的反爬机制。

简介:

requests库调用是requests.get方法传入url和参数,返回的对象是Response对象,打印出来是显示响应状态码。

通过.text 方法可以返回是unicode 型的数据,一般是在网页的header中定义的编码形式,而content返回的是bytes,二级制型的数据,还有 .json方法也可以返回json字符串。

如果想要提取文本就用text,但是如果你想要提取图片、文件等二进制文件,就要用content,当然decode之后,中文字符也会正常显示。

requests的优势:

Python爬虫时,更建议用requests库。因为requests比urllib更为便捷,requests可以直接构造get,post请求并发起,而urllib.request只能先构造get,post请求,再发起。

例:

运行结果 (可以直接获取整网页的信息,打印控制台):

------------------- End -------------------

版权声明


相关文章:

  • python做预测模型2024-11-12 18:30:02
  • 霍夫圆检测算法2024-11-12 18:30:02
  • fastjson教程2024-11-12 18:30:02
  • c++bitset头文件2024-11-12 18:30:02
  • linux中user是什么意思2024-11-12 18:30:02
  • c++结构体简单例子2024-11-12 18:30:02
  • kvm虚拟机下载2024-11-12 18:30:02
  • 二叉排序树的查找方法2024-11-12 18:30:02
  • 乐高ev3编程设计讲解2024-11-12 18:30:02
  • 装饰模式的定义2024-11-12 18:30:02