爬虫中的url是什么

技术博客来源：网络编辑：小编发布时间：2024-11-12 18:30:02 浏览量：39

一、前言

在使用Python爬虫时，需要模拟发起网络请求，主要用到的库有requests库和python内置的urllib库，一般建议使用requests，它是对urllib的再次封装。

那它们两者有什么区别 ?

下面通过案例详细的讲解，了解他们使用的主要区别。

urllib库的response对象是先创建http，request对象，装载到reques.urlopen里完成http请求。

返回的是http，response对象，实际上是html属性。使用.read().decode()解码后转化成了str字符串类型，decode解码后中文字符能够显示出来。

例

运行结果：

注意：

通常爬取网页，在构造http请求的时候，都需要加上一些额外信息，什么Useragent，cookie等之类的信息，或者添加代理服务器。往往这些都是一些必要的反爬机制。

requests库调用是requests.get方法传入url和参数，返回的对象是Response对象，打印出来是显示响应状态码。

通过.text 方法可以返回是unicode 型的数据，一般是在网页的header中定义的编码形式，而content返回的是bytes，二级制型的数据，还有 .json方法也可以返回json字符串。

如果想要提取文本就用text，但是如果你想要提取图片、文件等二进制文件，就要用content，当然decode之后，中文字符也会正常显示。

Python爬虫时，更建议用requests库。因为requests比urllib更为便捷，requests可以直接构造get，post请求并发起，而urllib.request只能先构造get，post请求，再发起。

例：

运行结果（可以直接获取整网页的信息，打印控制台）：

------------------- End -------------------

上一篇：计算机专业简历介绍

下一篇： offsetof函数用法

版权声明：
本文来源网络，所有图片文章版权属于原作者，如有侵权，联系删除。

本文网址：https://www.mushiming.com/mjsbk/9747.html