request 基础模块应用及爬虫概念

xiaoxiao2022-07-14 182

1. 爬虫的概念模拟浏览器，发送请求，获取响应2. 数据的来源网站上免费下载去第三方购买问卷调查自己用户产生的数据爬虫爬取

3. 爬虫的分类通用爬虫聚焦爬虫针对特定网站的爬虫

4. 爬虫的流程向起始url发送请求，并获取响应对响应进行提取如果提取url，则继续发送请求获取响应如果提取数据，则将数据进行保存

5. http与https概念： http: 超文本传输协议，80端口 https: http+ssl，443端口

6. 关于浏览器访问一个url地址的过程中特别注意：浏览器最终显示的结果是由多次请求对应的多个响应，渲染之后的结果

7. 常见响应状态码 200 成功 302 跳转 404 找不到页面 503 服务不可用，被反爬了

8. 利用requests模块发送get请求 import requests

response = requests.get(url='http://url.com')

response.statu_code # 响应状态码

response.url # 响应的url response.request.url # 请求的url

response.request.headers # 请求的头信息 response.headers # 响应头信息

response.cookies # 响应的cookies信息 response.request._cookies # 请求的cookies信息

9. 如何获取能够认识的字符串结果 response.text response.content.decode() response.content.decode('指定的编码方式')

最新回复(0)