request 基础模块应用及爬虫概念

    xiaoxiao2022-07-14  167

    1. 爬虫的概念     模拟浏览器,发送请求,获取响应2. 数据的来源     网站上免费下载     去第三方购买     问卷调查     自己用户产生的数据     爬虫爬取

    3. 爬虫的分类     通用爬虫     聚焦爬虫 针对特定网站的爬虫

    4. 爬虫的流程     向起始url发送请求,并获取响应     对响应进行提取     如果提取url,则继续发送请求获取响应     如果提取数据,则将数据进行保存

    5. http与https概念:     http: 超文本传输协议,80端口     https: http+ssl,443端口

    6. 关于浏览器访问一个url地址的过程中特别注意:     浏览器最终显示的结果是由多次请求对应的多个响应,渲染之后的结果

    7. 常见响应状态码     200 成功     302 跳转     404 找不到页面     503 服务不可用,被反爬了

    8. 利用requests模块发送get请求     import requests

        response = requests.get(url='http://url.com')

        response.statu_code # 响应状态码

        response.url # 响应的url     response.request.url # 请求的url

        response.request.headers # 请求的头信息     response.headers # 响应头信息

        response.cookies # 响应的cookies信息     response.request._cookies # 请求的cookies信息

    9. 如何获取能够认识的字符串结果     response.text     response.content.decode()     response.content.decode('指定的编码方式')

    最新回复(0)