1. 爬虫的概念 模拟浏览器,发送请求,获取响应2. 数据的来源 网站上免费下载 去第三方购买 问卷调查 自己用户产生的数据 爬虫爬取
3. 爬虫的分类 通用爬虫 聚焦爬虫 针对特定网站的爬虫
4. 爬虫的流程 向起始url发送请求,并获取响应 对响应进行提取 如果提取url,则继续发送请求获取响应 如果提取数据,则将数据进行保存
5. http与https概念: http: 超文本传输协议,80端口 https: http+ssl,443端口
6. 关于浏览器访问一个url地址的过程中特别注意: 浏览器最终显示的结果是由多次请求对应的多个响应,渲染之后的结果
7. 常见响应状态码 200 成功 302 跳转 404 找不到页面 503 服务不可用,被反爬了
8. 利用requests模块发送get请求 import requests
response = requests.get(url='http://url.com')
response.statu_code # 响应状态码
response.url # 响应的url response.request.url # 请求的url
response.request.headers # 请求的头信息 response.headers # 响应头信息
response.cookies # 响应的cookies信息 response.request._cookies # 请求的cookies信息
9. 如何获取能够认识的字符串结果 response.text response.content.decode() response.content.decode('指定的编码方式')
