Python爬虫学习（二）循序渐进的实例练习

xiaoxiao2022-07-07 237

学习资料：小猿圈https://book.apeland.cn/details/69/

一.最基本的爬取

需求：给定一个页面，爬整个页面的信息，例如爬取的所有文本数据 1.过程： new project–>new directory–>new python file 2.代码：

import requests #指定搜索关键字 word = input('enter a word you want to search:') #自定义请求头信息:UA伪装,将包含了User-Agent的字典作用到请求方法的headers参数中即可 headers={ 'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36', } #指定url，原始url可能是https://www.sogou.com/web?query=撩妹，发现该url携带了参数 url = 'https://www.sogou.com/web' #封装get请求参数：如果请求携带了参数，则可以将参数封装到字典中结合这requests请求方法中的data/params参数进行url参数的处理 param = { 'query':word, } #发起请求 response = requests.get(url=url,params=param,headers=headers) #获取响应数据 page_text = response.text #持久化存储 fileName = word+'.html' with open(fileName,'w',encoding='utf-8') as fp: fp.write(page_text)

（结果暂不放图）

二.用户自定义的查询

需求：我有想查的关键字，我要查我想查的东西，例如：在百度中搜索“”，爬去得到的搜索结果，以文本数据展现代码：

#把查询参数写活，变成用户自定义的 #UA是请求载体的标识，如果服务器端检测到载体是浏览器端，就不会拒绝，如果检测到是爬虫就会被拒绝，所以我们写的爬虫需要伪装成浏览器，这叫做UA伪装 import requests #指定搜索关键字 word = input('enter a word you want to search:') #自定义请求头信息:UA伪装,将包含了User-Agent的字典作用到请求方法的headers参数中即可 headers = { 'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36', } #指定url，原始url可能是https://www.sogou.com/web?query=撩妹，发现该url携带了参数 url = 'https://www.sogou.com/web' #封装get请求参数：如果请求携带了参数，则可以将参数封装到字典中结合这requests请求方法中的data/params参数进行url参数的处理 param = { 'query': word, } #发起请求 response = requests.get(url=url,params=param,headers=headers) #获取响应数据 page_text = response.text #持久化存储 fileName = word+'.html' with open(fileName, 'w', encoding='utf-8') as fp: fp.write(page_text)

（结果暂不放图）

查看： 1.点击html文件查看爬去结果，可进一步在浏览器中查看

三.爬取部分想要的信息

需求：在指定页面搜我想搜的东西，但不需要整个页面的信息，只需要部分的信息例如：在百度翻译中发起请求，搜索“”，爬取得到的翻译结果而不是整个页面的信息分析： 1.试一下输入一个单词，没有点击翻译它也会即时刷新，而并不是整个页面都刷新了，只是局部的刷新

2.F12打开查看响应的过程

我们发现在输入单词的过程中，输入了很多字符，最后的一次请求才是你最后得到的结果，比如输入dog，会有三个sug，第一个sug查询的是d，第二个是do，第三个是dog，这才是我们想要的 3.自定义要爬取的内容代码：

结果：

四.爬取豆瓣电影分类排行榜 https://movie.douban.com/中的电影详情数据

1.目标基于requests模块ajax的get请求 1.分析

param数据来源 2.代码

import requests if __name__ == "__main__": #指定ajax-get请求的url（通过抓包进行获取） url = 'https://movie.douban.com/j/chart/top_list?' #定制请求头信息，相关的头信息必须封装在字典结构中 headers = { #定制请求头中的User-Agent参数，当然也可以定制请求头中其他的参数 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36', } #定制get请求携带的参数(从抓包工具中获取) param = { 'type':'5', 'interval_id':'100:90', 'action':'', 'start':'0', 'limit':'20' } #发起get请求，获取响应对象 response = requests.get(url=url,headers=headers,params=param) #获取响应内容 print(response.json())

3.结果

五.爬取药监局的数据

1.目标基于requests模块ajax的get请求 1.分析 2.代码

import requests from fake_useragent import UserAgent ua = UserAgent(use_cache_server=False,verify_ssl=False).random headers = { 'User-Agent':ua } url = 'http://125.35.6.84:81/xk/itownet/portalAction.do?method=getXkzsList' pageNum = 3 for page in range(3,5): data = { 'on': 'true', 'page': str(page), 'pageSize': '15', 'productName':'', 'conditionType': '1', 'applyname':'', 'applysn':'' } json_text = requests.post(url=url,data=data,headers=headers).json() all_id_list = [] for dict in json_text['list']: id = dict['ID']#用于二级页面数据获取 #下列详情信息可以在二级页面中获取 # name = dict['EPS_NAME'] # product = dict['PRODUCT_SN'] # man_name = dict['QF_MANAGER_NAME'] # d1 = dict['XC_DATE'] # d2 = dict['XK_DATE'] all_id_list.append(id) #该url是一个ajax的post请求 post_url = 'http://125.35.6.84:81/xk/itownet/portalAction.do?method=getXkzsById' for id in all_id_list: post_data = { 'id':id } response = requests.post(url=post_url,data=post_data,headers=headers) if response.headers['Content-Type'] == 'application/json;charset=UTF-8': #print(response.json()) #进行json解析 json_text = response.json() print(json_text['businessPerson'])

3.结果暂时不放图

注意：

1.赋值“=”两边需要空格 2.属性结束，逗号和下一个属性间需要有一个空格冒号和下一个属性之间也需要一个空格 3. 警告：在行尾没有换行符这种情况，你在行尾敲一下回车就行了

最新回复(0)