Python爬虫学习(二)循序渐进的实例练习

    xiaoxiao2022-07-07  197

    学习资料:小猿圈https://book.apeland.cn/details/69/

    一.最基本的爬取

    需求:给定一个页面,爬整个页面的信息,例如爬取 的所有文本数据 1.过程: new project–>new directory–>new python file 2.代码:

    import requests #指定搜索关键字 word = input('enter a word you want to search:') #自定义请求头信息:UA伪装,将包含了User-Agent的字典作用到请求方法的headers参数中即可 headers={ 'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36', } #指定url,原始url可能是https://www.sogou.com/web?query=撩妹,发现该url携带了参数 url = 'https://www.sogou.com/web' #封装get请求参数:如果请求携带了参数,则可以将参数封装到字典中结合这requests请求方法中的data/params参数进行url参数的处理 param = { 'query':word, } #发起请求 response = requests.get(url=url,params=param,headers=headers) #获取响应数据 page_text = response.text #持久化存储 fileName = word+'.html' with open(fileName,'w',encoding='utf-8') as fp: fp.write(page_text)

    (结果暂不放图)

    二.用户自定义的查询

    需求:我有想查的关键字,我要查我想查的东西,例如:在百度中搜索“”,爬去得到的搜索结果,以文本数据展现 代码:

    #把查询参数写活,变成用户自定义的 #UA是请求载体的标识,如果服务器端检测到载体是浏览器端,就不会拒绝,如果检测到是爬虫就会被拒绝,所以我们写的爬虫需要伪装成浏览器,这叫做UA伪装 import requests #指定搜索关键字 word = input('enter a word you want to search:') #自定义请求头信息:UA伪装,将包含了User-Agent的字典作用到请求方法的headers参数中即可 headers = { 'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36', } #指定url,原始url可能是https://www.sogou.com/web?query=撩妹,发现该url携带了参数 url = 'https://www.sogou.com/web' #封装get请求参数:如果请求携带了参数,则可以将参数封装到字典中结合这requests请求方法中的data/params参数进行url参数的处理 param = { 'query': word, } #发起请求 response = requests.get(url=url,params=param,headers=headers) #获取响应数据 page_text = response.text #持久化存储 fileName = word+'.html' with open(fileName, 'w', encoding='utf-8') as fp: fp.write(page_text)

    (结果暂不放图)

    查看: 1.点击html文件查看爬去结果,可进一步在浏览器中查看

    三.爬取部分想要的信息

    需求:在指定页面搜我想搜的东西,但不需要整个页面的信息,只需要部分的信息 例如:在百度翻译中发起请求,搜索“”,爬取得到的翻译结果而不是整个页面的信息 分析: 1.试一下输入一个单词,没有点击翻译它也会即时刷新,而并不是整个页面都刷新了,只是局部的刷新

    2.F12打开查看响应的过程

    我们发现在输入单词的过程中,输入了很多字符,最后的一次请求才是你最后得到的结果,比如输入dog,会有三个sug,第一个sug查询的是d,第二个是do,第三个是dog,这才是我们想要的 3.自定义要爬取的内容 代码:

    结果:

    四.爬取豆瓣电影分类排行榜 https://movie.douban.com/中的电影详情数据

    1.目标 基于requests模块ajax的get请求 1.分析

    param数据来源 2.代码

    import requests if __name__ == "__main__": #指定ajax-get请求的url(通过抓包进行获取) url = 'https://movie.douban.com/j/chart/top_list?' #定制请求头信息,相关的头信息必须封装在字典结构中 headers = { #定制请求头中的User-Agent参数,当然也可以定制请求头中其他的参数 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36', } #定制get请求携带的参数(从抓包工具中获取) param = { 'type':'5', 'interval_id':'100:90', 'action':'', 'start':'0', 'limit':'20' } #发起get请求,获取响应对象 response = requests.get(url=url,headers=headers,params=param) #获取响应内容 print(response.json())

    3.结果

    五.爬取药监局的数据

    1.目标 基于requests模块ajax的get请求 1.分析 2.代码

    import requests from fake_useragent import UserAgent ua = UserAgent(use_cache_server=False,verify_ssl=False).random headers = { 'User-Agent':ua } url = 'http://125.35.6.84:81/xk/itownet/portalAction.do?method=getXkzsList' pageNum = 3 for page in range(3,5): data = { 'on': 'true', 'page': str(page), 'pageSize': '15', 'productName':'', 'conditionType': '1', 'applyname':'', 'applysn':'' } json_text = requests.post(url=url,data=data,headers=headers).json() all_id_list = [] for dict in json_text['list']: id = dict['ID']#用于二级页面数据获取 #下列详情信息可以在二级页面中获取 # name = dict['EPS_NAME'] # product = dict['PRODUCT_SN'] # man_name = dict['QF_MANAGER_NAME'] # d1 = dict['XC_DATE'] # d2 = dict['XK_DATE'] all_id_list.append(id) #该url是一个ajax的post请求 post_url = 'http://125.35.6.84:81/xk/itownet/portalAction.do?method=getXkzsById' for id in all_id_list: post_data = { 'id':id } response = requests.post(url=post_url,data=post_data,headers=headers) if response.headers['Content-Type'] == 'application/json;charset=UTF-8': #print(response.json()) #进行json解析 json_text = response.json() print(json_text['businessPerson'])

    3.结果暂时不放图

    注意:

    1.赋值“=”两边需要空格 2.属性结束,逗号和下一个属性间需要有一个空格 冒号和下一个属性之间也需要一个空格 3. 警告:在行尾没有换行符 这种情况,你在行尾敲一下回车就行了

    最新回复(0)