爬虫学习过程中的错误整理2019.5.23

    xiaoxiao2022-07-12  142

    爬虫学习过程中的错误整理 在学习数据分析与爬虫的视频学习中出现了很多问题,多数我解决了,也有一些没有成功。

    从现在开始,大致总结一下遇到的错误吧。 1、No module named ‘requests’ 参考:https://www.cnblogs.com/changpuyi/p/9439422.html 这里我一直是认为cmd是去相应的python文件夹:pip install 模块 但实际上是去相应的python下面的Scripts文件夹 :pip install 模块

    2、 data=urllib.request.urlopen(url).read().decode(“utf-8”)#decode解码 UnicodeDecodeError: ‘utf-8’ codec can’t decode byte 0xa1 in position 284: invalid start byte 参考:http://www.cnblogs.com/liuq/p/9849960.html 有很多说的python3,python2的解释方法都没有用。 我最后是把utf-8改成了gbk格式解决了问题。

    # coding=utf-8 import requests r = requests.get('http://www.******') print(r.encoding) # gbk print(r.apparent_encoding) # GB2312

    通过这个代码查看了网页的格式

    url="http://www.58pic.com/tupian/keji-0-0-"+str(i)+".html" data=urllib.request.urlopen(url).read().decode("gbk")#decode解码 fh=open("F:/file2.txt","w") fh.write(data) fh.close()

    通过这个代码把爬取下来的文件写入txt里面,我对比了一下,没有乱码。乱码的后续环节在应用中继续研究

    最新回复(0)