工作中经常因为文件的编码,导致读取文件时出现错误,这里我查了一下python 有相关的代码,这里分享出去
pip install chardet
执行
import chardet
f = open('a.doc',r)
data = f.read()
print chardet.detect(data)
结果
{'confidence': 0.64465744, 'encoding': 'utf-8'}
前面是相似度 后面是编码格式
或者 return chardet.detect(data).get("encoding") 直接获取文件编码格式