python爬虫系列（六）

xiaoxiao2022-07-03 220

文件下载

（由于时间安排本周只更新一篇）前面我们已经可以读取网站的源代码了现在为了方便管理我们往往需要将其保存。当然这里就不得不说到数据库这个东东比如Mysql，当然鉴于目前只是基础教程，我们不讲太复杂的东西。这里我们可以使用urllib.request.urlretrieve

文件操作

Python open() 方法用于打开一个文件，并返回文件对象，在对文件进行处理过程都需要使用到这个函数，如果该文件无法被打开，会抛出 OSError。注意：使用 open() 方法一定要保证关闭文件对象，即调用 close() 方法。 open() 函数常用形式是接收两个参数：文件名(file)和模式(mode)。 open(file, mode=‘r’) 完整的语法格式为： open(file, mode=‘r’, buffering=-1, encoding=None, errors=None, newline=None, closefd=True, opener=None) t 文本模式 (默认)。 x 写模式，新建一个文件，如果该文件已存在则会报错。 b 二进制模式。 + 打开一个文件进行更新(可读可写)。 U 通用换行模式（不推荐）。 r 以只读方式打开文件。文件的指针将会放在文件的开头。这是默认模式。 rb 以二进制格式打开一个文件用于只读。文件指针将会放在文件的开头。这是默认模式。一般用于非文本文件如图片等。 r+ 打开一个文件用于读写。文件指针将会放在文件的开头。 rb+ 以二进制格式打开一个文件用于读写。文件指针将会放在文件的开头。一般用于非文本文件如图片等。 w 打开一个文件只用于写入。如果该文件已存在则打开文件，并从开头开始编辑，即原有内容会被删除。如果该文件不存在，创建新文件。 wb 以二进制格式打开一个文件只用于写入。如果该文件已存在则打开文件，并从开头开始编辑，即原有内容会被删除。如果该文件不存在，创建新文件。一般用于非文本文件如图片等。 w+ 打开一个文件用于读写。如果该文件已存在则打开文件，并从开头开始编辑，即原有内容会被删除。如果该文件不存在，创建新文件。 wb+ 以二进制格式打开一个文件用于读写。如果该文件已存在则打开文件，并从开头开始编辑，即原有内容会被删除。如果该文件不存在，创建新文件。一般用于非文本文件如图片等。 a 打开一个文件用于追加。如果该文件已存在，文件指针将会放在文件的结尾。也就是说，新的内容将会被写入到已有内容之后。如果该文件不存在，创建新文件进行写入。 ab 以二进制格式打开一个文件用于追加。如果该文件已存在，文件指针将会放在文件的结尾。也就是说，新的内容将会被写入到已有内容之后。如果该文件不存在，创建新文件进行写入。 a+ 打开一个文件用于读写。如果该文件已存在，文件指针将会放在文件的结尾。文件打开时会是追加模式。如果该文件不存在，创建新文件用于读写。 ab+ 以二进制格式打开一个文件用于追加。如果该文件已存在，文件指针将会放在文件的结尾。如果该文件不存在，创建新文件用于读写。

文件对象方法

file 对象 file 对象使用 open 函数来创建，下表列出了 file 对象常用的函数：序号方法及描述 1 file.close() 关闭文件。关闭后文件不能再进行读写操作。 2 file.flush() 刷新文件内部缓冲，直接把内部缓冲区的数据立刻写入文件, 而不是被动的等待输出缓冲区写入。 3 file.fileno() 返回一个整型的文件描述符(file descriptor FD 整型), 可以用在如os模块的read方法等一些底层操作上。 4 file.isatty() 如果文件连接到一个终端设备返回 True，否则返回 False。 5 file.next() 返回文件下一行。 6 file.read([size]) 从文件读取指定的字节数，如果未给定或为负则读取所有。 7 file.readline([size]) 读取整行，包括 “\n” 字符。 8 file.readlines([sizeint]) 读取所有行并返回列表，若给定sizeint>0，则是设置一次读多少字节，这是为了减轻读取压力。 9 file.seek(offset[, whence]) 设置文件当前位置 10 file.tell() 返回文件当前位置。 11 file.truncate([size]) 截取文件，截取的字节通过size指定，默认为当前文件位置。 12 file.write(str) 将字符串写入文件，返回的是写入的字符长度。 13 file.writelines(sequence) 向文件写入一个序列字符串列表，如果需要换行则要自己加入每行的换行符。（今天的内容可能会很枯燥）

简单的例子

我们先准备一张图片代码如下：

import urllib.request url_web='https://123p0.sogoucdn.com/imgu/2019/05/20190520110347_364.gif' web=urllib.request.urlopen(url_web) file=open(r'C:\Users\a3139\Desktop\新建文件夹\pu.gif','wb') file.write(web.read()) file.close()

此外我们还可以用urlretrieve()实现

import urllib.request url_web='https://123p0.sogoucdn.com/imgu/2019/05/20190520110347_364.gif' path=r'C:\Users\a3139\Desktop\新建文件夹\puuu.gif'#这是文件下载路径 file_gif=urllib.request.urlretrieve(url_web,path)

今天只能将这么多了！！！由于下周考试下周就不更了只要能培一朵花，就不妨做会朽的腐草。—— 鲁迅

最新回复(0)