Python读写csv文件专题教程(3)

    xiaoxiao2025-11-27  20

    这是第276篇原创

    完整导图

    前两个部分:

    Python读写csv文件专题教程(1)

    Python读写csv文件专题教程(2)


    2.5 时间相关

    parse_dates

    如果导入的某些列为时间类型,但是导入时没有为此参数赋值,导入后就不是时间类型,如下:

    In [5]: df = pd.read_csv('test.csv',sep='\s+',header=0,na_values=['#'])         In [6]: df                                                                      Out[6]:    id  id.1  age label       date0   1  'gz'   10   YES  1989-12-11   2  'lh'   12    NO        NaNIn [7]: df.dtypes                                                               Out[7]: id        int64id.1     objectage       int64label    objectdate     objectdtype: object

    date列此时类型为object,想办法转化为时间型:

    In [8]: df = pd.read_csv('test.csv',sep='\s+',header=0,na_values=['#'],parse_dat   ...: es=['date'])                                                            In [9]: df                                                                      Out[9]:    id  id.1  age label       date0   1  'gz'   10   YES 1989-12-011   2  'lh'   12    NO        NaTIn [11]: df.dtypes                                                              Out[11]: id                int64id.1             objectage               int64label            objectdate     datetime64[ns]

    此时的类型为datetime.

    date_parser

    date_parser参数定制某种时间类型,详细使用过程总结如下。我们的数据文件:

    In [82]: cat test.csv                                                           id  id  age  label  date1  'gz'  10  YES  26-MAY-20192  'lh'  12  NO  30-MAR-2019

    如果时间格式转化成标准的年月日,操作如下:

    In [83]: df = pd.read_csv('test.csv',sep='\s+',parse_dates=['date'],date_parser=    ...: lambda dates: pd.datetime.strptime(dates,'%d-%b-%Y'))                  In [84]: df                                                                     Out[84]:    id  id.1  age label       date0   1  'gz'   10   YES 2019-05-261   2  'lh'   12    NO 2019-03-30

    转化为timetuple格式,如下:

    In [85]: df = pd.read_csv('test.csv',sep='\s+',parse_dates=['date'],date_parser=    ...: lambda dates: pd.datetime.strptime(dates,'%d-%b-%Y').timetuple())      In [86]: df                                                                     Out[86]:    id  id.1  age label                                date0   1  'gz'   10   YES  (20195260006146, -1)1   2  'lh'   12    NO   (2019330000589, -1)

    infer_datetime_format

    infer_datetime_format 参数默认为 boolean, default False如果设定为True并且parse_dates 可用,那么pandas将尝试转换为日期类型,如果可以转换,转换方法并解析。在某些情况下会快5~10倍。

    2.6 分块读入

    逐快读入内存

    iterator

    取值 boolean, default False返回一个TextFileReader 对象,以便逐块处理文件。

    这个在文件很大时,内存无法容纳所有数据文件,此时分批读入,依次处理。具体操作演示如下,我们的文件数据域一共有2行。

    先读入一行,get_chunk参数1表示一次读入一行

    In [105]: chunk = pd.read_csv('test.csv',sep='\s+',iterator=True)               In [106]: chunk.get_chunk(1)                                                    Out[106]:    id  id.1  age label         date       date10   1  'gz'   10   YES  26-MAY-2019  4-OCT-2017

    再读入下一行,

    In [107]: chunk.get_chunk(1)                                                    Out[107]:    id  id.1  age label         date       date11   2  'lh'   12    NO  30-MAR-2019  2-SEP-2018

    此时已到文件末尾,再次读入会报异常,

    In [108]: chunk.get_chunk(1)  StopIteration                             Traceback (most recent call last)<ipython-input-108-f294b07af62c> in <module>----> 1 chunk.get_chunk(1)

    chunksize

    chunksize: int, default None设置文件块的大小

    2.7 引用,压缩,文件格式

    compression

    参数取值为 {‘infer’, ‘gzip’, ‘bz2’, ‘zip’, ‘xz’, None}, default ‘infer’直接使用磁盘上的压缩文件。如果使用infer参数,则使用 gzip, bz2, zip或者解压文件名中以‘.gz’, ‘.bz2’, ‘.zip’, or ‘xz’这些为后缀的文件,否则不解压。

    如果使用zip,那么ZIP包中国必须只包含一个文件。设置为None则不解压。

    In [119]: df = pd.read_csv('test.zip',sep='\s+',compression='zip')              In [120]: df                                                                    Out[120]:    id  id.1  age label         date       date10   1  'gz'   10   YES  26-MAY-2019  4-OCT-20171   2  'lh'   12    NO  30-MAR-2019  2-SEP-2018

    thousands

    thousands : str, default None千分位分割符,如“,”或者“."

    如下,显示数据文件 test.csv

    In [122]: cat test.csv                                                          id  id  age  label  date1  'gz'  10  YES  1,090,0012  'lh'  12  NO  20,010

    其中date列为带千分位分隔符的整形,如果我们不显示指定thousands参数,则读入后的date列类型为object. 如下:

    In [125]: df = pd.read_csv('test.csv',sep='\s+')                                In [126]: df                                                                    Out[126]:    id  id.1  age label       date0   1  'gz'   10   YES  1,090,0011   2  'lh'   12    NO     20,010In [127]: df.dtypes                                                             Out[127]: id        int64id.1     objectage       int64label    objectdate     objectdtype: object

    如果显示指定thousands为,,则读入后date列显示为正常的整型。

    In [128]: df = pd.read_csv('test.csv',sep='\s+',thousands=','In [132]: df                                                                    Out[132]:    id  id.1  age label     date0   1  'gz'   10   YES  10900011   2  'lh'   12    NO    20010In [130]: df['date'].dtypes                                                     Out[130]: dtype('int64')

    decimal

    decimal : str, default ‘.’字符中的小数点 (例如:欧洲数据使用’,‘). 类别上面的thousands参数。

    float_precision

    float_precision : string, default None指定c引擎的浮点数转化器,默认为普通,参数可能取值还包括:high-precision, round_trip.

    lineterminator

    lineterminator: str (length 1), default None行分割符,只在C解析器下使用。

    quotechar

    quotechar: str (length 1), optional引号,用作标识开始和解释的字符,引号内的分割符将被忽略。

    quoting

    quoting : int or csv.QUOTE_* instance, default 0

    控制csv中的引号常量。可选 QUOTE_MINIMAL (0), QUOTE_ALL (1), QUOTE_NONNUMERIC (2) or QUOTE_NONE (3)

    doublequote : boolean, default True双引号,当单引号已经被定义,并且quoting 参数不是QUOTE_NONE的时候,使用双引号表示引号内的元素作为一个元素使用。

    escapechar

    escapechar: str (length 1), default None当quoting 为QUOTE_NONE时,指定一个字符使的不受分隔符限值。

    comment

    comment: str, default None标识着多余的行不被解析。如果该字符出现在行首,这一行将被全部忽略。

    这个参数只能是一个字符,空行(就像skip_blank_lines=True),注释行被header和skiprows忽略一样。例如,如果指定comment='#' 解析‘#empty\na,b,c\n1,2,3’ 以header=0 那么返回结果将是以’a,b,c'作为header。

    encoding

    encoding: str, default None指定字符集类型,通常指定为'utf-8'. List of Python standard encodings

    dialect

    dialect: str or csv.Dialect instance, default None如果没有指定特定的语言,如果sep大于一个字符则忽略。具体查看csv.Dialect 文档

    error_bad_lines

    error_bad_lines : boolean, default True如果一行包含太多的列,那么默认不会返回DataFrame ,如果设置成false,那么会将该行剔除(只能在C解析器下使用)。

    我们故意修改test.csv文件某个单元格的取值(带有两个空格,因为我们的数据文件默认分隔符为两个空格)

    In [148]: cat test.csv                                                          id  id  age  label  date1  'gz'  10.8  YES  1,090,0012  'lh'  12.31  NO  O  20,010

    此时,读入数据文件,会报异常:

    ParserError: Error tokenizing data. C error: Expected 5 fields in line 3, saw 6

    在小样本读取时,这个错误很快就能发现,但是在读取大数据文件时,假如读了1个小时,最后几行出现了这类错误,就很闹心!所以稳妥起见,我们一般都会将error_bad_lines设置为False, 也就是剔除此行, 同时使用下节的 warn_bad_lines 设置为True,打印剔除的这行。

    In [150]: df = pd.read_csv('test.csv',sep='\s+',error_bad_lines=False)          b'Skipping line 3: expected 5 fields, saw 6\n'In [151]: df                                                                    Out[151]:    id  id.1   age label       date0   1  'gz'  10.8   YES  1,090,001

    可以看到输出的警告信息:Skipping line 3: expected 5 fields, saw 6

    warn_bad_lines

    warn_bad_lines : boolean, default True如果error_bad_lines =False,并且warn_bad_lines =True 那么所有的“bad lines”将会被输出(只能在C解析器下使用)。

    参数 tupleize_cols,不推荐使用。

    以上就是读csv文件的所有参数及对应演示。


    本专题为 Python与算法社区 公众号出品,转载请注明出处。

    Python与算法社区

    最新回复(0)