python怎么用pandas读取csv文件

频道：网站相关日期：2023-06-24 11:30:02 浏览：121

欧易OKX

全球三大交易所之一，注册领50 USDT数币盲盒！

官网注册 APP下载

Pandas

Pandas是Python中最流行的数据处理/数据分析库之一。Pandas提供了高效的数据结构和数据分析工具，适用于各种数据分析和处理任务。读取CSV文件是Pandas常见用法之一。下面详细介绍了如何使用Pandas读取CSV文件。

（图片来源网络，侵删）

CSV文件

CSV文件是一种常见的文件格式，全称为“Comma Separated Values”，即逗号分隔值。它是一种简单的文本文件格式，用于存储表格数据。CSV文件中每行代表表格中的一行数据，每列代表一种属性。每个单元格中的值通常使用逗号（“，”）进行分隔。

（图片来源网络，侵删）

Pandas读取CSV文件的基本用法

Pandas提供了read_csv()函数用于读取CSV文件。以下是一个简单的示例：

```

import pandas as pd

df = pd.read_csv('data.csv')

print(df)

'data.csv'是CSV文件的文件名。read_csv()函数将CSV文件读入一个Pandas DataFrame对象中。DataFrame是Pandas中最重要的数据结构之一，它类似于电子表格或数据库表格，可以存储和处理表格数据。

以上代码将CSV文件中的数据读入一个DataFrame对象中，并将其打印到控制台上。在控制台上将看到类似于以下内容的输出：

Date Open High Low Close Volume

0 1/1/2016 102.73 105.85 102.00 105.26 67649400

1 1/4/2016 102.61 105.37 102.00 105.35 55791000

2 1/5/2016 105.75 105.85 102.41 102.71 68457400

3 1/6/2016 101.59 103.32 100.50 102.38 81094400

4 1/7/2016 98.68 100.13 96.43 96.45 158360000

...

我们已经成功读取了CSV文件的内容。接下来，我们将详细介绍如何使用Pandas读取CSV文件并对其进行各种操作。

Pandas读取CSV文件的常用参数

read_csv()函数提供了许多可选参数，可以用于控制CSV文件的读取过程。以下是一些常用的参数：

1. **filepath_or_buffer**：CSV文件路径或文件对象。如果是文件路径，可以是相对路径或绝对路径。如果是文件对象，可以是任何具有read()方法的对象，例如StringIO或BytesIO对象等。

2. **sep**：用于分隔单元格的字符或字符串。默认为逗号（“，”）。如果CSV文件的分隔符不是逗号，需要显式指定分隔符。

3. **header**：指定哪一行作为列名。默认为0，即使用第一行作为列名。如果没有列名，可以将header设置为None。

4. **index_col**：指定哪一列作为行索引。默认为None，即不指定行索引。如果需要指定特定的列作为行索引，可以将index_col设置为该列的列名或列索引。

5. **usecols**：指定需要读取的列。默认为None，即读取所有列。如果只需要读取特定的列，可以将usecols设置为这些列的列名或列索引。

6. **dtype**：指定每列的数据类型。默认为None，即自动推断数据类型。如果需要显式指定每列的数据类型，可以将dtype设置为一个字典，该字典的键为列名，值为对应的数据类型。

7. **na_values**：指定缺失值的标识符。默认为None，即不处理缺失值。如果CSV文件中使用其他标识符表示缺失值，可以将na_values设置为这些标识符的列表或字典。

实例演示

假设我们有以下的CSV文件：

id, name, age, gender, salary

1, Alice, 25, F, 5000

2, Bob, 30, M, 6000

3, Charlie, 35, M, 7000

4, David, 40, M, 8000

以下是一些常见的用法示例：

读取CSV文件并打印到控制台上

以下代码读取CSV文件并将其打印到控制台上：

输出如下：

id name age gender salary

0 1 Alice 25 F 5000

1 2 Bob 30 M 6000

2 3 Charlie 35 M 7000

3 4 David 40 M 8000

使用header参数设置列名

以下代码使用header参数将第一行指定为列名：

df = pd.read_csv('data.csv', header=0)

使用index_col参数设置行索引

以下代码使用index_col参数将第一列指定为行索引：

df = pd.read_csv('data.csv', index_col=0)

name age gender salary

1 Alice 25 F 5000

2 Bob 30 M 6000

3 Charlie 35 M 7000

4 David 40 M 8000

使用usecols参数选择需要读取的列

以下代码使用usecols参数选择id、name和salary列进行读取：

df = pd.read_csv('data.csv', usecols=['id', 'name', 'salary'])

id name salary

0 1 Alice 5000

1 2 Bob 6000

2 3 Charlie 7000

3 4 David 8000

使用dtype参数指定数据类型

以下代码使用dtype参数指定age列的数据类型为float：

df = pd.read_csv('data.csv', dtype={'age': float})

id name age gender salary

0 1 Alice 25.0 F 5000

1 2 Bob 30.0 M 6000

2 3 Charlie 35.0 M 7000

3 4 David 40.0 M 8000

Pandas提供了丰富的API用于读取和处理CSV文件。通过掌握常见的