在数据分析和数据科学领域,我们经常需要对数据集进行初步的了解和探索。`info()`函数和`describe()`函数是两个非常实用的工具,它们可以帮助我们快速地获取数据集的基本信息和统计特征。让我们一起来看看这两个函数的作用吧!✨
1. `info()`函数:数据概览 👀
`info()`函数主要用于显示DataFrame的基本信息,包括每一列的数据类型(如整型、浮点型、字符串等)以及非空值的数量。这个函数对于检查数据集中是否存在缺失值非常有帮助。例如:
```python
data.info()
```
执行后,你会看到类似下面的输出:
```
RangeIndex: 100 entries, 0 to 99
Data columns (total 3 columns):
ColumnNon-Null CountDtype
----------------------------
0 A 100 non-nullint64
1 B 95 non-nullfloat64
2 C 98 non-nullobject
dtypes: float64(1), int64(1), object(1)
memory usage: 2.4+ KB
```
从上面的输出中,你可以清楚地看到每一列的数据类型以及非空值的数量。
2. `describe()`函数:统计描述 📊
`describe()`函数则用于生成数据集的统计描述,包括计数、平均值、标准差、最小值、四分位数和最大值等。这对于理解数据分布非常有用。例如:
```python
data.describe()
```
执行后,你会看到类似下面的输出:
```
AB C
count100.00000095.00000098.000000
mean50.500000 50.0000004.979592
std 28.866070 28.8660702.866789
min1.0000001.0000000.000000
25% 25.750000 25.0000002.000000
50% 50.500000 50.0000005.000000
75% 75.250000 75.0000008.000000
max100.000000100.000000 10.000000
```
这些统计数据能帮助你更深入地了解数据的分布情况和异常值。