小白学竞赛：10个基础的Pandas函数-轻识

Hello大家好，我是Coggle菌。从今天开始我将和大家一起学习竞赛中的各种基础知识点，从基础库使用到具体的比赛案例。

今天我们将学习Pandas，一个非常强大的数据分析、数据清洗和读取的工具，也是在Kaggle竞赛中必备的库。

在这篇文章中，我将通过最常见的一些Pandas函数，希望入门的同学在学习完成后可以掌握。

`unique`和`nunique`函数

unique函数某列返回唯一元素的列表，此函数比NumPy中的unique函数更快。

data['Embarked'].unique()

nunique函数计算列不同值，其中NaN值被忽略。

data['Embarked'].nunique()

`describe`函数

describe函数统计表格中每列的平均值、最大值、最小值、分位点和分布情况。在统计时describe会忽略缺失值，用于查看数据整体的情况。

data.describe()

`sort_values`函数

sort_values函数可以对表格按照某列或者多列进行排序，通过ascending参数可以控制排序次序。

data.sort_values(by='Age', ascending=False)

`value_counts`函数

value_counts函数返回列中每个唯一值的计数，并按降序显示，最频繁出现的元素排在最前面。value_counts函数不包括空值。

data[['Pclass','Sex']].value_counts()

`isnull`函数

isnull函数计算数组的对象中是否存在任何缺失值，并返回布尔值。

`fillna`函数

fillna函数函数用于根据指定的方法填充缺失值，可以向其传入填充值（用于填充缺失值的值）和填充方法（如 bfill、ffill 等）等参数。

data['Age'].fillna(value=data['Age'].median(),inplace=True)

`groupby` 函数

groupby函数用于拆分数据并进行一些聚合（例如 sum、mean、count 等）或对其进行转换（例如用于填充缺失值或标准化数据）。

data.groupby(['Sex'])['Age'].agg(['max','min','mean','median'])

`map`函数

map函数用于映射将一个系列的值替换为另一个值。

sex = {'male':1, 'female':0} 
data['Sex'].map(gender)

`apply`函数

apply函数无疑是所有函数中最有用的函数之一，可以在 apply函数内部传递一个函数，它将根据需要应用于整个数据帧或特定系列。

df = pd.DataFrame({'Name':['X','Y','Z'], 'Marks':[150,120,175]})

def percentage_marks(x):
    return x/2
df['Marks'].apply(percentage_marks)

`pivot`函数

pivot函数通过索引或列值重塑数据框，这个功能基本类似于数据透视表。它使用列的唯一值来形成数据帧的索引。但与groupby函数不同，pivot不支持数据聚合。

df = pd.DataFrame({'Class':['1st','2nd','3rd','1st','2nd','3rd'],'Section':['A','A', 'A','B','B','B'],'Gr':[1,2,3,4,5,6]}) 
df.pivot(index='Class', columns='Section',values='Gr')

小白学竞赛：10个基础的Pandas函数

unique和nunique函数

describe函数

sort_values函数

value_counts函数

isnull函数

fillna函数

groupby 函数

map函数

apply函数

pivot函数