数据分析之pandas的基本操作

共 2270字,需浏览 5分钟

 ·

2021-03-18 01:33


记得点击“Python日志”关注我们哦!

哈喽各位好啊

我是土豆哦



今天就来跟大家说一说数据分析其中一个库

pandas


01


首先我们要了解一下什么是pandas

Pandas的名称来自于面板数据(panel data)和Python数据分析(data analysis)。

Pandas是一个强大的分析结构化数据的工具集,基于NumPy构建,提供了 高级数据结构 和 数据操作工具,它是使Python成为强大而高效的数据分析环境的重要因素之一。

一个强大的分析和操作大型结构化数据集所需的工具集

基础是NumPy,提供了高性能矩阵的运算

提供了大量能够快速便捷地处理数据的函数和方法

应用于数据挖掘,数据分析

提供数据清洗功能



SeriesDataFrame中的索引都是Index对象,索引对象不可变,保证了数据的安全


Index对象种类:Index,索引;Int64Index,整数索引;MultiIndex,层级索引;DatetimeIndex,时间戳类型

Pandas有两个最主要也是最重要的数据结构:Series 和 DataFrame



pandas的基本数据结构


目前,pandas的基本数据结构有3种,Series,DataFrame和Pandel。要想熟练使用Pandas,这三种数据结构一定要牢记于心。其中DataFrame使用频率最高。


数据结构维度轴标签
Series一维index(唯一的行)
DataFrame二维index(行)和columns(列)
Pandel三维items major_axis和 minor_axis



02

Series

Series是一种类似于一维数组的 对象,由一组数据(各种NumPy数据类型)以及一组与之对应的索引(数据标签)组成。

  • 类似一维数组的对象

  • 由数据和索引组成

  • 索引(index)在左,数据(values)在右

    索引是自动创建的



Series的相关操作

操作代码实现返回值说明
获取前n行数据series.head(3)新Series获取前三行,默认获取前五行
获取后n行数据series.tail(3)新Series获取后三行,默认获取后五行
获取indexseries.indexRangeIndex获取index
获取valuesseries.valuesndarray一维数组获取所有values
运算series * 2新Series索引与数据的对应关系不被运算结果影响
series > 15新Series(bool)
name属性series.name新Series
series.index.name新Series
利用index取值series[index]
series['b']
对应的value值
利用index切片series[2:4]
series['b':'d']
新Series按索引名切片操作时,是包含终止索引的
不连续索引series[[0,2,4]]
series[['b','d']]
新Series注意是双层中括号[[…,…,…,]]
布尔索引series1 = series > 2

series2[series1]

新Series

03


DataFrame(Series容器)

DataFrame是一个表格型的数据结构,它含有一组有序的列,每列可以是不同类型的值。DataFrame既有行索引也有列索引,它可以被看做是由Series组成的字典(共用同一个索引),数据是以二维结构存放的。


类似多维数组/表格数据 (如,excel, R中的data.frame)

每列数据可以是不同的类型

索引包括列索引和行索引



DataFrame的相关操作



操作

代码实现

返回值

说明

获取前n行

dataframe.head(3)

新DataFrame

获取前三行,默认获取前五行

获取后n行

dataframe.tail(3)

新DataFrame

获取后三行,默认获取后五行
shapedataframe.shape元组返回dataframe形状

获取index

dataframe.index

RangeIndex

获取index
columnsdataframe.columns

RangeIndex

DataFrame列索引列表

获取values

dataframe.valuesndarray二维数组获取所有values

获取列数据

dataframe['A'] <=> dataframe.A新Series通过列索引获取列数据

dataframe[['A']]新DataFrame(只有一列)注意是双层中括号[[…,…,…,]]

增加列数据

dataframe['G'] = series
dataframe['G'] = dataframe['A'] + 4
新DataFrame类似Python的dict添加key-value

删除列数据

del(dataframe['G'])None

不连续索引

dataframe[['a','c']]新DataFrame注意是双层中括号[[…,…,…,]]




呱唧呱唧

对于pandas这个库的一些基础我们就写到这里啦

觉得不错的话别忘了给土豆一个三连哦

我们下期再见哦


需要学习资料的可以添加土豆的微信领取哦




Python日志
关注我们
一个认真搞知识的公众号

内容源自网络

浏览 57
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报