python pandas数据清洗_利用Python Pandas进行数据预处理-数据清洗.md

news/2024/7/3 3:13:41

# [利用Python Pandas进行数据预处理-数据清洗](http://blog.csdn.net/yen_csdn/article/details/53445616)

标签: [python](http://www.csdn.net/tag/python)[数据分析](http://www.csdn.net/tag/%e6%95%b0%e6%8d%ae%e5%88%86%e6%9e%90)[异常](http://www.csdn.net/tag/%e5%bc%82%e5%b8%b8)[pandas](http://www.csdn.net/tag/pandas)[数据预处理](http://www.csdn.net/tag/%e6%95%b0%e6%8d%ae%e9%a2%84%e5%a4%84%e7%90%86)

2016-12-03 17:54 30794人阅读 [评论](http://blog.csdn.net/yen_csdn/article/details/53445616#comments)(0) [收藏](javascript:void(0);) [举报](http://blog.csdn.net/yen_csdn/article/details/53445616#report)

![img](http://static.blog.csdn.net/images/category_icon.jpg) 分类:

Python知识体系-----------------*(21)* ![img](http://static.blog.csdn.net/images/arrow_triangle%20_down.jpg) ----【Python数据科学】*(7)* ![img](http://static.blog.csdn.net/images/arrow_triangle%20_down.jpg)

版权声明:本文为博主原创文章,未经博主允许不得转载。

> 数据缺失、检测和过滤异常值、移除重复数据

**数据缺失**

数据缺失在大部分数据分析应用中都很常见,Pandas使用浮点值NaN表示浮点和非浮点数组中的缺失数据,他只是一个便于被检测出来的数据而已。

```

from pandas import Series,DataFrame

string_data=Series(['abcd','efgh','ijkl','mnop'])

print(string_data)

print("...........\n")

print(string_data.isnull())1234567

```

![这里写图片描述](https://img-blog.csdn.net/20161203163334214)

Python内置的None值也会被当作NA处理

```

from pandas import Series,DataFrame

string_data=Series(['abcd','efgh','ijkl','mnop'])

print(string_data)

print("...........\n")

string_data[0]=None

print(string_data.isnull())123456789

```

![这里写图片描述](https://img-blog.csdn.net/20161203163557882)

处理NA的方法有四种:dropna,fillna,isnull,notnull

**is(not)null**,这一对方法对对象做出元素级的应用,然后返回一个布尔型数组,一般可用于布尔型索引。

**dropna**,对于一个Series,dropna返回一个仅含非空数据和索引值的Series。

问题在于DataFrame的处理方式,因为一旦drop的话,至少要丢掉一行(列)。这里解决方法与前面类似,还是通过一个额外的参数:dropna(axis=0,how=’any’,thresh=None),how参数可选的值为any或者all.all仅在切片元素全为NA时才抛弃该行(列)。thresh为整数类型,eg:thresh=3,那么一行当中至少有三个NA值时才将其保留。

**fillna**,fillna(value=None,method=None,axis=0)中的value除了基本类型外,还可以使用字典,这样可以实现对不同列填充不同的值。

------

**过滤数据:**

对于一个Series,dropna返回一个仅含非空数据和索引值的Series:

```

from pandas import Series,DataFrame

from numpy import nan as NA

data=Series([1,NA,3.5,NA,7])

print(data.dropna())123456

```

![这里写图片描述](https://img-blog.csdn.net/20161203165351489)

另一个过滤DataFrame行的问题涉及问题序列数据。假设只想留一部分观察数据,可以用thresh参数实现此目的:

```

from pandas import Series,DataFrame, np

from numpy import nan as NA

data=DataFrame(np.random.randn(7,3))

data.ix[:4,1]=NA

data.ix[:2,2]=NA

print(data)

print("...........")

print(data.dropna(thresh=2))12345678910111213

```

![这里写图片描述](https://img-blog.csdn.net/20161203170540183)

------

不想滤除缺失的数据,而是通过其他方式填补“空洞”,fillna是最主要的函数。

通过一个常数调用fillna就会将缺失值替换为那个常数值:

```

from pandas import Series,DataFrame, np

from numpy import nan as NA

data=DataFrame(np.random.randn(7,3))

data.ix[:4,1]=NA

data.ix[:2,2]=NA

print(data)

print("...........")

print(data.fillna(0))12345678910111213

```

![这里写图片描述](https://img-blog.csdn.net/20161203170842830)

若是通过一个字典调用fillna,就可以实现对不同列填充不同的值。

```

from pandas import Series,DataFrame, np

from numpy import nan as NA

data=DataFrame(np.random.randn(7,3))

data.ix[:4,1]=NA

data.ix[:2,2]=NA

print(data)

print("...........")

print(data.fillna({1:111,2:222}))12345678910111213

```

![这里写图片描述](https://img-blog.csdn.net/20161203171021708)

可以利用fillna实现许多别的功能,比如可以传入Series的平均值或中位数:

```

from pandas import Series,DataFrame, np

from numpy import nan as NA

data=Series([1.0,NA,3.5,NA,7])

print(data)

print("...........\n")

print(data.fillna(data.mean()))

123456789

```

![这里写图片描述](https://img-blog.csdn.net/20161203171607422)

------

------

**检测和过滤异常值**

异常值(outlier)的过滤或变换运算在很大程度上就是数组运算。如下一个(1000,4)的标准正态分布数组:

```

from pandas import Series,DataFrame, np

from numpy import nan as NA

data=DataFrame(np.random.randn(1000,4))

print(data.describe())

print("\n....找出某一列中绝对值大小超过3的项...\n")

col=data[3]

print(col[np.abs(col) > 3] )

print("\n....找出全部绝对值超过3的值的行...\n")

print(col[(np.abs(data) > 3).any(1)] )123456789101112

```

![这里写图片描述](https://img-blog.csdn.net/20161203172531823)

------

------

**移除重复数据**

DataFrame的duplicated方法返回一个布尔型Series,表示各行是否是重复行。

```

from pandas import Series,DataFrame, np

from numpy import nan as NA

import pandas as pd

import numpy as np

data=pd.DataFrame({'k1':['one']*3+['two']*4, 'k2':[1,1,2,2,3,3,4]})

print(data)

print("........\n")

print(data.duplicated())123456789

```

![这里写图片描述](https://img-blog.csdn.net/20161203174303613)

与此相关的还有一个drop_duplicated方法,它用于返回一个移除了重复行的DataFrame:

```

from pandas import Series,DataFrame, np

from numpy import nan as NA

import pandas as pd

import numpy as np

data=pd.DataFrame({'k1':['one']*3+['two']*4, 'k2':[1,1,2,2,3,3,4]})

print(data)

print("........\n")

print(data.drop_duplicates())123456789

```

![这里写图片描述](https://img-blog.csdn.net/20161203174437497)

------

上面的两个方法会默认判断全部列,也可以指定部分列进行重复项判断,假设还有一列值,而只希望根据k1列过滤重复项。

```

from pandas import Series,DataFrame, np

from numpy import nan as NA

import pandas as pd

import numpy as np

data=pd.DataFrame({'k1':['one']*3+['two']*4, 'k2':[1,1,2,2,3,3,4]})

data['v1']=range(7)

print(data)

print("........\n")

print(data.drop_duplicates(['k1']))12345678910

```

![这里写图片描述](https://img-blog.csdn.net/20161203174646623)

duplicates和drop_duplicates默认保留第一个出现的值组合。传入take_last=True则保留最后一个:

```

from pandas import Series,DataFrame, np

from numpy import nan as NA

import pandas as pd

import numpy as np

data=pd.DataFrame({'k1':['one']*3+['two']*4, 'k2':[1,1,2,2,3,3,4]})

data['v1']=range(7)

print(data)

print("........\n")

print(data.drop_duplicates(['k1','k2'],take_last=True))12345678910

```

![这里写图片描述](https://img-blog.csdn.net/20161203175313299)

一键复制

编辑

Web IDE

原始数据

按行查看

历史


http://www.niftyadmin.cn/n/4084357.html

相关文章

iOS8开发~UI布局(三)深入理解autolayout

一、概要 通过对iOS8界面布局的学习和总结,发现autolayout才是主角,autolayout是iOS6引入的新特性,当时还粗浅的学习了下,可是没有真正应用到项目中。随着iOS设备尺寸逐渐碎片化,纯粹的hard code方式UI布局将会走向死角…

java 8安卓_Android中启用Java 8

支持 Java 8 语言功能需要一个名为 Jack 的新编译。Jack 仅在 Android Studio 2.1 和更高版本上才受支持。因此,如果要使用 Java 8 语言功能,则需使用 Android Studio 2.1 开发应用。Java8功能targetSdkVersion>23以下功能特性默认和静态接口方法Lamb…

js判断是否为数组的函数: isArray()

2019独角兽企业重金招聘Python工程师标准>>> 今天刚好在学习支付宝 JS 框架 base.js 。瞄了一下,实现是这样的: if (value instanceof Array ||(!(value instanceof Object) &&(Object.prototype.toString.call((value)) [object Ar…

java 输出excel_java 导出excel方法

到http://download.csdn.net/source/1781433下载jxl.jar文件/*Title是保存出来的文件名,gbl_LastOpenPath用于记录上次打开的路径*/public void ExportToExcel(JTable table, String Title){File DefaultFile;JFileChooser fc new JFileChooser();File file;if(gbl…

shell expect

ubuntu su root****************************************************expect << EOFspawn su rootexpect "密码&#xff1a;" send "$pass\r" expect eofEOF*******************************************************转载于:https://blog.51cto.com…

【ZT】SQL SERVER性能瓶頸監測

当您怀疑计算机硬件是影响SQL Server运行性能的主要原因时&#xff0c;可以通过SQL Server Performance Monitor监视相应硬件的负载&#xff0c;以证实您的猜测并找出系统瓶颈。下文将介绍一些常用的分析对象及其参数。 Memory: Page Faults / sec 如果该值偶尔走高&#xff0c…

java char int 运算符_Java - char, int conversions

小编典典第一个示例(编译)很特殊&#xff0c;因为加法的两个操作数都是文字。以下是一些定义&#xff1a;一个转换int到char被称为基本收缩转换&#xff0c;因为char是比较小的类型int。A 1是一个常量表达式。常量表达式(基本上)是一个表达式&#xff0c;其结果始终相同&#…

i18n php_国际化(I18N)

[TOC]#### 1. Yii::t() 方法可以像这样使用&#xff0c;如下所示&#xff1a;~~~//代码片段中&#xff0c;app 代表文本消息的类别echo \Yii::t(app, This is a message to translate!);~~~#### 2. 修改配置文件~~~components > [// ...i18n > [translations > [* >…