作者：Klib

懒人专用数据竞赛工具包-Klib

简介

klib 是一个用于导入、清理、分析和预处理数据的Python库。

1. 自动进行数据质量评估

直接使用klib的缺失值统计函数进行数据质量评估。

import klib
import pandas as pd

df = pd.read_csv("NFL_DATASET.csv")
klib.missingval_plot(df)

2. 数据清洗

清理列名(colume name)：通过格式化、拆分等方式统一列名，将CamelCase转换为camel_case，移除特殊字符以及前导和尾随空格，并将所有列名格式化为小写和下划线分隔。这还会检查和修复重复的列名，有时从文件中读取数据时会出现这种情况。
删除空列和几乎空列：可以使用参数drop_threshold_cols和drop_threshold_rows来调整删除操作以满足您的需求。默认情况下，会删除具有超过90%缺失值的列和行。
删除只有一个值的列：删除其中每个单元格都包含相同值的列。
删除重复的行：这是一个简单的丢弃完全重复行的操作。如果你处理的数据中重复行有价值，可以考虑将 drop_duplicates=False。
减少内存占用，从而加快工作流程中后续步骤的速度，klib.data_cleaning() 还会优化数据类型

df_cleaned = klib.data_cleaning(df)

3.数据分析

3.1 相关性分析

使用klib.corr_plot()等函数，将拆分参数设置为“pos”、“neg”、“high”或“low”，并在需要时结合阈值，让我们能够深入挖掘并突出显示最重要的方面。

3.2 类别特征分析

klib.cat_plot(df_cleaned)

小结

Klib极大地方便了数据清洗和可视化工作，当然Klib具有比我们上面所描述的更多功能和设置。有兴趣的朋友可以参考对应的文档。

参考文献

https://medium.com/towards-data-science/speed-up-your-data-cleaning-and-preprocessing-with-klib-97191d320f80
https://github.com/attractivechaos/klib
https://pypi.org/project/klib/

      
       
      
      
       
                  
           
                         
              
               
                
                 
                  往期精彩回顾
                 
                
               
              
             
             
              
               
                
                 

                
                
                 
                  

                 
                 
                  

                 
                
                
                 

                
               
              
              
               
                
                 适合初学者入门人工智能的路线及资料下载
                
               
                
                 (图文+视频)机器学习入门系列下载
                
               
                
                 机器学习及深度学习笔记等资料打印
                
               
                
                 《统计学习方法》的代码复现专辑

```
交流群
```

欢迎加入机器学习爱好者微信群一起和同行交流，目前有机器学习交流群、博士群、博士申报交流、CV、NLP等微信群，请扫描下面的微信号加群，备注：”昵称-学校/公司-研究方向“，例如：”张小明-浙大-CV“。请按照格式备注，否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告，否则会请出群，谢谢理解~（也可以加入机器学习交流qq群772479961）

【Python】懒人专用数据竞赛工具包！

作者：Klib 懒人专用数据竞赛工具包-Klib

简介