【Python】懒人专用数据竞赛工具包!

机器学习初学者

共 2980字,需浏览 6分钟

 ·

2024-07-28 12:00

作者:Klib

懒人专用数据竞赛工具包-Klib


简介

klib 是一个用于导入、清理、分析和预处理数据的Python库。

1. 自动进行数据质量评估

  • 直接使用klib的缺失值统计函数进行数据质量评估。
import klib
import pandas as pd

df = pd.read_csv("NFL_DATASET.csv")
klib.missingval_plot(df)

2. 数据清洗

  1. 清理列名(colume name):通过格式化、拆分等方式统一列名,将CamelCase转换为camel_case,移除特殊字符以及前导和尾随空格,并将所有列名格式化为小写和下划线分隔。这还会检查和修复重复的列名,有时从文件中读取数据时会出现这种情况。
  2. 删除空列和几乎空列:可以使用参数drop_threshold_cols和drop_threshold_rows来调整删除操作以满足您的需求。默认情况下,会删除具有超过90%缺失值的列和行。
  3. 删除只有一个值的列:删除其中每个单元格都包含相同值的列。
  4. 删除重复的行:这是一个简单的丢弃完全重复行的操作。如果你处理的数据中重复行有价值,可以考虑将 drop_duplicates=False。
  5. 减少内存占用,从而加快工作流程中后续步骤的速度,klib.data_cleaning() 还会优化数据类型
df_cleaned = klib.data_cleaning(df)

3.数据分析

3.1 相关性分析

使用klib.corr_plot()等函数,将拆分参数设置为“pos”、“neg”、“high”或“low”,并在需要时结合阈值,让我们能够深入挖掘并突出显示最重要的方面。

3.2 类别特征分析

klib.cat_plot(df_cleaned)

小结

Klib极大地方便了数据清洗和可视化工作,当然Klib具有比我们上面所描述的更多功能和设置。有兴趣的朋友可以参考对应的文档。

参考文献

  1. https://medium.com/towards-data-science/speed-up-your-data-cleaning-and-preprocessing-with-klib-97191d320f80
  2. https://github.com/attractivechaos/klib
  3. https://pypi.org/project/klib/

   
      
          
             
往期精彩回顾




  • 交流群

欢迎加入机器学习爱好者微信群一起和同行交流,目前有机器学习交流群、博士群、博士申报交流、CV、NLP等微信群,请扫描下面的微信号加群,备注:”昵称-学校/公司-研究方向“,例如:”张小明-浙大-CV“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告,否则会请出群,谢谢理解~(也可以加入机器学习交流qq群772479961


浏览 17
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报