全文共2071字,预计学习时长6分钟
Pandas库目前已经成为用Python进行探索性数据分析的绝佳伴侣。它功能丰富,灵活易用,成为了当今许多数据科学家的首选。Pandas库的社区也很完善,这让它能够一直积极发展和改进。
提到Pandas,就不得不提到这两种工具:
· 可以用简短的代码执行基本EDA的工具。这些库本质上是在hood中运行Pandas的功能,如SweetViz和Pandas profiling库。
· 基于GUI的Pandas替代品,如Bamboolib。
最近,笔者发现了另一个基于GUI的Pandas替代,叫做PandasGUI。它具有绘制数据帧以及重新构建数据帧的功能,用户也可以进行任意自定义操作。本文将介绍它的各种功能以及在数据中使用的方法。
PandasGUI,顾名思义,是一个用于分析Pandas数据帧的图形用户界面。该项目仍在积极开发中,可能会发生颠覆性的变化。
可以通过以下几种方式安装PandasGUI:
# from PyPipip install pandasguior# from Githubpip install git+https://github.com/adamerose/pandasgui.git
接下来,笔者将通过一个示例来介绍PandasGUI库的各种功能。PandasGUI已经装配了一些示例数据集,我们使用的是库中已有的Titanic数据集。
Titanic是机器学习中相当有名的“Hello World”数据集,其任务是创建一个模型,预测哪些乘客会在泰坦尼克号沉船事故中幸存。
import pandas as pdfrom pandasgui import showfrom pandasgui.datasets import titanicgui = show(titanic)
可以通过以下方式导入数据集:
titanic = pd.read_csv('https://github.com/adamerose/datasets/blob/master/titanic.csv')gui = show(titanic)
运行上述命令后,PandasGUI中将打开一个单独的窗口,并显示上载的数据帧:
PandasGUI中的Titanic数据帧 | 作者原创图
对DataFrames和Series进行查看与排序
可以查看导入的全部数据帧,然后按升序或降序对其进行快速排序。请注意,PandasGUI也可以处理多类数据帧。
对DataFrames和Series进行查看和排序 | 作者原创图
用查询表达式筛选数据帧
探索了数据集之后,就可以根据一些查询表达式筛选数据集。Pandas最初用Dataframe.query()执行筛选操作。它用字符串形式的表达式来筛选数据,对原始数据帧进行更改,并返回筛选后的数据帧。
就本数据集而言,假设想要筛选出以下乘客:
· 男性
· 属于Pclass 3
· 在沉船事故中幸存
筛选数据帧 | 作者原创图
数据编辑和复制粘贴
此工具的另一个强大功能是可以直接编辑任何条目,甚至可以将选中的数据复制粘贴到另一个类似excel或记事本的文档中。
数据编辑和复制粘贴 | 作者原创图
统计摘要
PandasGUI还提供整个数据集的精简统计摘要。
统计摘要 | 作者原创图
对话绘图
数据可视化是任何数据分析过程中必不可少的,PandasGUI提供了几个选项来快速创建一些酷炫的交互式图表,例如:
PandasGUI可制作的图表 | 作者原创图
用pivot和melt函数重造数据帧
有时需要重造数据以获得更清晰的观察视角。PandasGUI中的pivot函数与melts函数都能实现此功能。
用pivot来重造数据| 作者原创图
通过拖放导入CSV文件
PandasGUI的另一个强大之处是,只需将数据帧拖到GUI界面上,就可以简单地导入数据帧。
通过拖放导入CSV文件 | 作者原创图
从Jupyter Notebook获取GUI数据帧
如果已经直接将数据帧导入到PandasGUI界面上,那么只需几行代码就可以在熟悉的juptyer notebook中获取数据帧。这样就可以随时让notebook自带数据分析过程。
从Jupyter Notebook访问GUI数据帧 | 作者原创图
Pandas GUI正在积极开发中,我们可能会在未来看到更多的功能。它拯救了对于那些不喜欢编码或者想要借助低代码平台的人,赶紧掌握它吧!
留言点赞关注
我们一起分享AI学习与发展的干货
如转载,请后台留言,遵守转载规范