Pandas GUI:如何轻松获取Pandas数据帧?

全文共2071字,预计学习时长6分钟

Pandas库目前已经成为用Python进行探索性数据分析的绝佳伴侣。它功能丰富,灵活易用,成为了当今许多数据科学家的首选。Pandas库的社区也很完善,这让它能够一直积极发展和改进。

提到Pandas,就不得不提到这两种工具:

· 可以用简短的代码执行基本EDA的工具。这些库本质上是在hood中运行Pandas的功能,如SweetViz和Pandas profiling库。

· 基于GUI的Pandas替代品,如Bamboolib。

最近,笔者发现了另一个基于GUI的Pandas替代,叫做PandasGUI。它具有绘制数据帧以及重新构建数据帧的功能,用户也可以进行任意自定义操作。本文将介绍它的各种功能以及在数据中使用的方法。

PandasGUI,顾名思义,是一个用于分析Pandas数据帧的图形用户界面。该项目仍在积极开发中,可能会发生颠覆性的变化。

可以通过以下几种方式安装PandasGUI:

# from PyPipip install pandasguior# from Githubpip install git+https://github.com/adamerose/pandasgui.git

接下来,笔者将通过一个示例来介绍PandasGUI库的各种功能。PandasGUI已经装配了一些示例数据集,我们使用的是库中已有的Titanic数据集。

Titanic是机器学习中相当有名的“Hello World”数据集,其任务是创建一个模型,预测哪些乘客会在泰坦尼克号沉船事故中幸存。

import pandas as pdfrom pandasgui import showfrom pandasgui.datasets import titanicgui = show(titanic)

可以通过以下方式导入数据集:

titanic = pd.read_csv('https://github.com/adamerose/datasets/blob/master/titanic.csv')gui = show(titanic)

运行上述命令后,PandasGUI中将打开一个单独的窗口,并显示上载的数据帧:

PandasGUI中的Titanic数据帧 | 作者原创图

对DataFrames和Series进行查看与排序

可以查看导入的全部数据帧,然后按升序或降序对其进行快速排序。请注意,PandasGUI也可以处理多类数据帧。

对DataFrames和Series进行查看和排序 | 作者原创图

用查询表达式筛选数据帧

探索了数据集之后,就可以根据一些查询表达式筛选数据集。Pandas最初用Dataframe.query()执行筛选操作。它用字符串形式的表达式来筛选数据,对原始数据帧进行更改,并返回筛选后的数据帧。

就本数据集而言,假设想要筛选出以下乘客:

· 男性

· 属于Pclass 3

· 在沉船事故中幸存

筛选数据帧 | 作者原创图

数据编辑和复制粘贴

此工具的另一个强大功能是可以直接编辑任何条目,甚至可以将选中的数据复制粘贴到另一个类似excel或记事本的文档中。

数据编辑和复制粘贴 | 作者原创图

统计摘要

PandasGUI还提供整个数据集的精简统计摘要。

统计摘要 | 作者原创图

对话绘图

数据可视化是任何数据分析过程中必不可少的,PandasGUI提供了几个选项来快速创建一些酷炫的交互式图表,例如:

PandasGUI可制作的图表 | 作者原创图

用pivot和melt函数重造数据帧

有时需要重造数据以获得更清晰的观察视角。PandasGUI中的pivot函数与melts函数都能实现此功能。

用pivot来重造数据| 作者原创图

通过拖放导入CSV文件

PandasGUI的另一个强大之处是,只需将数据帧拖到GUI界面上,就可以简单地导入数据帧。

通过拖放导入CSV文件 | 作者原创图

从Jupyter Notebook获取GUI数据帧

如果已经直接将数据帧导入到PandasGUI界面上,那么只需几行代码就可以在熟悉的juptyer notebook中获取数据帧。这样就可以随时让notebook自带数据分析过程。

从Jupyter Notebook访问GUI数据帧 | 作者原创图

Pandas GUI正在积极开发中,我们可能会在未来看到更多的功能。它拯救了对于那些不喜欢编码或者想要借助低代码平台的人,赶紧掌握它吧!

留言点赞关注

我们一起分享AI学习与发展的干货

如转载,请后台留言,遵守转载规范

打开APP阅读更多精彩内容