原创: 未明学院
Pandas是一个强大的分析结构化数据的工具集;它基于numpy,用于数据分析和数据挖掘,同时也提供数据清洗功能。pandas与numpy一起构成了数据分析的基础双生库。
今天小明邀请了未明的王老师,给大家总结了pandas的核心知识,主要包括以下几个方面。
pandas核心知识
01、首先我们来认识一下pandas的一些基本概念。
pandas概述
02在使用pandas做数据分析的时候往往第一步就是将数据导入进来,比如csv或者excel格式的数据,下面这张图就是我们读取数据时候的方法和参数。
数据读入
03、当多个数据表需要合并时可以按照下面的三种方式来进行,merge,join和concat。
数据集合并
04、在做数据分析与挖掘的时候往往都要对数据的缺失值异常值进行处理,也需要将数据变换格式从而满足特定的分析和挖掘工具的需求,下面这张图梳理了pandas常用的函数方法。
常用函数方法
05、也许大多数人都有在Excel中使用数据透视表的经历,其实Pandas也提供了一个类似的功能,名为pivot_table。
数据透视表
06、Groupby就是对指定的索引进行分类聚合,是pandas用于数据分析一个强大的动能函数,很多对数据的清洗、转换、聚合都需要用到。
Groupby
07、处理好的数据最终将要导出保存,常用的两种数据导出格式就是excel和csv文件两种。
数据导出
这个是完整的导图,方便大家收藏查看。
经过老师的梳理,大家是不是对数据分析关键库pandas有了更清晰的认识呢?
小明以后还会推出更多与Python学习相关的干货,快留言告诉我们你最想了解的内容吧!