当前位置:网站首页 > 技术博客 > 正文

pandas自定义聚合函数



处理大量数据时,经常需要对数据进行分组和汇总,为我们提供了一种简洁、高效的方式来实现这些操作,从而简化了数据分析的流程。

分组是指根据一个或多个列的值将数据分成多个组,每个组包含具有相同键值(这里的键值即用来分组的列值)的数据行。

聚合或者汇总则是指,在分组后,可以对每个组应用聚合函数(如求和、平均值、计数等),从而得到每个组的汇总信息。

导入数据:

 

下面通过具体的示例演示常用的使用方法。

单列聚合是指针对某一列汇总计算,比如:
针对“股票代码”聚合,看看不同股票的开盘价收盘价的平均值。

 


一共支股票,聚合之后,红色框内的是每支股票开盘价收盘价的平均值。

多列分组聚合时,按照中参数的顺序,依次进行分组,然后再聚合。
本次的使用的数据包含2024年1月和2月的数据,
我们先按照“股票代码”分组,再按“月份”分组,最后汇总信息。

聚合之前,先把日期的格式转换成月的形式:

 

根据“股票代码”“日期”来聚合每支股票每个月的开盘价收盘价的最大值:

 

聚合汇总信息时,可以一次汇总多个信息,这样分组一次就可以了,不用每次聚合都重复调用去分组。
比如,下面的示例一次汇总出每支股票每个月开盘价收盘价最大值最小值平均值

 

更进一步,我们还可以针对不同的列采用不同的聚合方式。
比如,对开盘价汇总最大值平均值,对收盘价汇总最小值平均值

 

从上面聚合后数据的截图中,可以发现,聚合之后,分组用的列(比如 ["股票代码", "日期"])变为索引。
 

如果,我们希望分组聚合统计之后,分组的列(比如 ["股票代码", "日期"])仍然作为的列,
可以在分组时使用参数。

 


这样的话,分组的列(比如 ["股票代码", "日期"])就不会成为索引。

版权声明


相关文章:

  • java中集合框架的层次结构2024-11-12 09:01:00
  • vscode下载安装2024-11-12 09:01:00
  • select动态加载option2024-11-12 09:01:00
  • jsonrpc cpp2024-11-12 09:01:00
  • monkey测试工具下载2024-11-12 09:01:00
  • iic协议 ack2024-11-12 09:01:00
  • ubuntu的dns配置文件2024-11-12 09:01:00
  • es6新特性面试题2024-11-12 09:01:00
  • iic协议百度百科2024-11-12 09:01:00
  • 正品蓝导航品收入最全2024-11-12 09:01:00