How to add new column with min and max function in Pyspark and group by the data?(如何在Pyspark中添加带有MIN和MAX函数的新列,并按数据分组?)
本文介绍了如何在Pyspark中添加带有MIN和MAX函数的新列,并按数据分组?的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!
问题描述
PySpark Dataframe:adbel DF
向数据框添加新列:
from pyspark.sql.window import Window
from pyspark.sql import functions as f
adobeDF_new = adobeDF.withColumn('start_date', f.col('Date')).withColumn('end_date', f.col('Date'))
结果:
我正在尝试弄清楚如何将最小(日期)值保存在Start_Date中,将最大(日期)值保存在End_Date中,并按post_evar10和Type对最终数据帧进行分组。
我尝试过的内容:下面的代码可以工作,但想看看是否有更好的方法来这样做,并将数据限制在从START_DATE起60天
from pyspark.sql.window import Window
from pyspark.sql import functions as f
adobe_window = Window.partitionBy('post_evar10','Type').orderBy('Date')
adobeDF_new = adobeDF.withColumn('start_date', min(f.col('Date')).over(adobe_window)).withColumn('end_date', max(f.col('Date')).over(adobe_window))
推荐答案
以下内容如何?
adobeDF.groupBy("post_evar10").agg(
f.min("start_date").alias("min_start"),
f.max("end_date").alias("max_end")
)
这篇关于如何在Pyspark中添加带有MIN和MAX函数的新列,并按数据分组?的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持编程学习网!
织梦狗教程
本文标题为:如何在Pyspark中添加带有MIN和MAX函数的新列,并按数据分组?
基础教程推荐
猜你喜欢
- 在 Python 中将货币解析为数字 2022-01-01
- Python,确定字符串是否应转换为 Int 或 Float 2022-01-01
- matplotlib 设置 yaxis 标签大小 2022-01-01
- 对多索引数据帧的列进行排序 2022-01-01
- kivy 应用程序中的一个简单网页作为小部件 2022-01-01
- 究竟什么是“容器"?在蟒蛇?(以及所有的 python 容器类型是什么?) 2022-01-01
- 在 Django Admin 中使用内联 OneToOneField 2022-01-01
- Kivy 使用 opencv.调整图像大小 2022-01-01
- 比较两个文本文件以找出差异并将它们输出到新的文本文件 2022-01-01
- Python 中是否有任何支持将长字符串转储为块文字或折叠块的 yaml 库? 2022-01-01
