python - 为pyspark中的唯一行生成序列列

def

关注

发信

swift - WkWebkiew完成页面加载后如何收听？

iphone - 在UIWebView中调整图像大小以调整视口(viewport)大小

c++ - 交换字符串中两个字符的C++程序

python - 如何将Django中的ListCreateAPIView和RetrieveUpdateDestroyAPIView合并到支持所有四个CRUD操作的单个 View 中？

python - 读取DynamoDB表的所有项目

c# - 是否有支持字典类型操作的LinkedList集合

android - 如何在Android上旋转JPEG文件而不损失质量和增加文件大小？

azure - 为什么在使用azure Blob作为virtocommerce中的存储提供程序时无法访问图像？

java - 从另一个线程加载数据，线程安全吗？

javascript - 如何在javascript中查找当前事件的下载？

java - 无法实例化泛型中的类型

android - Flutter:KeyboardType属性在TextFormField中无法按预期工作，仍然可以粘贴文本。如何更改输入类型？(Flutter)

html - 如何在生成的HTML表中(包含mysql数据)应用CSS？

android - Android首选项标题/摘要文字样式

c++ - 使用 QPainter 在 Widgets 之间画一条线

python - 为pyspark中的唯一行生成序列列

扫码查看

我有一个 pyspark 数据框，如下所示:

col1 | col2 | col3
 R      a      abc
 R      a      abc
 G      b      def
 G      b      def
 G      b      def

我想向其中添加新列，这将按照如下所示的计数为这些唯一行生成索引:

col1 | col2 | col3 | new_column
 R      a      abc      0
 R      a      abc      1
 G      b      def      0
 G      b      def      1
 G      b      def      2

请帮助我使用 pyspark 生成这个新列。

提前致谢!

最佳答案

按列对数据进行分区，然后使用行号为新列赋值。

from pyspark.sql.window import Window as W
from pyspark.sql import functions as F

windowSpec = W.partitionBy("col1","col2","col3").orderBy("col1","col2","col3")
df.withColumn("new_column", F.row_number().over(windowSpec)).show()

关于python - 为pyspark中的唯一行生成序列列，我们在Stack Overflow上找到一个类似的问题：https://stackoverflow.com/questions/53875075/

10-09 07:27