我有带有以下列的pandas DataFrame:
VisitorID(每个用户唯一-基于cookie)
VisitNumber(1 =第一次访问,2 =第二次访问,依此类推...)
TimeSpentOnVist(以秒为单位的访问持续时间)
频道(访问的引荐来源。例如:Facebook,Google和Bing)
媒体类型(付费或自然)
每次访问都重复访问者ID(1、2、3)。我想考虑渠道和媒体类型的上次访问来汇总它,但是同时汇总(汇总)所有访问所花费的时间。我的目标是按visitorID分组,因此不会重复。
在熊猫中执行此聚合的最有效方法是什么?
最佳答案
联合会
df.sort_values(['VisitNumber']).groupby('VisitorID').\
agg({'TimeSpentOnVist':'sum','Channel':'last','Media type':'last'})