我们的DMP系统有这样的需求:
1.受众导出:基于标签的受众每天需要将新的人口统计结果导出到Redis或文件,再导出到DSP。因为标签数据每天都会刷新,所以我们有6亿用户,当我们有成千上万的人时,我们应该选择哪种技术堆栈来快速计算和导出?
2.事件分析:我们还需要基于实时事件来创建受众群体,我们需要向受众群体中添加合格的人员。与此同时,随着时间的流逝,需要将不符合要求的人员移除。
有一个合适的技术堆栈建议可以满足一个或两个。
谢谢。
最佳答案
我们与DMP的受众数据进行了广泛的合作,并且通常管理许多PB的数据和数百个受众。
由于以下原因,我建议使用Apache Spark进行处理:
存储是一个更复杂的问题:
希望这可以帮助。
关于apache-spark - DMP系统的技术堆栈选择,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/58915384/