我正在使用Python-Django框架开发ELT工具。

在该工具中,我们可以安排作业并将其发布在Apache Oozie中。

我需要为每个作业实现数据沿袭报告。总的来说,我在Wiki中探讨了“什么是数据沿袭”。

我需要帮助-如何实现此数据沿袭?无需使用任何外部工具和Apache Falcon。

最佳答案

因为您使用的是Python-Django Framework,并且正在使用Oozie进行大部分工作调度,所以建议您使用Falcon进行沿袭跟踪。在hadoop生态系统中易于使用和跟踪血统。

但是,如果您不想使用Apache Falcon,则可以始终实现任何图形数据库(Neo4J或TitanDB),并使用D3.js绘制图形。为此,您需要以特定模式将谱系(图形)变量存储在GraphDB中。一旦在GraphDB中设置了所有内容,就很容易编写D3 Java脚本来检索它们并绘制图形。

您可以在此处阅读有关D3的更多信息:

http://chimera.labs.oreilly.com/books/1230000000345/index.html

10-06 01:17