当我试图从talend etl服务器运行gpload进程时,首先需要配置tgreenpluGPload组件。当配置到组件时,它正在寻找远程Greenplum服务器文件,而不是基于本地windows的talend ETL文件。
环境详细信息
Talend服务器基于-windows server 2012
基于-centos 7的Greenplum集群
主要原因:
Greenplum数据库服务器(Linux)与ETL talend服务器(窗口)是远程的。因此,当我从窗口服务器greenplum db server运行作业时,它是远程的。另外,我无法配置组件tgreenplumGPload。
屏幕截图tgreenplumgload设置:
更多细节:
1)gpfdist程序在Greenplum主机上运行。
[gpadmin@mdw ~]$ ps -A | grep gpfdist
20071 pts/0 00:00:00 gpfdist
[gpadmin@mdw ~]$
2)从gpdb命令行检查合并操作-以下进程正在greenplum服务器中运行。
[gpadmin@mdw ~]$ gpload -f gpload.yml
2017-02-25 20:20:48|INFO|gpload session started 2017-02-25 20:20:48
2017-02-25 20:20:48|INFO|started gpfdist -p 8081 -P 8082 -f "/home/gpadmin/demo/gp_RevenueReport_stg0.txt" -t 30
2017-02-25 20:20:48|INFO|running time: 0.20 seconds
2017-02-25 20:20:48|INFO|rows Inserted = 0
2017-02-25 20:20:48|INFO|rows Updated = 3
2017-02-25 20:20:48|INFO|data formatting errors = 0
2017-02-25 20:20:48|INFO|gpload succeeded
问题1:
如何在Linux上为Windows设置一个共享文件夹,以便在tgreenplumGPload设置中使用。或者有其他方法可以做到这一点。
任何帮助都将不胜感激!
最佳答案
gpfdist将在ETL服务器上运行,而不是在主主机上。
您必须将ETL服务器ip和名称添加到Greenplum集群中所有节点上的/etc/hosts文件中。然后,您需要确保ETL服务器可以直接与Greenplum私有网络中的段主机通信。这将需要将Greenplum使用的10GB专用交换机连接到您的10GB局域网,并创建一个VLAN,这样您就可以访问节点,或者可以从ETL服务器运行10GB电缆,打开10GB交换机的端口,并分配一个与现有主机不冲突的IP地址。
关于linux - Pivotal GreenPlum-talend的gpload问题,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/42466351/