信创国产化通俗来讲,就是在核心芯片、基础硬件、操作系统、中间件、数据服务器等领域实现信创产业的国产替代。ETL技术 属于基础软件类中间件技术。发展自己研制的安全可靠的能够保证国家信息安全的设备,随着信息安全问题日益突出,信息安全已上升至国家战略。自主可控,国产化替代已成为历史趋势。随着外部环境日益复杂的大背景下,信创国产化与自主可控无疑成为未来三到五年的发展重心,国产化率提升需求旺盛。


国内ETL技术现状

国内ETL技术在数据仓库技术、数据集成、数据中心、数据整合平台、数据交换池、数据管理等等,发展中日趋成熟,先阶段各企业应用现状大体呈现有三大方向。

一、写ETL脚本实现

  1. 用手工ETL编程的方法来实现即写ETL脚本实现, 后面不断地重新扩展程序、丰富功能。此类,无平台架构。一般很少基于架构开发,因为当初都是为了快速解决数据ETL。支持平台很好。都是先基于平台再选择编程方法的。数据源类型局限。对现有数据源,开发之初可能会支持,一旦系统扩展的话,数据源类型就可能顾及不过来了。开发语音随意。可选择通用的JAVA、C++、SQL与存储过程等并用。数据的字段类型一般视开发语言而定。开发的无限灵活的同时损失了开发效率。处理性能高。因不受平台的约束,可直接执行存储过程等ETL程序,不需要编译和预处理,处理效率非常高。作业任务管理方式固定。都属于一次性开发的程序,很难在其基础上再进行扩展开发,业务细微变化会牵一发动全身。项目的可扩展能力、可维护性弱。
  2. 开发周期长。在一个数据仓库项目中,一般ETL会占整个项目60%-70%以上的时间,手工ETL开发周期可会慢更长。对技术难度高,需要精通多种数据库语言、开发语言,对SQL、JAVA、C/C++不精通将会直接影响到ETL的效率。开发成本高。因开发周期长,加之开发人员技术含量高,直接影响开发成本。项目风险高,业务变化无常,很难控制,往往程序白写或者重写。

先期虽无软件成本,后期有无下限的人员成本、时间成本、精力成本、无效成本、维护成本、人员衔接成本...... 比如繁多的FTP(文件传输)搞晕了运维人员,付出的管理成本很大。迫切需要一款自研核心且可开放 元数据接口、开放API的ETL产品......

二、开源ETL工具 包装 开源ETL行业集成商(B/S 架构)

  1. 早在10年前,已品尝或意识到手工写脚本解决ETL技术会有如上问题的企业决策者,直接拿来用开源工具即拥有的自己有源代码,既能省去大部分的开发成本,又能拥有源代码自控权,可任意在此基础上随意完善代码。决策者毫不犹豫用此方案——廉价高效的拿来主义。系统建设之初主要是服务于数据采集和整合为王,因此,一般数据流动往往是单向的。很快上线运行......随着深入应用开源ETL工具。
  2. 深度上线kettle 遇到一下问题如:Kettle 株式社会日立制作所收购于英国。未验证成功: 数据转换、增量抽取。无从验证:数据抽取性能、并行抽取数据、数据异常处理。文档手册全英文,无技术支持整库迁移或批量表导出,kettle 手工逐一定义MAP完成表映射。时间戳同步、触发器同步、全表比对 都需要手工编辑SQL处理。不支持:日志实时同步、数据一致性校验、数据血缘分析、数据分析......随着业务数据量不断增加,用户者反馈,不能满足目前业务场景的需求:1、管理调度。在生产环境,有成百上千个job  需要管理,目前依赖Linux  的crontab  进行调度,需要自己写脚本,配置、管理都非常麻烦。2、失败重跑。目前任务失败之后不能尝试自动重跑。3、依赖管理。当前工作场景中,需要梳理某几张表变动的影响范围,不能快速找到用到这几张变动表的任务及下游对应的表。4、任务详情。数据的读取速度,处理速度,报错信息等不够直观、完整。5、hive交互。在hive 建表时不可以设定分区、分桶、压缩格式或其他参数的设置。6、无法验证数据同步是否正确......

当下对于已上线的开源工具&包装开源(就算扩展可解决以上问题),最大的潜在风险是——闭源!!!迫切需要一款自研核心 开放式ETL产品,能将之前已在开源之上配置&开发全部平滑过渡。

三、已上线的外企 ETL厂商产品

  1. Datastage 是IBM 收购的的Ascential公司的Datastage(zai 2005年被IBM收购现是IBM的分公司)业界领先的云就绪数据集成解决方案。在数据集成。数据清洗,主数据管理,大数据处理方面有着充分的优势是商业软件,最专业ETL工具,价格不菲,适合大规模的ETL应用使用难度即维护成本“ 四颗星 ”。
  2. Informatica 创立于1993年,是全球领先的独立企业数据集成软件提供商。2005年正式进入中国。Powercenter是世界级的企业数据集成平台,在ETL领域中无论执行能力还是战略远见方面都佼佼者商业软件,专业ETL工具,价格比DS 便宜一点,适合大规模的ETL应用,使用难度即维护成本“三颗星”。

 两款产品自2005年入华 。。。。。。对已上线本产品的企业亟待解决替代产品即服务的安全保障。现迫切需要一款 自研核心 开放式ETL产品 已经上线所有可视化配置全部迁移出且平稳过渡。



续下篇《需要什么样的开放式ETL产品》

06-19 03:44