想了解Netezza
或Hadoop
是用于以下目的的正确选择:
最佳答案
工作原理:
将数据加载到设备后,它将智能地分隔108个SPU中的每个表。通常,
硬盘是计算机中最慢的部分。想象一下其中的108个立即旋转,并加载一小部分
一张 table 。这就是Netezza如何实现每小时500 GB的加载时间。
在将一张表装入并存储在每个SPU(集成电路卡上的计算机)上之后,每个
分析列以获取描述性统计信息,例如最小值和最大值。这些值是
存储在108个SPU的每一个中,而不是存储在索引上,索引需要花费一些时间来创建,更新和使用
不必要的空间。想象一下您的环境,而无需创建索引。
当需要查询数据时,设备内部的主计算机将查询SPU,以查看哪个
其中包含所需的数据。因此,只有包含适当数据的SPU才返回信息
较少的信息通过网络移动到Business Intelligence/Analytics Server的情况。
对于联接数据,它变得更好。设备将数据分布在多个SPU的多个表中
通过一个键。每个SPU包含多个表的部分数据。它在每个SPU上本地连接每个表的部分
仅返回本地结果。所有“本地结果”都在机柜内部进行组装,然后
返回到商业智能/分析服务器作为查询结果。这种方法也有助于
关于速度的故事。
所有这些的关键是“减少网络中的数据移动”。设备仅返回数据
需要通过组织的1000/100 MB网络返回到Business Intelligence/Analytics服务器。
这与传统处理非常不同,传统处理通常是商业智能/分析软件
从数据库中提取大多数数据,以在其自己的服务器上进行处理。数据库执行
努力确定所需的数据,然后将较小的子集结果返回给Business Intelligence/Analytics
服务器。
备份和冗余
要了解如何为几乎100%的正常运行时间设置数据和系统,了解以下内容非常重要
内部设计。它使用每个400 GB磁盘的外部最快的三分之一的部分进行数据存储和
恢复。三分之一的磁盘存储描述性统计信息,另一三分之一的磁盘存储热数据备份
其他SPU。每个设备机柜还包含4个额外的SPU,用于自动故障切换108个
SPU。
从http://www2.sas.com获得
关于hadoop - netezza如何工作?与Hadoop相比如何?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/4553712/