想了解NetezzaHadoop是用于以下目的的正确选择:

  • 从多个在线资源中提取提要文件,这些文件的大小有时甚至超过GB。
  • 从提要中清洁,过滤,转换和计算更多信息。
  • 生成类似于数据仓库多维数据集如何执行的不同维度的指标,以及
  • 使用SQL或任何其他标准机制帮助Web应用程序更快地访问最终数据/指标。
  • 最佳答案

    工作原理:
    将数据加载到设备后,它将智能地分隔108个SPU中的每个表。通常,
    硬盘是计算机中最慢的部分。想象一下其中的108个立即旋转,并加载一小部分
    一张 table 。这就是Netezza如何实现每小时500 GB的加载时间。
    在将一张表装入并存储在每个SPU(集成电路卡上的计算机)上之后,每个
    分析列以获取描述性统计信息,例如最小值和最大值。这些值是
    存储在108个SPU的每一个中,而不是存储在索引上,索引需要花费一些时间来创建,更新和使用
    不必要的空间。想象一下您的环境,而无需创建索引。
    当需要查询数据时,设备内部的主计算机将查询SPU,以查看哪个
    其中包含所需的数据。因此,只有包含适当数据的SPU才返回信息
    较少的信息通过网络移动到Business Intelligence/Analytics Server的情况。
    对于联接数据,它变得更好。设备将数据分布在多个SPU的多个表中
    通过一个键。每个SPU包含多个表的部分数据。它在每个SPU上本地连接每个表的部分
    仅返回本地结果。所有“本地结果”都在机柜内部进行组装,然后
    返回到商业智能/分析服务器作为查询结果。这种方法也有助于
    关于速度的故事。
    所有这些的关键是“减少网络中的数据移动”。设备仅返回数据
    需要通过组织的1000/100 MB网络返回到Business Intelligence/Analytics服务器。
    这与传统处理非常不同,传统处理通常是商业智能/分析软件
    从数据库中提取大多数数据,以在其自己的服务器上进行处理。数据库执行
    努力确定所需的数据,然后将较小的子集结果返回给Business Intelligence/Analytics
    服务器。
    备份和冗余
    要了解如何为几乎100%的正常运行时间设置数据和系统,了解以下内容非常重要
    内部设计。它使用每个400 GB磁盘的外部最快的三分之一的部分进行数据存储和
    恢复。三分之一的磁盘存储描述性统计信息,另一三分之一的磁盘存储热数据备份
    其他SPU。每个设备机柜还包含4个额外的SPU,用于自动故障切换108个
    SPU。
    http://www2.sas.com获得

    关于hadoop - netezza如何工作?与Hadoop相比如何?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/4553712/

    10-16 03:01