我需要编写一个存储大量结构化和非结构化数据的系统。我的查询将查找文本以及二进制信息。

我正在寻找适合这些要求的解决方案。我遇到了Splunk,它看起来非常人性化,并且提供了不错的API。但是,它似乎非常面向日志,并且似乎仅支持文本搜索(不支持二进制搜索)。我的数据不是日志,只是我需要搜索的大量原始文本/二进制数据...

所以我的问题是:

  • Splunk可以很好地解决我的问题吗?有没有办法进行二进制搜索?
  • 也许有更好的解决方案?也许是Hadoop(我又读了一点,我不确定这是否是我想要的)?

  • 谢谢!

    最佳答案

    Splunk将支持各种非结构化,半结构化和结构化的机器数据,日志仅是机器数据的此类示例之一。其他将是系统日志源,JMX / SNMP指标,OS命令输出, call 详细记录,点击流指标,专有管理/监视界面的输出,社交媒体源等。列表非常大。

    就二进制数据而言,您需要首先将其推出并将其解码为文本,许多人实际上是这样做的,即:捕获网络的二进制数据(例如专有协议(protocol))并将其解码。

    另外,需要注意的是,Splunk不使用数据库,它在磁盘上收集数据并将其索引为简单的压缩文件格式。然后其体系结构使其可以进行扩展以允许大规模收集和搜索所有这些数据。

    关于database - Splunk和其他数据库解决方案,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/13052081/

    10-13 08:55
    查看更多