我正在从事一项旨在研究人们行为的学术项目。

该项目将分为三个部分:

  • 一个程序,用于从一些远程源中读取数据,并使用它建立一个本地数据池。
  • 一个程序,用于验证此数据池并保持其连贯性
  • 一个Web界面,允许人们读取/处理数据。

  • 数据由一个人的名单组成,所有人都有一个ID#,并具有以下几个特征:高度,体重,年龄,...

    我需要根据这些数据轻松地进行分组(例如:所有具有给定年龄或高度范围的人),并且数据要大几TB(但可以减少到2-3 gb的较小子集)。

    我对项目背后的理论知识有很深的了解,但是我不是计算机科学家。我知道Java,C和Matlab,现在我正在学习python。

    我想使用python,因为它似乎很容易并且大大降低了Java的冗长性。问题是我想知道如何处理数据池。

    我不是数据库专家,但我想这里需要一个。您认为我应该使用哪些工具?

    请记住,这样做的目的是对数据集实施非常高级的数学功能,因此我们希望降低源代码的复杂性。速度不是问题。

    最佳答案

    听起来可以找到所需的主要功能:
    pytables

    scipy/numpy

    10-04 16:40
    查看更多