我正在从事一项旨在研究人们行为的学术项目。
该项目将分为三个部分:
数据由一个人的名单组成,所有人都有一个ID#,并具有以下几个特征:高度,体重,年龄,...
我需要根据这些数据轻松地进行分组(例如:所有具有给定年龄或高度范围的人),并且数据要大几TB(但可以减少到2-3 gb的较小子集)。
我对项目背后的理论知识有很深的了解,但是我不是计算机科学家。我知道Java,C和Matlab,现在我正在学习python。
我想使用python,因为它似乎很容易并且大大降低了Java的冗长性。问题是我想知道如何处理数据池。
我不是数据库专家,但我想这里需要一个。您认为我应该使用哪些工具?
请记住,这样做的目的是对数据集实施非常高级的数学功能,因此我们希望降低源代码的复杂性。速度不是问题。
最佳答案
听起来可以找到所需的主要功能:
pytables
和
scipy/numpy