我已经隐式地把它变成了一个社区wiki,因为答案可能非常广泛。
我正在一家初创公司工作,以实现以下目标。
在医学研究中,一个病人的病历可以有无限量的关于一个病人的特定诊断的数据,例如吸烟者患肺癌的几率更高,但这并不一定意味着不吸烟者会患肺癌。我的目标是创建/使用一个可以处理这些参数的数据库模型。
现在,我还必须想办法对这些参数化数据进行数据挖掘,以创建统计数据,例如查看所有40岁女性肺癌患者的趋势。该报告可以是通用的(图表、表格等),医生可以在其中看到趋势或分析可行的解决方案……
我的问题是:
1)哪些数据库系统允许参数化的后端存储(如cassandra),这些存储可以很容易地在java中使用,并且在数据检索、链接等方面非常高效。我们正在处理每个州的大量患者记录。
2)我可以使用哪些算法或人工智能技术进行数据挖掘?有什么采矿技术可以帮我做到这一点吗?
PS谷歌分析如何处理参数化数据?
pps参数化数据是有一个键的数据,数据可以是值的数据,另一个键-值对,一个值列表,一组参数化数据(有组织的,无组织的)
我期待着有启发性的答案!:-d个

最佳答案

我只回答你的第一个问题。
Cassandra是一个关键值数据存储(在您的例子中是参数化的)。如果使用cassandra,则需要更高的计算时间来导出复杂的报告。原因是-它以原始格式存储数据。如果您想扩展到非常大的规模,那么类似于cassandra的nosql数据库是很好的。它们在数据复制和延迟方面都是eventually consistent的。
在您的情况下,作为一个患者,可以拥有无限形式的数据,尝试适合三重存储的模型(语义web框架,如jena、opensesame等)。它们允许您拥有糟糕的数据结构,并且可以在运行时进行建模。此外,他们的查询引擎(SPARQL,SeRQL)比NoSQL存储(如卡桑德拉)提供更多的功率,但是这些查询能力明显小于RDBMS。

10-01 03:53
查看更多