我正在尝试根据报告中提到的症状对医学报告进行分类。我正在做的步骤是

1)从每个医疗报告中提取症状。

2)创建一个从所有医疗报告中提取的所有症状的集合,到目前为止,总术语为3700。

3)创建一组所有在这些出院总结中诊断和提及的疾病,到目前为止,总计为1500。

4)现在,我遍历所有医疗报告,并为每个报告及其诊断创建一个热载体。我有5000个文件。

对于症状,我得到的是5000 X 3700的矩阵
其中每一行代表一个文档,而每一列则显示一个症状。如果文档中存在症状,则该列的值为1,否则值为零,即为

machine-learning - 神经网络性能优化-LMLPHP

为了诊断,我得到5000 X 1500的矩阵

machine-learning - 神经网络性能优化-LMLPHP

I am using a backward propagating neural network for training. The network has 3700 input neurons, 1 hidden layer and 1500 output neurons.


从这里http://jrmeyer.github.io/tutorial/2016/02/01/TensorFlow-Tutorial.html使用该代码创建分类器。

问题是,无论我训练了多少(到目前为止,我已经尝试了25000个纪元),我的成绩都很糟糕,

当我期望有5个标签时,输出具有160个以上标签的最大概率值(1)。

有什么我可能做错的事情,或者我应该怎么做才能改善结果。

更新:我也尝试用最少的数据(100个文档和85000个纪元)来测试网络。

可能导致该问题的一个问题是,从每个文档中最多提取15-20个项,因此一个热向量有20个1s和3680 0s。有人可以建议这是否是问题所在吗?

最佳答案

没有足够的细节来了解您的问题和实现
但是一个很好的起点可以帮助您了解是否存在更多技术问题(错误,网络体系结构等)或数据问题,是创建您认为适合模型的综合数据(假冒某些疾病,每种疾病有一系列症状)

如果模型无法提供理想的结果,则可能是技术问题。
如果是这样,则很可能是数据问题:也许您的数据太嘈杂,或者基础模型更复杂,或者您没有足够的数据。

关于machine-learning - 神经网络性能优化,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/43571202/

10-11 16:16