我正在完成此共享任务http://alt.qcri.org/semeval2017/task4/index.php?id=data-and-tools

这只是推特情绪分析。由于我是机器学习的新手,因此我不确定如何同时使用训练数据和测试数据。

因此,共享任务提供了两组相同的Twitter微博,一组没有结果(训练),一组没有结果。

我目前对在机器学习中使用这类数据的理解如下:


训练集:我们应该将其分为训练和测试部分(也许是90%的训练和10%的测试?)


但是现有的一种单独的测试数据有点混乱。

我们是否应该使用“训练集”的10%部分使用测试中得到的结果,并将其与实际结果“测试集”进行比较?

有人可以纠正我的理解吗?

最佳答案

在训练机器学习模型时,您要为算法提供名为training set的数据集,在此阶段,您要告诉算法输入到算法中的每个样本的基本事实是什么,这样,算法就可以学习从您要喂养的每个样品中提取。 training set通常是整个数据集的80%,另外20%的数据集是testing set,在这种情况下,您知道每个样本的基本事实是什么,但是您可以让算法预测一下认为事实是您让它预测的每个样本。对testing set的所有预测均基于该算法从您之前喂入的training set中学到的内容。
在对testing set进行所有预测之后,您可以根据与模型做出的预测相比较的基础事实,检查模型的准确性。

关于machine-learning - 在共享任务中使用训练数据和测试数据,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/47661400/

10-12 22:05
查看更多