我对查找“英语相关性判断文件列表”这样的数据集感兴趣:
http://trec.nist.gov/data/qrels_eng

该数据集包含标记的查询和文档对。
但是,它取决于一个非自由语料库,称为“数据-英文文档”:
http://trec.nist.gov/data/docs_eng.html

您知道与此类似的任何免费数据集吗?

旁注:该数据集将用于一个研究项目中,以基于神经网络构建信息检索系统。

最佳答案

您已经在问题中混淆了多个TREC集合。 ClueWeb09和trec.nist.gov/data/docs_eng.html指向的文档集都是单独的文档集。也就是说,每个文档集都有其自己独特的主题(查询)和相关性判断,它们不属于文档集分发。

有数十种不同的TREC文本检索测试集合。可用的集合在创建它们的TREC轨道组织的TREC数据页面(trec.nist.gov/data.html)上列出。之所以组织它们,是因为这些集合通常旨在支持检索问题该轨道旨在支持。

通常,查询和相关性判断可以直接从TREC站点下载。通常必须购买文档集:文档集受原始来源的版权保护并且必须获得许可,或者与收集/分发文档集相关的其他重大费用。如果您参加了TREC,则可以免费获得一些旧的TREC文档集(尽管今年不再有这种选择)。一些文档集是免费的,尽管大多数文档集仍需要签署数据使用协议。 Genomics轨道具有临时搜索任务,其文件集是免费的,但要遵守数据使用协议。请参阅http://trec.nist.gov/data/genomics.html

格拉斯哥大学(University of Glasgow)的页面指向http://ir.dcs.gla.ac.uk/resources/test_collections/,指向其他可用的测试集合,其中一些是免费的。其中大多数是TREC之前的版本(1992之前的版本),按照今天的标准来看,它们很小。 (如您所见,“ Tiny”可能会使论文审阅者高度怀疑仅在小型馆藏中展示的结果。)

艾伦·沃希(Ellen Voorhees),
TREC项目经理,
国家标准技术研究所

07-27 15:39