🎄🎄【自然语言处理NLP】简介 🎄🎄
自然语言处理(Natural Language Processing, NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系,但又有重要的区别。自然语言处理并不是一般地研究自然语言,而在于研制能有效地实现自然语言通信的计算机系统,特别是其中的软件系统。因而它是计算机科学的一部分。
🎄🎄近期,小海带在空闲之余收集整理了一批自然语言处理(NLP)开源数据集供大家参考。 整理不易,小伙伴们记得一键三连喔!!!🎈🎈
一、优秀资源
1.优秀的公开NLP数据集(包含更多清单)
5https://github.com/awesomedata/awesome-public-datasets
2.亚马逊公开数据集
https://aws.amazon.com/de/datasets/
3.CrowdFlower数据集(包含大量小调查和对特定任务以众包方式获得的数据)
https://www.crowdflower.com/data-for-everyone/
4.Kaggle数据集
https://www.kaggle.com/datasets
5.Kaggle比赛(请确保这些kaggle比赛数据可以在比赛之外使用)
https://www.kaggle.com/competitions
6.开放图书馆
https://openlibrary.org/developers/dumps
7.Quora(大部分为已标注好的语料库)
https://www.quora.com/Datasets-What-are-the-major-text-corpora-used-by-computational-linguists-and-natural-language-processing-researchers-and-what-are-the-characteristics-biases-of-each-corpus
8.reddit数据集(无数个数据集,大部分由业余爱好者爬取,但数据的整理和许可可能不够规范)
https://www.reddit.com/r/datasets
9.Rs.io:也是一个很长的数据集清单
http://rs.io/100-interesting-data-sets-for-statistics/
10.Stackexchange:公开数据
http://opendata.stackexchange.com/
11.斯坦福NLP组(大部分为已标注的语料库和TreeBanks,以及实用的NLP工具)
https://nlp.stanford.edu/links/statnlp.html
12.雅虎研究院的数据集汇总Webscope(还包含了使用了这些数据的论文列表)
http://webscope.sandbox.yahoo.com/
二、数据集
1.Twitter上关于自动驾驶汽车的舆情分析:贡献者们阅读推文后,将推文里对于自动驾驶的态度分为非常积极、较积极、中立、较消极和非常消极。如果推文与自动驾驶汽车无关,他们也要标记出来。(1MB)
https://www.figure-eight.com/data-for-everyone/
2.Twitter上定位于东京的推文:20万条来自东京的推文。(47MB)
http://followthehashtag.com/datasets/200000-tokyo-geolocated-tweets-free-twitter-dataset/
3.Twitter上定位于英国的推文:17万条来自英国的推文。(47MB)
http://followthehashtag.com/datasets/170000-uk-geolocated-tweets-free-twitter-dataset/
4.Twitter上定位于美国的推文:20万条来自美国的推文。(45MB)
http://followthehashtag.com/datasets/free-twitter-dataset-usa-200000-free-usa-tweets/
5.Twitter上对于美国各大航空公司的态度(Kaggle数据集):这是一个对于美国各大航空公司存在问题的情感分析任务。该数据集爬取了2015年2月的推文,贡献者们将其分类为积极、消极和中立,对于那些分类为消极态度的推文,还会给出原因(例如“飞机晚点”或“服务态度差”等)。(2.5MB)
https://www.kaggle.com/crowdflower/twitter-airline-sentiment
6.基于新闻标题的美国经济表现:根据新闻标题头条和摘要,对新闻和美国经济的相关性进行排序。(5MB)
https://www.figure-eight.com/data-for-everyone/
7.城市词典(美国在线俚语词典)里的单词和定义:一个经过清洗的CSV语料库,包含截至2016年5月的城市词典内所有260万个词汇、定义、作者和投票情况。(238MB)
https://www.kaggle.com/therohk/urban-dictionary-words-dataset
8.亚马逊的Wesbury Lab Usenet语料库:2005-2010的47,860个英文新闻组的邮件匿名汇编(40GB)
http://aws.amazon.com/de/datasets/the-westburylab-usenet-corpus/
9.维基百科的Wesbury Lab语料库:2010年4月维基百科英文部分中所有文章的快照。网站详细描述了数据是如何被处理的——即去除所有链接和不相关的材料(如导航文本等)。语料库是未经标记的原始文本,它被用于Stanford NLP。
http://www.psych.ualberta.ca/~westburylab/downloads/westburylab.wikicorp.download.html
10.Stanford NLP跳转的链接:
https://scholar.google.com/scholar?oi=bibs&hl=en&cites=9060444488071171966&as_sdt=5
11.维基百科提取(WEX):经处理后的英文版维基百科(66GB)
http://aws.amazon.com/de/datasets/wikipedia-extraction-wex/
12.维基百科的XML格式数据:所有维基媒体(Wikimedia)的完整复制,以维基文本元(wikitext source)和元数据的形式嵌入到XML中。(500GB)
http://aws.amazon.com/de/datasets/wikipedia-xml-data/
13.雅虎问答中的综合问题与答案:截至2007年10月25日的雅虎问答语料库,包含4,483,032条问答。(3.6GB)
http://webscope.sandbox.yahoo.com/catalog.php?datatype=l
14.雅虎问答中用法语提问的问题:2006-2015年雅虎问答语料库的子数据集,包含170万条法语问答。(3.8GB)
https://webscope.sandbox.yahoo.com/catalog.php?datatype=l
15.雅虎问答中的关于“如何做”的问题[LZ2]:根据语言属性从2007年10月25日雅虎问答语料库选出的子集,包含142,627条问答。(104MB)
https://webscope.sandbox.yahoo.com/catalog.php?datatype=l
16.雅虎从公开网页中提取的HTML格式页面:包含少量复杂HTML格式的页面和267万个复杂格式的页面。(50+ GB)
https://webscope.sandbox.yahoo.com/catalog.php?datatype=l
17.雅虎从公开网页页面中提取的元数据:1亿个RDF格式数据的三元组(2GB)
https://webscope.sandbox.yahoo.com/catalog.php?datatype=l
18.雅虎的N元语法模型表示(N-Gram Representations)数据:该数据集包含N元语法表示数据,这些数据可以用于IR研究中常见的查询重写(query rewriting)任务,也可以用于NLP研究中常见的词语和句子相似性分析任务。(2.6GB)
https://webscope.sandbox.yahoo.com/catalog.php?datatype=l
19.雅虎的N元语法模型数据(版本2.0):n元语法模型数据(n=1-5),从一个包含1460万个文档(1.26亿条不重复的语句,34亿个运行词)的语料库中提取,这些文档是从12000个面向新闻的站点里爬取的(12 GB)
https://webscope.sandbox.yahoo.com/catalog.php?datatype=l
20.雅虎搜索日志的相关性判断:匿名雅虎搜索日志的相关性判断(1.3GB)
https://webscope.sandbox.yahoo.com/catalog.php?datatype=l
21.雅虎的英语维基百科语义注释快照:包含从2006年11月4日开始的经一些公开的NLP工具处理后的英文维基百科,共有1,490,688个条目。(6GB)
https://webscope.sandbox.yahoo.com/catalog.php?datatype=l
22.Yelp:包含餐厅排名和220万条评论
https://www.yelp.com/dataset
23.Youtube:170万条YouTube视频描述(torrent格式)
https://www.reddit.com/r/datasets/comments/3gegdz/17_millions_youtube_videos_description/
>>>一起交流!互相学习!共同进步!<<<
12-13 06:38