我需要一个压缩程序的频率排序字典(许可或gplv3兼容的许可证),但一点也不知道在这样的许可证下从哪里得到一个(都有丢失或坏的版权声明)。有人能推荐在哪里买吗?我已经找了一段时间,但我唯一的选择似乎是创建自己的,我怀疑使用电子书的有效质量。(它不会完全代表所有英语,更不用说现代英语了,我的目标。)
附言:20-5万字左右是个不错的目标。大文件不是个好主意。
最佳答案
你想要的是在大量有代表性的英语文本上建立一个统一的程序分布。“Unigram Distribution”是一个正式的术语,你称之为“Dictionary with Frequencies”。
谷歌在许可证下发布了一个庞大的ngram集合。
见http://googleresearch.blogspot.com/2006/08/all-our-n-gram-are-belong-to-you.html。
或http://books.google.com/ngrams/datasets。
如果你不需要那些晦涩难懂的字眼,那就把发行版剪成你想要的。
至于许可证,甚至fsf也说gpl不适用于词典。它们不是“源头”。所以这里的cc许可证对于合并任何内容都非常有效。
如果你不想拥有完全有代表性的数据,那么下载wikipedia dumps和用于提取文本的ruby工具,然后做你自己的unigram发行版。
无论你选择什么,如果你想得到有用的结果,你将需要处理大量的数据。
关于database - 在哪里可以获得可用于免费软件的按频率排序的词典?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/7781788/