我想添加单词,这是针对高棉语(一种在单词之间没有空格的语言)的开源Java分词程序。开发人员已经很长时间没有对此进行研究了,我也无法与他们联系以获取详细信息(http://sourceforge.net/projects/khmer/files/Khmer%20Word%20Breaking/Khmer%20Word%20Breaking %20program%20V1.0 /)。假设该列表是根据高棉词典创建的,我想重新创建该文件以包含更多单词。
谁能确定单词词典的格式(我相信它是Trie的某种类型)?以下是前几行:
0ឳមអគណជយឍឫហកដពទឱលថឦឡញឩខនឧផប។ឋវឭឈឃឥឌឰឪសងចភធឯតឆរ
1ទ
0ក
1
1ីែមគួណជយ៍ៀហកទុលេញ៉ឺនំឹៃូឈឃោាឿសងចិ្ធើតៅរ
1គនសងរ
0ទ
0ា
0យ
0ព
0ន
1
1រ
0ា
0ស
0ី
1
有谁知道我将如何制作一个新的单词(我的单词列表很大,但是我不确定如何将其转换为这种格式)。
谢谢!
最佳答案
快速浏览代码后,我有了一个理论。
创建扩展SearchTree
的TreeItem
。对于字典中的每个单词,从addWord
调用TreeItem
。迭代完成后,在export
上调用SearchTree
。使用新文件作为单词输入文件。
此外,khwrdbrk.jar可能有一个未记录的参数--create
,它将从标准输入中读取新树的词。
再说一次,只是一个理论,但是让我知道如果您测试一下会发生什么。
关于java - 这是什么类型的特里?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/4835399/