我想添加单词,这是针对高棉语(一种在单词之间没有空格的语言)的开源Java分词程序。开发人员已经很长时间没有对此进行研究了,我也无法与他们联系以获取详细信息(http://sourceforge.net/projects/khmer/files/Khmer%20Word%20Breaking/Khmer%20Word%20Breaking %20program%20V1.0 /)。假设该列表是根据高棉词典创建的,我想重新创建该文件以包含更多单词。

谁能确定单词词典的格式(我相信它是Trie的某种类型)?以下是前几行:

0ឳមអគណជយឍឫហកដពទឱលថឦឡញឩខនឧផប។ឋវឭឈឃឥឌឰឪសងចភធឯតឆរ
1ទ
0ក
1
1ីែមគួណជយ៍ៀហកទុលេញ៉ឺនំឹៃូឈឃោាឿសងចិ្ធើតៅរ
1គនសងរ
0ទ
0ា
0យ
0ព
0ន
1
1រ
0ា
0ស
0ី
1


有谁知道我将如何制作一个新的单词(我的单词列表很大,但是我不确定如何将其转换为这种格式)。

谢谢!

最佳答案

快速浏览代码后,我有了一个理论。

创建扩展SearchTreeTreeItem。对于字典中的每个单词,从addWord调用TreeItem。迭代完成后,在export上调用SearchTree。使用新文件作为单词输入文件。

此外,khwrdbrk.jar可能有一个未记录的参数--create,它将从标准输入中读取新树的词。

再说一次,只是一个理论,但是让我知道如果您测试一下会发生什么。

关于java - 这是什么类型的特里?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/4835399/

10-11 04:44