我正在研究一些需要对日本语言进行排序的应用程序。
日语排序需要将片假名和汉字转换为平假名,然后根据UTF-8代码进行排序。
平假名,片假名和汉字字符应组合在一起,并按平假名等效的“拼写”进行排序。注意:使用平假名“字母” – a,i,u,e,o,ka,ki,ku,ke,ki等。
现在要做这个任务,我需要:
1.将日语字符分为汉字,片假名或平假名。
2.将片假名和汉字转换为平假名。
3.应用基于语音(平假名)进行分类的算法。
应用程序数据库位于UTF-8中。
现在执行第一步:
“将日语字符分为汉字,片假名或平假名。” ,
我想知道在Sqlite3,QT,ICU或任何其他可以提供Unicode字符的软件包中是否存在用于C或C ++编程语言的API?
在Unicode的基础上,我们可以轻松地对日语字符进行分类。
如果我错了,请纠正我?
最佳答案
如您所说,日语字符可以很容易地使用Unicode进行分组。这是微不足道的。
片假名到平假名的转换也很简单,因为存在一对一的映射。您可以通过Kakasi将汉字转换为平假名
可以通过先转换为平假名来进行排序。但是,这是个穷人,因为许多汉字都是同音字(相同的声音,不同的汉字)。因此,在通过平假名进行转换和排序之前,应该对汉字进行排序。
您没有说为什么需要以这种方式进行排序。如果您告诉我们更多有关您的应用程序的信息,也许我们可以提供更好的建议。