我正在研究一些需要对日本语言进行排序的应用程序。

日语排序需要将片假名和汉字转换为平假名,然后根据UTF-8代码进行排序。

平假名,片假名和汉字字符应组合在一起,并按平假名等效的“拼写”进行排序。注意:使用平假名“字母” – a,i,u,e,o,ka,ki,ku,ke,ki等。

现在要做这个任务,我需要:

1.将日语字符分为汉字,片假名或平假名。

2.将片假名和汉字转换为平假名。

3.应用基于语音(平假名)进行分类的算法。

应用程序数据库位于UTF-8中。

现在执行第一步:
“将日语字符分为汉字,片假名或平假名。” ,

我想知道在Sqlite3,QT,ICU或任何其他可以提供Unicode字符的软件包中是否存在用于C或C ++编程语言的API?

在Unicode的基础上,我们可以轻松地对日语字符进行分类。

如果我错了,请纠正我?

最佳答案

如您所说,日语字符可以很容易地使用Unicode进行分组。这是微不足道的。
片假名到平假名的转换也很简单,因为存在一对一的映射。您可以通过Kakasi将汉字转换为平假名
可以通过先转换为平假名来进行排序。但是,这是个穷人,因为许多汉字都是同音字(相同的声音,不同的汉字)。因此,在通过平假名进行转换和排序之前,应该对汉字进行排序。


您没有说为什么需要以这种方式进行排序。如果您告诉我们更多有关您的应用程序的信息,也许我们可以提供更好的建议。

07-27 13:19