我有英文和德文,其中包含“词典词”和名称。


  例如“ ...画家佛罗伦萨的莱昂纳多(Leonardo)建造了...”


我有一个Java程序,需要确定每个单词是名称还是相应语言的单词。


  例如名称= {...,佛罗伦萨,莱昂纳多,...},语言单词= {...,在,画家,建造中,...}


我看到两种方法:


使用相应的字典列表,将其加载到哈希结构中,查看其中是否包含单词(语言单词)(名称/拼写错误)。

问题/问题:

我找不到排除名称的德语单词列表

单词flexions(德语复杂)可能不在列表中
使用服务/ api将单个单词翻译成另一种语言,查看单词是否已更改(语言单词)或未更改(名称/拼写错误)。

问题/问题:

名称也可以翻译,例如佛罗伦萨>弗洛伦茨

我找不到离线字典列表/ api。所以我想使用在线服务是可行的方法,但是像google translation这样的大公司并不是免费的。


当然,存在类似于字典单词的名称,并且在两种方法中都可以将它们标识为字典单词。

主要问题是:是否有全面的字典列表,没有英文和德文的名称,充其量只有单词可弯曲?

或者:
是否有免费的(在线)API来执行任务?还有其他解决方案吗?

最佳答案

通过检查第一个字母是否为大写字母,可以找到很多名称。之后,您将排除所有在句子结尾字符{“。”,“!”,“?”}后面的那些。

假设它只是一个故事,可以肯定地假设一个名字会出现多次。使用已经找到的所有名称,并对照在句子结尾字符后出现的所有大写单词的列表进行检查。加上那些相等的人。

仅当您希望每个事件都发生时才应该完成第二部分,而不仅仅是发生的事情。

至少,这就是我的处理方式。

编辑:我不太熟悉德语,但是我的方法的确会遇到德语方面的问题。请参阅该语言的Joop Eggen解决方案。

10-02 05:10
查看更多