问题描述
假设我们有一个包含以下内容的文本文件:我是你的男人……"
Suppose we have a text file with the content:"Je suis un beau homme ..."
另一个:我是个勇敢的人"
another with:"I am a brave man"
第三个带有德语文本:Guten morgen.Wie geht 的?"
the third with a text in German:"Guten morgen. Wie geht's ?"
我们如何编写一个函数来告诉我们:以这样的概率第一个文本文件是英文的,第二个我们有法语等?
How do we write a function that would tell us: with such a probability the text in the firstfile is in English, in the second we have French etc?
欢迎提供书籍链接/开箱即用的解决方案.我用 Java 编写,但如果需要,我可以学习 Python.
Links to books / out-of-the-box solutions are welcome. I write in Java, but I can learn Python if needed.
我的评论
- 我需要补充一点小意见.文本可能包含不同语言的短语,作为整体的一部分或作为错误的结果.在经典文学中,我们有很多例子,因为贵族成员会说多种语言.因此,概率可以更好地描述这种情况,因为文本的大部分内容是用一种语言编写的,而其他部分可能是用另一种语言编写的.
- Google API - 互联网连接.我不想使用远程功能/服务,因为我需要自己做或使用可下载的库.我想就该主题进行研究.
推荐答案
有一个包叫 JLangDetect 似乎完全符合您的要求:
There is a package called JLangDetect which seems to do exactly what you want:
langof("un texte en français") = fr : OK
langof("a text in english") = en : OK
langof("un texto en español") = es : OK
langof("un texte un peu plus long en français") = fr : OK
langof("a text a little longer in english") = en : OK
langof("a little longer text in english") = en : OK
langof("un texto un poco mas largo en español") = es : OK
langof("J'aime les bisounours !") = fr : OK
langof("Bienvenue à Montmartre !") = fr : OK
langof("Welcome to London !") = en : OK
// ...
正如凯文所指出的,包提供的 Nutch 项目 中也有类似的功能org.apache.nutch.analysis.lang.
这篇关于如何判断纯文本文件是用什么语言编写的?的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持!