假设我有一个名为df.Text
的列,其中包含文本(多于1个句子),并且我想使用多语言Detector
来检测语言并将值存储在新列df['Text-Lang']
中,如何确保我也捕获了其他详细信息,例如code
和confidence
testEng ="This is English"
lang = Detector(testEng)
print(lang.language)
退货
但
df['Text-Lang','Text-LangConfidence']= df.Text.apply(Detector)
以。。结束
我是错误地应用了检测器功能还是存储了错误的输出或其他?
最佳答案
首先,如果只需要polyglot
进行语言检测,则最好直接使用pycld2
,这是在幕后使用的语言。它具有较多的清洁程序API。
话虽如此,您指出的错误来自Text
列中的一个值,它是一个实数。因此,您必须将类似的值转换为字符串。
您会遇到的下一个问题是最小文本长度。如果文本太短,polyglot
将引发异常。您必须通过传递quiet=True
来使异常保持沉默。
现在,应用Detector
将返回一个对象。因此,您将必须对其进行解析以提取所需的信息。要提取语言名称,您将必须导入icu
模块(它是polyglot
的依赖项,因此您已经安装了它):
import icu
df.Text = df.Text.astype(str)
df['poly_obj'] = df.Text.apply(lambda x: Detector(x, quiet=True))
df['Text-lang'] = df['poly_obj'].apply(lambda x: icu.Locale.getDisplayName(x.language.locale))
df['Text-LangConfidence'] = df['poly_obj'].apply( lambda x: x.language.confidence)
之后,您可以删除
poly_obj
列。关于python - 如何将Polyglot Detector功能应用于数据框,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/51503199/