我目前正在使用语言建模来完成分类任务。该项目的第一部分涉及使用n-gram语言模型使用c5.0对文档进行分类。项目的最后一部分要求我使用交叉熵对每个类进行建模,并根据这些模型对测试用例进行分类。
有没有人有使用交叉熵的经验,或是否有关于如何使用交叉熵模型进行数据采样的信息的链接?任何信息都很好!谢谢
最佳答案
您可以了解在各种教科书上将交叉熵与语言模型结合使用的理论背景,例如Jurafsky&Martin撰写的“语音和语言处理”,第2版第116-118页。
至于具体用法,在大多数语言建模工具中,交叉熵不是直接测量的,而是“复杂性”,即交叉熵的指数。困惑又可以用来对文档进行分类。参见,例如卡内基梅隆大学语言建模工具SLM中的命令“ evallm”的文档(http://www.speech.cs.cmu.edu/SLM/toolkit_documentation.html)
祝好运 :)
关于perl - 交叉熵用于语言建模,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/5257979/