计算机科学

首页 > 计算机科学

语言模型

2018-07-27 10:50:23     所属分类:计算语言学

统计式的语言模型是借由一个机率分布,而指派机率给字词所组成的字串:

语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的机率变得很困难,这也是要使用近似的平滑n元语法(N-gram)模型之原因。

在语音辨识和在资料压缩的领域中,这种模式试图捕捉语言的特性,并预测在语音串列中的下一个字。

当用于资讯检索,语言模型是与文件有关的集合。以查询字“Q”作为输入,依据机率将文件作排序,而该机率代表该文件的语言模型所产生的语句之机率。

外部链接

  • LMSharp - 开源统计语言模型工具包,支持n-gram模型(Kneser-Ney平滑),以及反馈神经网络模型(recurrent neural network model)

显示全文

取消

感谢您的支持,我会继续努力的!

扫码支持
无需打赏可直接关闭阅读全文
1分,2分不嫌少,钱不钱的无所谓,重要的是你的话语激励我前行!

愿你每天温暖如春!!!


相关推荐