n-gram

n-gram 是自然语言处理概率统计领域中常用的一种模型,用于捕捉文本数据中的模式。n-gram 的基本思想是将文本序列(如句子或者文档)切分成一系列连续的词组或者字组,每个词组或字组包含 n 个词或字。

以及以此类推。

例如,对于句子 "I love to play football",如果我们采用 bigram(也就是 2-gram),那么我们会得到以下的词组:"I love", "love to", "to play", "play football"。

n-gram 模型在许多语言处理任务中都有应用,比如拼写检查语音识别机器翻译等。其中最常见的应用是在构建语言模型,通过计算词序列的概率来预测下一个词。


本文作者:Maeiee

本文链接:n-gram

版权声明:如无特别声明,本文即为原创文章,版权归 Maeiee 所有,未经允许不得转载!


喜欢我文章的朋友请随缘打赏,鼓励我创作更多更好的作品!