NLP系列——(二)分词
摘要:1、分词简述 在做文本处理的时候,首先要做的预处理就是分词 英文 英文单词天然有空格隔开容易按照空格分词 但是也有时候需要把多个单词做为一个分词,比如一些名词如“New York” 中文 中文没有空格,因此分词是一个需要专门去解决的问题 中英文分词原理类似 2、分词当中的基本问题 分词规范 对于一句
阅读全文
posted @
2020-07-31 12:56
潇洒的大宝
阅读(920)
推荐(0)
NLP系列——(一)概述
摘要:1、基本原理 S 表示一连串特定顺序排列的词 , ,…, 使用链式法则计算词序列 S 发生的概率 由于上述条件概率过于复杂,因此引入马尔科夫假设 马尔科夫假设:第 I 个词仅与前面的 k 个词有关 取 k=1,将上式简化为 计算 对大量文本进行阅读,并统计得到 在文本中出现的概率 词序列 在文本中出
阅读全文
posted @
2020-07-21 18:46
潇洒的大宝
阅读(329)
推荐(0)