07 2020 档案
NLP系列——(二)分词
摘要:1、分词简述 在做文本处理的时候,首先要做的预处理就是分词 英文 英文单词天然有空格隔开容易按照空格分词 但是也有时候需要把多个单词做为一个分词,比如一些名词如“New York” 中文 中文没有空格,因此分词是一个需要专门去解决的问题 中英文分词原理类似 2、分词当中的基本问题 分词规范 对于一句 阅读全文
posted @ 2020-07-31 12:56 潇洒的大宝 阅读(920) 评论(0) 推荐(0)
NLP系列——(一)概述
摘要:1、基本原理 S 表示一连串特定顺序排列的词 , ,…, 使用链式法则计算词序列 S 发生的概率 由于上述条件概率过于复杂,因此引入马尔科夫假设 马尔科夫假设:第 I 个词仅与前面的 k 个词有关 取 k=1,将上式简化为 计算 对大量文本进行阅读,并统计得到 在文本中出现的概率 词序列 在文本中出 阅读全文
posted @ 2020-07-21 18:46 潇洒的大宝 阅读(329) 评论(0) 推荐(0)