NLP
分词
词和词素
概念

如何区分 词和词素
能被替换的是词,不能被替换的是词素。“茶杯”是一个由两个语素组成的词,而“彷
徨”既是一个由一个语素组成的词。“茶杯”中的“茶”可以替换成“水”
什么是分词?哪些词需要分词?

分词的难点
中文分词面临着切分歧义问题与未知词识别问题;

分词的方法
基于词典
双向最大匹配法
正确率>词语数目>逆向

最小分词法

基于统计

n_gram模型
模型的基本假设是什么?

提出n_gram模型的动机
提示(语言模型,链式规则存在的问题)

n_gram的通式


Trigram模型仍旧是在实
际应用中表现最佳的语言模型,并且成为许多其他
的语言模型的重要组成部分
数据平滑
解决什么问题,有哪些方法

-
……平滑

-
线性插值平滑

n_gram模型的分词
{{uploading-image-586476.png(uploading...)}}
专业词发现
*感觉不很重要,先搁置
序列标注和隐马尔可夫模型
序列标注

任务有哪些

马尔可夫模型
一阶、二阶、n阶马尔可夫模型(对应2-gram ,3-gram 和n+1 gram 模型)


- 二阶,n阶推导


- 标准化形式

隐马尔科夫模型

三种基本问题

- 评估

- 学习

- 解码
为啥两个max - 基于HMM的词性标注


正则表达式与python中的实现
字符串构造
- str函数,单引号,双引号,三引号


字符串截取
- s[a🅱️c] 以c的步长从a到b-1
如:a a+c a+2c ……

字符串格式化输出
传统的%

- 浮点数
默认小数点后保留6位


- 进制转化

- %g 和 %G 默认保留 6 位有效数字(注意不是小数点后6位,而是总共6位有效数字)。

format()


字符转义符


字符串常用函数

函数是独立的代码块,而方法是与类或对象相关联的函数。 方法依赖于类和对象的概念,而函数则是更一般的概念,不一定与特定的类或对象相关联。
字符串常用方法
- 方法 返回的是新字符串,原字符串不变

- 查找子串,计算子串数目, 左闭右开 替换子串


正则表达式
- 正则表达式是什么

re模块和元字符

- findall(). [] [^] ^ $ \d * + ? {m,n}


自动机


- 过程图

空间向量模型+文本分类
空间向量模型是什么?

不考虑特征项之间的先后顺序,不考虑文档的内部结构
词袋模型

模型的缺点

改进的两个方向
- 如何选特征词

- 如何构建合理的评估函数
TF-IDF
TF-IDF的三种计算



交叉熵
KL散度描述两个分布之间的差异,

- 如何更好地表示向量


文本分类
KNN

- 距离


贝叶斯

文本聚类
聚类的目的是什么?是有监督还是无监督?


文本聚类的流程

文本聚类方法
kmeans


DBSCAN
密度直达,密度可达,密度相连


算法

层次聚类
分为两种,自底向上(AGENS)和自顶向下(DIANA)




度量指标
簇内相似度 ⾼且"簇间相似度"
低

-
外部指标

-
内部指标

文本检索
二元独立模型

相关性反馈模型



主题模型
lsa
plsa

过程



浙公网安备 33010602011771号