NLP

分词

词和词素

概念

如何区分 词和词素

能被替换的是词,不能被替换的是词素。“茶杯”是一个由两个语素组成的词,而“彷
徨”既是一个由一个语素组成的词。“茶杯”中的“茶”可以替换成“水”

什么是分词?哪些词需要分词?

分词的难点

中文分词面临着切分歧义问题与未知词识别问题;

分词的方法

基于词典


正向和逆向(CSDN)

双向最大匹配法

正确率>词语数目>逆向

最小分词法

基于统计

n_gram模型

模型的基本假设是什么?

提出n_gram模型的动机

提示(语言模型,链式规则存在的问题)

n_gram的通式


Trigram模型仍旧是在实
际应用中表现最佳的语言模型,并且成为许多其他
的语言模型的重要组成部分

数据平滑

解决什么问题,有哪些方法

  • ……平滑

  • 线性插值平滑

n_gram模型的分词

{{uploading-image-586476.png(uploading...)}}

专业词发现

*感觉不很重要,先搁置

序列标注和隐马尔可夫模型

序列标注

任务有哪些

马尔可夫模型

一阶、二阶、n阶马尔可夫模型(对应2-gram ,3-gram 和n+1 gram 模型)

  • 二阶,n阶推导

  • 标准化形式

隐马尔科夫模型

三种基本问题

  • 评估
  • 学习
  • 解码
    为啥两个max
  • 基于HMM的词性标注

正则表达式与python中的实现

字符串构造

  • str函数,单引号,双引号,三引号

字符串截取

  • s[a🅱️c] 以c的步长从a到b-1
    如:a a+c a+2c ……

字符串格式化输出

传统的%

  • 浮点数
    默认小数点后保留6位

  • 进制转化
  • %g 和 %G 默认保留 6 位有效数字(注意不是小数点后6位,而是总共6位有效数字)。

format()


字符转义符


字符串常用函数

函数是独立的代码块,而方法是与类或对象相关联的函数。 方法依赖于类和对象的概念,而函数则是更一般的概念,不一定与特定的类或对象相关联。

字符串常用方法

  • 方法 返回的是新字符串,原字符串不变
  • 查找子串,计算子串数目, 左闭右开 替换子串

正则表达式

  • 正则表达式是什么

re模块和元字符

  • findall(). [] [^] ^ $ \d * + ? {m,n}

自动机

  • 过程图

空间向量模型+文本分类

空间向量模型是什么?


不考虑特征项之间的先后顺序,不考虑文档的内部结构

词袋模型

模型的缺点

改进的两个方向
  • 如何选特征词
  • 如何构建合理的评估函数
    TF-IDF
    TF-IDF的三种计算


交叉熵
KL散度描述两个分布之间的差异,

  • 如何更好地表示向量

文本分类

KNN

  • 距离

贝叶斯

文本聚类

聚类的目的是什么?是有监督还是无监督?

文本聚类的流程

文本聚类方法

kmeans

DBSCAN

密度直达,密度可达,密度相连


算法

层次聚类

分为两种,自底向上(AGENS)和自顶向下(DIANA)



度量指标

簇内相似度 ⾼且"簇间相似度"

  • 外部指标

  • 内部指标

文本检索

二元独立模型

相关性反馈模型



主题模型

lsa

plsa


过程

posted @ 2025-06-22 23:58  然沐  阅读(19)  评论(0)    收藏  举报