自然语言处理入门

科研学习笔记

Research Notes

研究单位

南京理工大学紫金学院计算机与人工智能

研究人员

曹晗婧

文档维护

研究时间

2025年6月16日-2025年7月31日

第1章 本文档用途与规则

第2章 自然语言处理NLP的基础概念

  1. NLP的基础理论知识

NLP是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法,是一门融语言学、计算机科学、数学于一体的科学。

熟知应用中NLP的背影:

——分词、词性标注、命名实体识别

例如:杭州市互联网电商企业(阿里巴巴 淘宝)助力乡村振兴,打造浙江省首个数字助农服务体系

——好评/差评判别、情感分析、舆情分析

例如:用户评价‘这款手机性能超棒,拍照效果绝了,就是电池续航有点差’

——快递单信息自动识别

例如:“寄件人:张三,138xxxx1234,北京市朝阳区 XX 路 1 号;收件人:李四,159xxxx5678,上海市浦东新区 YY 街 2 号;单号:KD1234567890,重量 1.5kg,运费 12 元”

——智能问答和对话

例如:

基于飞桨PaddleNLP的代码实践,彻底get NLP技能

GitHub链接:https://github.com/PaddlePaddle/PaddleNLP

Gitee链接:https://gitee.com/paddlepaddle/PaddleNLP

  1. 词向量

词向量是自然语言处理(NLP)中用于表示词汇的一种数值化方法。它将词汇从离散的符号空间映射到连续的向量空间,使得相似的词汇在向量空间中具有相近的距离。这种表示方法使机器学习算法能够更有效地处理和理解自然语言数据。字,词在计算机中有两种表示方式:one-hot表示和分布式表示。

——one - hot 表示

把每个词弄成一个长向量,向量维度是词表大小,只有一个维度值为 1,其他为 0 ,这个 1 所在维度就代表当前词。像“香蕉”,可能表示成 [0,1,0,0,···] 。但它没法体现词之间的关系,而且特征空间特别大。

——分布式表示(词向量 word embedding )

就是把词转化成定长、连续的稠密向量。好处不少:

• 词之间有相似关系,存在“距离”概念,对 NLP 任务帮助大,比如“苹果”和“香蕉”的词向量距离,就比“苹果”和“桌子”近 。

• 包含更多信息,每一维都有特定含义,和 one - hot 不同,词向量不能随便删减维度。

1.词向量学习模型与发展

在自然语言处理里,借上下文理解词语语义是常用思路,word2vec 算法就是典型,2013 年由 Mikolov 提出,靠上下文学语义,包含两个经典模型 :

• CBOW(Continuous Bag - of - Words):选中心词,其余作为上下文,用上下文词向量推中心词。比如句子“Pineapples are spiked and yellow”,选“spiked”当中心词,“Pineapples、are、and、yellow”是上下文,学习时用上下文向量推“spiked” ,让中心词语义传递到上下文向量。

• Skip - gram:同样选中心词和上下文,但用中心词向量推上下文。还是以“Pineapples are spiked and yellow”为例,选“spiked”为中心词,用它的向量推“Pineapples”等上下文,把上下文语义融入中心词表示 。

word2vec 之后,词嵌入(word embedding)发展出更多方法,像 Glove 、fasttext 、ElM ,不断丰富词向量学习的技术体系 。

  1. RNN和CNN网络

1.循环神经网络(RNN)

RNN是处理序列数据的核心模型,与传统神经网络(层间全连接、节点无连接)不同,RNN的隐藏层节点之间有连接,能记忆序列前面的信息并用于当前计算,理论上可处理任意长度的序列数据。

RNN结构与运行逻辑

• 输入:序列信息(如一句话)。

• 处理方式:从左到右逐词处理,重复调用同一网络单元。

• 关键组件:

t时刻:输入层𝑥_t 与前一时刻隐藏层状态𝑠_(t−1) 结合,计算新的隐藏层状态𝑠_t 和输出𝑜_t,后续输出依赖前文。

LSTM:RNN的优化模型

RNN存在“长距离依赖”问题,而LSTM(长短时记忆模型) 通过门控机制(遗忘门、输入门、输出门)选择性保留长期信息,更擅长建模长序列,是目前NLP中最常用的RNN变体。

2.卷积神经网络(CNN)

CNN原本用于图像处理,在NLP中也可通过卷积操作提取文本局部特征(如短语、情感关键词)。例如,用不同窗口大小的卷积核扫描句子,捕捉n-gram级别的语义信息,适用于文本分类、情感分析等任务。

总结:RNN擅长处理序列时序依赖,LSTM解决长序列记忆问题;CNN侧重提取文本局部特征,两者在NLP中互补应用。

第3章

第4章

posted @ 2025-06-16 23:24  JING888  阅读(100)  评论(0)    收藏  举报