2026.1.19总结
今天继续了解nlp的理论部分,
模块二:传统方法篇 - 从规则到统计
第一部分:语言处理流水线
想象你要教计算机读文章,首先要教它识字断句。
文本预处理是清洗和准备数据。包括:去掉HTML标签、特殊符号;分词——把句子切成单词或字(中文更复杂);去除停用词如“的”、“了”这些高频但信息少的词;词干还原——把“running”、“ran”、“runs”都还原为“run”。
语言学基础让你理解语言结构。词性标注:识别名词、动词、形容词;句法分析:理解句子结构,哪个是主语、哪个是宾语;命名实体识别:找出人名、地名、机构名。
第二部分:文本表示方法
计算机只懂数字,如何把文字变成数字?
离散表示像建立词表。词袋模型:统计每个词出现的次数,忽略顺序。“我喜欢苹果”和“苹果喜欢我”会被认为一样。TF-IDF:不仅看出现次数,还要看重要性。比如“的”在很多文档都出现,权重就低;“神经网络”只在少数文档出现,权重就高。
分布式表示是革命性的进步。Word2Vec让相似含义的词在向量空间靠近:“国王-男人+女人≈女王”。GloVe利用全局统计信息。FastText考虑子词信息,能处理未登录词。
经典任务实践:用TF-IDF+朴素贝叶斯做新闻分类;用Word2Vec找相似词;用LDA发现文本主题。

浙公网安备 33010602011771号