摘要:
文本表示的概念 核心:将字符串以计算机形式进行表示出来,如向量化。 分类 离散/向量表示:词袋模型(独热编码、TF-IDF、N-gram) 分布式表示:词嵌入word embedding,包括word2vec、Glove、ELMO、GPT、BERT等。 基于矩阵:基于降维表示和基于聚类表示 基于神经 阅读全文
posted @ 2024-05-20 23:14
踩坑大王
阅读(94)
评论(0)
推荐(0)
摘要:
句法分析是机器翻译的核心数据结构,用于确定句子的句法结构或词汇之间的依存关系; 完全句法分析 部分句法分析 基于规则的句法分析 存在语法规则覆盖有限、系统可迁移性差等缺陷 基于统计的句法分析 主流 基于PCFG的句法分析 句法结构分析 S 表示句子(sentence),NP 表示名词短语(noun 阅读全文
posted @ 2024-05-20 17:55
踩坑大王
阅读(109)
评论(0)
推荐(0)
摘要:
目录语料库中文分词基于规则的中文分词:最大匹配法正向最大匹配法逆向最大匹配法双向最大匹配法分词jiebaHMM模型 Hidden Markov Model词性标注停用词停用词种类过滤方法关键词提取TF-IDFTextRank 语料库 存放语言真实使用场景、且经过加工的例句,而非脱离具体场景的标准例句 阅读全文
posted @ 2024-05-20 03:32
踩坑大王
阅读(509)
评论(0)
推荐(0)

浙公网安备 33010602011771号