摘要: 在 PyTorch 的线性层(nn.Linear)中,权重矩阵的维度顺序可能与你手动计算时的直觉相反,这是导致你感到困惑的主要原因。我来解释一下这个现象背后的原理,并提供代码示例帮助你理解。 1. 为什么需要 "转置"? 在数学中,线性变换通常表示为 y = Wx + b,其中: x 是输入向量(维 阅读全文
posted @ 2025-06-22 23:50 m516606428 阅读(138) 评论(0) 推荐(0)
摘要: 在深度学习中,线性层(全连接层)的权重初始化范围通常设置为 [-1/√n, 1/√n],其中 n 是输入神经元的数量(例如你提到的 10)。这种初始化方法被称为 Xavier 初始化(也称为 Glorot 初始化),其目的是保持信号在神经网络中的方差一致性,避免梯度消失或爆炸。 为什么选择 1/√n 阅读全文
posted @ 2025-06-22 23:23 m516606428 阅读(27) 评论(0) 推荐(0)
摘要: torch.nn.Module 是 PyTorch 中所有神经网络模块的基类,它封装了神经网络的核心功能,包括参数管理、前向传播、训练模式切换等。以下从三个维度解析其封装内容和使用价值: 一、nn.Module 封装了什么? 1. 参数自动管理 nn.Parameter:将张量注册为模型参数,自动加 阅读全文
posted @ 2025-06-22 16:17 m516606428 阅读(49) 评论(0) 推荐(0)
摘要: 在代码实现上,BERT 的层数差异主要体现在Transformer 编码器堆叠的数量和参数规模上。以下通过 PyTorch 代码对比单层 BERT 和 12 层 BERT 的核心差异(为简化说明,省略部分非关键细节): 一、核心结构对比 1. 单层 BERT(仅 1 个 Transformer 编码 阅读全文
posted @ 2025-06-22 16:15 m516606428 阅读(42) 评论(0) 推荐(0)
摘要: “手撕 Transformer” 和 “手撕 BERT” 虽然都涉及手动实现深度学习模型,但二者在目标、复杂度、应用场景和技术细节上存在显著差异。以下从多个维度对比分析: 一、核心目标与应用场景 对比项手撕 Transformer手撕 BERT 本质 实现 Transformer 的基础架构(编码器 阅读全文
posted @ 2025-06-22 16:11 m516606428 阅读(66) 评论(0) 推荐(0)
摘要: “手撕 Transformer” 通常指手动实现 Transformer 模型的核心代码(而非直接调用框架 API),这一过程对技术学习、研究和工程实践具有多重意义。以下从原理理解、技术提升、应用价值等维度展开分析: 一、深入理解深度学习核心原理 1. 解构 Transformer 的底层逻辑 Tr 阅读全文
posted @ 2025-06-22 16:07 m516606428 阅读(132) 评论(0) 推荐(0)
摘要: 以下是 Transformer 常见面试题及解析,覆盖基础原理、训练优化、应用实践等方向,帮你应对面试: 一、基础原理类 Transformer 为何用多头注意力? 将输入特征拆分为多个子空间,每个头学习不同特征(如语法 / 语义),从多维度理解输入,提升模型表达力,避免单头 “视角局限”。 Q 和 阅读全文
posted @ 2025-06-22 16:03 m516606428 阅读(288) 评论(0) 推荐(0)
摘要: 这是关于BERT(Bidirectional Encoder Representations from Transformers)模型中 Encoder(编码器)结构的讲解内容,属于自然语言处理(NLP)领域的深度学习知识。 BERT 是基于 Transformer 架构的预训练模型,Encoder 阅读全文
posted @ 2025-06-22 16:00 m516606428 阅读(26) 评论(0) 推荐(0)
摘要: 在多头注意力机制里,Softmax 公式起着至关重要的作用,它是连接 K、Q、V 计算与最终注意力权重的桥梁。下面以通俗易懂的方式,结合之前的例子,为你讲解它们之间的关系: 一、Softmax 在注意力机制中的核心作用 Softmax 的本质:把一组 “得分” 转化为 “概率分布”,让所有概率的总和 阅读全文
posted @ 2025-06-22 15:55 m516606428 阅读(313) 评论(0) 推荐(0)
摘要: 多头注意力机制里的 K、Q、V,其实就像你在图书馆找书时的三个 “小助手”,而 “多头” 就像同时派好几拨小助手用不同角度找书,最后把大家的发现汇总起来~下面用大白话拆解它们的工作逻辑: 一、先搞懂 K、Q、V 是啥?—— 找书三要素 假设你要在图书馆找一本和 “人工智能” 相关的书,K、Q、V 可 阅读全文
posted @ 2025-06-22 15:53 m516606428 阅读(150) 评论(0) 推荐(0)
摘要: 在 Transformer 架构里,多头注意力机制是相当关键的部分,它能让模型从不同的表示子空间来捕捉特征。下面为你详细介绍其中的 K、Q、V 矩阵: 核心概念阐释 Query(Q):它起着 “查询” 的作用,负责与键进行匹配,目的是找出需要关注的位置。 Key(K):其功能是 “标识”,也就是为每 阅读全文
posted @ 2025-06-22 15:52 m516606428 阅读(131) 评论(0) 推荐(0)
摘要: import torchimport torch.nn as nnimport torch.nn.functional as Fclass MultiHeadAttention(nn.Module): def __init__(self, embed_dim, num_heads, dropout= 阅读全文
posted @ 2025-06-22 15:50 m516606428 阅读(112) 评论(0) 推荐(0)
摘要: 这是 BERT 模型里 Self - Attention(自注意力)机制 的计算流程图,理解它就能懂 Transformer 核心逻辑!用大白话拆解每一步: 一、输入:L×h 的 X 是啥? L:序列长度(一句话拆成多少个词 / 词元,比如 “你好中国” 拆成 3 个词,L=3 )。 h:隐藏层维度 阅读全文
posted @ 2025-06-22 15:47 m516606428 阅读(118) 评论(0) 推荐(0)
摘要: 这是 BERT 模型里 Self - Attention(自注意力)机制 的计算流程图,理解它就能懂 Transformer 核心逻辑!用大白话拆解每一步: 一、输入:L×h 的 X 是啥? L:序列长度(一句话拆成多少个词 / 词元,比如 “你好中国” 拆成 3 个词,L=3 )。 h:隐藏层维度 阅读全文
posted @ 2025-06-22 15:30 m516606428 阅读(69) 评论(0) 推荐(0)
摘要: BERT 和 GPT - 1 谁更好用,取决于具体的 NLP 任务需求,以下从核心任务场景对比: 一、做 “文本理解” 任务(分类、问答、实体识别)→ BERT 更好用 BERT 优势:用双向 Transformer,能同时看 “上文 + 下文” 理解语义(比如 “苹果” 在 “吃苹果” 和 “苹果 阅读全文
posted @ 2025-06-22 14:56 m516606428 阅读(29) 评论(0) 推荐(0)
摘要: 以下为你清晰梳理 BERT 与 GPT - 1 的模型规模参数: 一、BERT 核心版本参数 BERT 版本层数(Transformer 层)隐藏层维度注意力头数参数量 BERT - Base 12 768 12 约 1.1 亿 BERT - Large 24 1024 16 约 3.4 亿 二、G 阅读全文
posted @ 2025-06-22 14:55 m516606428 阅读(71) 评论(0) 推荐(0)
摘要: 从 0 到 1 搭建深度学习模型做 NLP 任务,优势主要体现在对场景的极致适配与深度可控性上,具体如下: 场景定制化:能针对极小众场景(如古文言文语义分析、某行业加密话术理解 ),完全按需求设计模型结构、数据处理逻辑,让模型精准贴合任务。 原理深度把控:从底层构建模型,能吃透深度学习在 NLP 里 阅读全文
posted @ 2025-06-22 14:54 m516606428 阅读(19) 评论(0) 推荐(0)
摘要: 这是在讲 BERT 文本表征的核心特点,用大白话拆解: 1. “文本表征” 是啥? 就是把文字(比如 “我喜欢吃苹果” ),变成电脑能懂的 “数字形式”(矩阵或向量 ),方便模型分析语义~ 2. BERT 和 word2vec 都能 “转数字”,但有区别: word2vec(静态):不管啥语境,一个 阅读全文
posted @ 2025-06-22 14:52 m516606428 阅读(32) 评论(0) 推荐(0)
摘要: BERT 微调时降低学习率主要有以下原因: 保护预训练成果:BERT 在大规模语料上进行预训练,学习到了丰富的语言知识和通用特征。微调阶段使用较小的学习率,可以避免对预训练模型的参数进行过大的更新,防止破坏已经学习到的通用语义和句法等信息,使模型在适应新任务的同时,最大程度地保留预训练模型的 “记忆 阅读全文
posted @ 2025-06-22 14:26 m516606428 阅读(43) 评论(0) 推荐(0)
摘要: 预训练的 BERT 模型在微调时,底层词向量的张量值通常会变化,但具体是否变化取决于微调策略。以下是详细解析: 一、BERT 词向量的本质:可学习的嵌入表示 BERT 的词向量(Token Embeddings)是预训练阶段通过海量文本学习到的稠密向量表示,每个词对应一个固定维度的张量(如 BERT 阅读全文
posted @ 2025-06-22 14:24 m516606428 阅读(34) 评论(0) 推荐(0)
摘要: BERT 的 Pre-train + Fine-tune 流程 凭借预训练阶段学到的通用语言理解能力,可高效适配多种 NLP 任务,按任务类型分类如下: 一、分类任务(判断文本属于哪种类型) 文本情感分析:判断评论、文章的情感倾向(正面 / 负面 / 中性),如电商评论褒贬分类。 主题分类:给文本划 阅读全文
posted @ 2025-06-22 14:22 m516606428 阅读(32) 评论(0) 推荐(0)
摘要: 以下从核心差异和流程对比角度,清晰拆解传统方法与 BERT 预训练方式的区别: 一、核心逻辑差异(大白话版) 传统方法:做 NLP 任务(比如文本分类、情感分析 )时,从 0 开始训模型。流程是:设计模型结构→找少量标注数据(比如标好 “正面 / 负面” 的评论 )→用标注数据从头训模型,让模型学 阅读全文
posted @ 2025-06-22 14:21 m516606428 阅读(25) 评论(0) 推荐(0)
摘要: BERT 有不少版本,从基础到变体丰富多样,除中文相关,还有适配不同场景的版本,以下为你介绍: 一、经典基础版本 BERT - Base:12 层 Transformer 、768 维隐藏层、12 个注意力头,参数约 1.17 亿,平衡性能与资源,适配通用 NLP 任务(文本分类、情感分析等 )。 阅读全文
posted @ 2025-06-22 14:12 m516606428 阅读(212) 评论(0) 推荐(0)
摘要: model.bin 常是存储深度学习模型权重参数的二进制文件,和训练好的模型有关,但不完全等价,具体看场景: 1. 核心作用 在 PyTorch、Hugging Face 等框架里,它主要存模型训练后的权重(比如神经网络里各层的参数值 ) ,是模型能干活的 “核心密码” 。 2. 和 “完整训练好的 阅读全文
posted @ 2025-06-22 14:11 m516606428 阅读(92) 评论(0) 推荐(0)
摘要: 这是对比 “传统方法” 与 “预训练方法” 流程的内容,实体信息梳理: 一、核心对比项 传统方法(Fine - tune 流程 ):步骤:设计模型结构→收集 / 标注训练数据→用标注数据训练→真实场景预测特点:依赖人工标注数据,从 0 开始为特定任务训模型 预训练方法(Pre - train + F 阅读全文
posted @ 2025-06-22 14:09 m516606428 阅读(33) 评论(0) 推荐(0)
摘要: 要搞懂 BERT 和 Transformer 的关系,其实可以用 “儿子和爸爸” 的逻辑来大白话解释 ——Transformer 是 “技术爸爸”,BERT 是 “超牛儿子”,而且这个儿子还把爸爸的优点发扬光大了! 1. Transformer:先有它,才有后来的各种神模型 本质:Transform 阅读全文
posted @ 2025-06-22 14:08 m516606428 阅读(115) 评论(0) 推荐(0)
摘要: ASL(美国手语)和 N-gram(N 元语法)乍一看没啥直接关系,但硬要说联系的话,可以从 “语言结构分析” 的角度白话解释: 1. ASL 是 “用手比划的语言”,N-gram 是 “算词语顺序的工具” ASL:就像我们用嘴说话,聋人用手、表情和身体动作 “说话”,每个手势是一个 “单词”,比如 阅读全文
posted @ 2025-06-22 14:03 m516606428 阅读(23) 评论(0) 推荐(0)
摘要: 表schema: a表字段:用户浏览行为表:user_id log_time log_price goods_id date b表字段:商品价格维表:goods_id current_price price_date 1)找到每个用户每天最后一次浏览行为发生的时候的价格; 2)找到降幅大于2%的每个 阅读全文
posted @ 2025-06-22 13:57 m516606428 阅读(8) 评论(0) 推荐(0)
摘要: 在自然语言处理(NLP)领域,PPL(困惑度,Perplexity )和 n - gram 是紧密关联的概念,主要关系如下: 1. n - gram 是基础模型,PPL 是评估指标 n - gram 模型角色:n - gram(像 unigram、bigram、trigram 等 )是经典统计语言模 阅读全文
posted @ 2025-06-22 11:38 m516606428 阅读(46) 评论(0) 推荐(0)
摘要: 这是关于语言模型应用中 “数字归一化” 流程的内容,实体信息如下: 主题:语言模型的应用 - 数字归一化 步骤: 找规范数字文本当原始语料 正则表达式提取任意形式数字 数字替换为 <阿拉伯数字>< 汉字数字 >< 汉字连读 > 等 token 用带 token 文本训练语言模型 新文本用正则找数字, 阅读全文
posted @ 2025-06-22 11:20 m516606428 阅读(15) 评论(0) 推荐(0)
摘要: 断是否转阿拉伯数字,核心看 数字表意场景与可读性需求 ,可分两类情况: 一、建议转阿拉伯数字的场景 量化数据(精准数值)像图里的 “四百五十四点九万吨”(454.9 万吨 )、“七百七十三点四万吨”(773.4 万吨 )、年份 “一九九九年”(1999 年 ),这类明确的计量、统计数值,转成阿拉伯数 阅读全文
posted @ 2025-06-22 11:18 m516606428 阅读(13) 评论(0) 推荐(0)
摘要: 这是关于语言模型文本纠错方法缺陷的说明,用大白话总结缺陷: 漏判 “增减字”:比如原句多了字(“我 爱吃饭” 多空格算错但难识别)、少了字(“我爱饭” 少 “吃”),这种方法搞不定。 阈值难调:打分阈值高了,该改的错没改;阈值低了,乱改原意(比如 “我买苹果”→“我卖苹果”,模型可能误判替换)。 “ 阅读全文
posted @ 2025-06-22 11:09 m516606428 阅读(21) 评论(0) 推荐(0)
摘要: 这是关于语言模型应用于文本纠错的流程说明,用大白话拆解步骤: 找 “错别字备胎”:先给每个字准备一堆可能混淆的字(比如 “天” 的混淆字有 “按、暗、俺” 等,因为长得像 / 读音像)。 算原句 “合理度”:用语言模型打分,看原句 “像不像人话”(概率越高越合理)。 替换字再打分:把原句里的字换成混 阅读全文
posted @ 2025-06-22 11:08 m516606428 阅读(42) 评论(0) 推荐(0)
摘要: 在 NLP(自然语言处理)里,PPL 是 困惑度(Perplexity),大白话就是衡量语言模型 “有多懵圈” 的指标,用来判断模型对文本预测能力咋样,数值越小,模型越聪明,越懂语言规律 。 举个栗子理解 假如你给模型一句特常见的话 “我吃饭”,模型能稳稳猜到 “吃” 后面接 “饭”,那 PPL 就 阅读全文
posted @ 2025-06-22 11:06 m516606428 阅读(161) 评论(0) 推荐(0)
摘要: 这张图对比了 Ngram 语言模型 和 神经网络(NN)语言模型 的区别,用大白话解释就是: 对比项Ngram 模型(传统套路)NN 模型(神经网络新玩法) 解码速度 快(简单查表、计算,像背公式答题) 慢(要算复杂神经网络,像解奥数题) 内存消耗 大(存很多 “词组统计结果”,占地方) 小(靠神经 阅读全文
posted @ 2025-06-22 10:56 m516606428 阅读(17) 评论(0) 推荐(0)
摘要: 这页讲神经网络语言模型(NLM)比 Ngram 强在哪,大白话对比 “NLM 咋碾压 Ngram”: 1. 语义理解更聪明(向量表示语义) Ngram :靠 “统计词的出现频率” 判断语义(比如 “苹果” 常和 “手机” 连,就认为它们有关 ),但不懂真正的意思。 NLM :把词变成 “语义向量”( 阅读全文
posted @ 2025-06-22 10:52 m516606428 阅读(25) 评论(0) 推荐(0)
摘要: 在 NLP 里,Ngram 的 PPL(Perplexity,困惑度 ) ,就是用来衡量 “语言模型好不好” 的指标,大白话拆解: 1. 干啥用的? PPL 越低 → 模型越 “懂人话”,预测的句子越合理。比如: 模型算 “今天吃饭” 的 PPL 低,算 “今天吃书” 的 PPL 高 → 说明模型知 阅读全文
posted @ 2025-06-22 10:43 m516606428 阅读(19) 评论(0) 推荐(0)
摘要: 要训练出能打赢世界冠军水平的围棋机器人,可参考以下模型和技术路径,核心思路是借鉴 AlphaGo 系列的成功经验: 1. 基础框架:“策略网络 + 价值网络 + 蒙特卡洛树搜索(MCTS)” 策略网络:学 “当前局面下,哪步棋最可能赢”(类似人类选点直觉 )。 价值网络:评估 “当前局面的胜率”(判 阅读全文
posted @ 2025-06-22 10:42 m516606428 阅读(63) 评论(0) 推荐(0)
摘要: 这是 N - gram 语言模型平滑方法里的插值法,核心是 “融合高阶和低阶 ngram 概率,让结果更稳”,大白话拆解: 核心思路 回退法是 “没高阶用低阶”,插值法更灵活 —— “同时用高阶和低阶的概率,按比例混合” 。 公式翻译 算 “当前词 wₙ 在前两个词 wₙ₋₂wₙ₋₁ 后的概率” 时 阅读全文
posted @ 2025-06-22 10:17 m516606428 阅读(8) 评论(0) 推荐(0)
摘要: 这是关于 N - gram 语言模型加 1 平滑(add - one smooth ) 方法的内容,解决 “P (word) 不存在(即某个词在语料中没出现过)时的概率计算问题”,大白话解释: 核心逻辑 当遇到没见过的词(count (word)=0 ),给它的计数 “强行 +1”,同时给总词数也 阅读全文
posted @ 2025-06-22 10:14 m516606428 阅读(15) 评论(0) 推荐(0)
摘要: 回退法里的 Bow(回退概率 ),和 NLP 里的计算方式相关,跟计算机视觉里的词袋模型(BoW)不是一回事。回退法里 Bow 的常见计算思路,大白话拆: 1. 基础逻辑:“从已统计的概率里‘扣’” 回退概率 Bow(ab) ,本质是 **“给‘用短词串代替长词串’这个行为的权重”** 。计算时,通 阅读全文
posted @ 2025-06-22 10:12 m516606428 阅读(24) 评论(0) 推荐(0)
摘要: N-gram 模型的 “回退平滑法”,大白话拆成 “思路 + 例子 + 步骤” ,保证秒懂: 核心思路 当遇到 **“没见过的词串”(比如三元组 a b c 从没出现过 ),别直接给概率 0!而是“退一步”**,找更短的词串(比如二元组 b c )的概率,来凑合用~ 举个栗子(人话翻译公式) 假设要 阅读全文
posted @ 2025-06-22 09:55 m516606428 阅读(18) 评论(0) 推荐(0)
摘要: 吃透 “平滑问题”: 核心矛盾 N-gram 模型靠 “统计词串出现的次数” 算概率,但 “没见过的词串(比如新组合)” ,直接算的话概率是 0 。但理论上,再奇怪的词组合(比如 “苹果吃电脑” ),也不能说 “完全不可能出现”(万一有人脑洞大开这么写呢 ),所以得给它们 “很低但不是 0 的概率” 阅读全文
posted @ 2025-06-22 09:53 m516606428 阅读(10) 评论(0) 推荐(0)
摘要: 这段页讲马尔可夫假设的 “缺陷”,大白话拆成 3 个槽点 + 1 个安慰: 槽点 1:“前面很远的词可能影响当前词”(long distance dependency) 人话:有时候,当前词的意思,得看前面老远的词才能确定 。 例子:“我读过关于马尔可夫的生平的书”“我看过… 电影”“我听过… 故事 阅读全文
posted @ 2025-06-22 09:42 m516606428 阅读(13) 评论(0) 推荐(0)
摘要: 大白话讲马尔可夫假设 “为啥更好”,核心是 “砍断长依赖,让计算变简单,还能凑合有用” ,分三步说: 1. 先吐槽 “原来的方法” 多烂 之前 “以字为单位” 的方法,要算 “第 n 个字的概率,得看前面所有字”,组合爆炸,电脑根本算不动(比如句子长点,要统计的情况指数级增长,直接卡死 )。 2. 阅读全文
posted @ 2025-06-22 09:36 m516606428 阅读(5) 评论(0) 推荐(0)
摘要: 为啥 “以字为单位时组合会爆炸”,大白话讲核心是 “字太多、依赖链太长,要统计的情况指数级增长” ,分两步说: 1. 以字为单位:每个字都要 “看前面所有字” 比如句子 “今天天气不错”,以字为单位时: 第 1 个字 “今”:只算自己出现的概率(P (今) )。 第 2 个字 “天”:得算 “天” 阅读全文
posted @ 2025-06-22 09:35 m516606428 阅读(10) 评论(0) 推荐(0)
摘要: 这页讲 N-gram 模型里,“概率咋具体算出来” ,大白话拆成 “例子 + 步骤”: 核心逻辑 用 “统计词或词串出现的次数” 来算概率,简单说就是: 想算 “某个词 / 词串的概率”,就看它在大量文本(语料)里 “出现多少次” ,再除以 “总次数 / 相关词串的次数”。 举例子:算 “今天天气不 阅读全文
posted @ 2025-06-22 09:31 m516606428 阅读(5) 评论(0) 推荐(0)
摘要: 为什么这么算 从大白话角度解释为啥这么算,核心是 “语言有前后依赖关系,概率得体现‘前面的词影响后面的词’” ,分三步说: 1. 语言的 “依赖逻辑” 说话时,后面的词不是乱选的,得看前面说了啥。比如 “吃” 后面,常跟 “饭、面、瓜”;但 “看” 后面,常跟 “书、电影、风景” 。所以算句子概率时 阅读全文
posted @ 2025-06-22 09:28 m516606428 阅读(12) 评论(0) 推荐(0)
摘要: 这页讲 N-gram 模型咋算 “一句话像不像人话” 的概率,大白话拆成是啥、咋算、优缺点: 一、核心逻辑(是啥) 把句子拆成 “连续的词或字(w₁、w₂…wₙ)”,算这些词按顺序出现的概率。概率越高,句子越像人话。 二、咋算概率(公式翻译) 比如句子是 “今天天气不错”,拆成 w₁= 今、w₂= 阅读全文
posted @ 2025-06-22 09:26 m516606428 阅读(30) 评论(0) 推荐(0)
摘要: 这页讲语言模型咋分类,大白话逐个拆: 1. 统计语言模型(SLM) 特点:靠 “统计规律” 干活,比如 ngram 模型,就是数 “哪些词经常一起出现” 。 大白话:像 “查字典统计高频搭配”,比如知道 “天气” 常和 “不错” 连,就用这规律判断句子对不对。 2. 神经语言模型(NLM) 特点:用 阅读全文
posted @ 2025-06-22 09:23 m516606428 阅读(45) 评论(0) 推荐(0)
摘要: 这段讲语言模型在手写字识别里咋帮忙,大白话拆解: 核心事儿 手写识别时,机器先把图片里的字,变成一堆 “候选汉字”(比如写得潦草,一个字可能被看成好几种写法 )。但光有候选还不够,语言模型要从这些候选里,挑出 “连起来最像人话、概率最高” 的句子 。 举例子 看手写的 “浙江” ,机器可能识别成 “ 阅读全文
posted @ 2025-06-22 09:18 m516606428 阅读(9) 评论(0) 推荐(0)
摘要: 这部分讲语音识别里语言模型咋把音素变成文字,大白话拆解: 核心事儿 语音转文字时,一个音素序列(比如拼音)可能对应好几种文字组合 。语言模型的作用,就是从这些组合里,挑出 “最像人话、概率最高” 的那句。 举例子 看拼音 “zhong guo zheng zai dui kang xin guan” 阅读全文
posted @ 2025-06-22 09:14 m516606428 阅读(10) 评论(0) 推荐(0)
摘要: 这段讲的是语音识别里语言模型咋工作的,大白话拆解下: 第一步:提取声音特征把你说的话,先转成电脑能懂的 “声学特征向量”(就当是声音的数字密码)。 第二步:声学模型预测音素拿这些 “声音密码” 当输入,丢给声学模型算一算,就能猜出你说的是啥音素(音素≈拼音的最小单位,但更细,还得带声调,比如 “ā” 阅读全文
posted @ 2025-06-22 09:13 m516606428 阅读(19) 评论(0) 推荐(0)