2025 年 6月 22 日随笔档案 - m516606428

2025年6月22日

在 PyTorch 的线性层（nn.Linear）中，权重矩阵的维度顺序可能与你手动计算时的直觉相反

摘要：在 PyTorch 的线性层（nn.Linear）中，权重矩阵的维度顺序可能与你手动计算时的直觉相反，这是导致你感到困惑的主要原因。我来解释一下这个现象背后的原理，并提供代码示例帮助你理解。 1. 为什么需要 "转置"？在数学中，线性变换通常表示为 y = Wx + b，其中： x 是输入向量（维阅读全文

posted @ 2025-06-22 23:50 m516606428 阅读(138) 评论(0) 推荐(0)

线性层weight为什么如果是 10 给的就是根号下10分支1 正负范围 linear

摘要：在深度学习中，线性层（全连接层）的权重初始化范围通常设置为 [-1/√n, 1/√n]，其中 n 是输入神经元的数量（例如你提到的 10）。这种初始化方法被称为 Xavier 初始化（也称为 Glorot 初始化），其目的是保持信号在神经网络中的方差一致性，避免梯度消失或爆炸。为什么选择 1/√n 阅读全文

posted @ 2025-06-22 23:23 m516606428 阅读(27) 评论(0) 推荐(0)

torch.nn nn.module里面封装了什么为什么这些神经网络不纯手写呢

摘要： torch.nn.Module 是 PyTorch 中所有神经网络模块的基类，它封装了神经网络的核心功能，包括参数管理、前向传播、训练模式切换等。以下从三个维度解析其封装内容和使用价值：一、nn.Module 封装了什么？ 1. 参数自动管理 nn.Parameter：将张量注册为模型参数，自动加阅读全文

posted @ 2025-06-22 16:17 m516606428 阅读(49) 评论(0) 推荐(0)

代码演示bert的12层和一层代码上区别

摘要：在代码实现上，BERT 的层数差异主要体现在Transformer 编码器堆叠的数量和参数规模上。以下通过 PyTorch 代码对比单层 BERT 和 12 层 BERT 的核心差异（为简化说明，省略部分非关键细节）：一、核心结构对比 1. 单层 BERT（仅 1 个 Transformer 编码阅读全文

posted @ 2025-06-22 16:15 m516606428 阅读(42) 评论(0) 推荐(0)

手撕 Transformer 和手撕 bert区别

摘要： “手撕 Transformer” 和 “手撕 BERT” 虽然都涉及手动实现深度学习模型，但二者在目标、复杂度、应用场景和技术细节上存在显著差异。以下从多个维度对比分析：一、核心目标与应用场景对比项手撕 Transformer手撕 BERT 本质实现 Transformer 的基础架构（编码器阅读全文

posted @ 2025-06-22 16:11 m516606428 阅读(66) 评论(0) 推荐(0)

手撕transformer的意义

摘要： “手撕 Transformer” 通常指手动实现 Transformer 模型的核心代码（而非直接调用框架 API），这一过程对技术学习、研究和工程实践具有多重意义。以下从原理理解、技术提升、应用价值等维度展开分析：一、深入理解深度学习核心原理 1. 解构 Transformer 的底层逻辑 Tr 阅读全文

posted @ 2025-06-22 16:07 m516606428 阅读(132) 评论(0) 推荐(0)

transformer面试题

摘要：以下是 Transformer 常见面试题及解析，覆盖基础原理、训练优化、应用实践等方向，帮你应对面试：一、基础原理类 Transformer 为何用多头注意力？将输入特征拆分为多个子空间，每个头学习不同特征（如语法 / 语义），从多维度理解输入，提升模型表达力，避免单头 “视角局限”。 Q 和阅读全文

posted @ 2025-06-22 16:03 m516606428 阅读(288) 评论(0) 推荐(0)

这是关于BERT（Bidirectional Encoder Representations from Transformers）模型中 Encoder（编码器）结构的讲解内容，属于自然语言处理（NLP）领域的深度学习知识。

摘要：这是关于BERT（Bidirectional Encoder Representations from Transformers）模型中 Encoder（编码器）结构的讲解内容，属于自然语言处理（NLP）领域的深度学习知识。 BERT 是基于 Transformer 架构的预训练模型，Encoder 阅读全文

posted @ 2025-06-22 16:00 m516606428 阅读(26) 评论(0) 推荐(0)

为什么要用 Softmax？

摘要：在多头注意力机制里，Softmax 公式起着至关重要的作用，它是连接 K、Q、V 计算与最终注意力权重的桥梁。下面以通俗易懂的方式，结合之前的例子，为你讲解它们之间的关系：一、Softmax 在注意力机制中的核心作用 Softmax 的本质：把一组 “得分” 转化为 “概率分布”，让所有概率的总和阅读全文

posted @ 2025-06-22 15:55 m516606428 阅读(313) 评论(0) 推荐(0)

多头注意力机制里的 K、Q、V，其实就像你在图书馆找书时的三个 “小助手”

摘要：多头注意力机制里的 K、Q、V，其实就像你在图书馆找书时的三个 “小助手”，而 “多头” 就像同时派好几拨小助手用不同角度找书，最后把大家的发现汇总起来～下面用大白话拆解它们的工作逻辑：一、先搞懂 K、Q、V 是啥？—— 找书三要素假设你要在图书馆找一本和 “人工智能” 相关的书，K、Q、V 可阅读全文

posted @ 2025-06-22 15:53 m516606428 阅读(150) 评论(0) 推荐(0)

在 Transformer 架构里，多头注意力机制是相当关键的部分，它能让模型从不同的表示子空间来捕捉特征。下面为你详细介绍其中的 K、Q、V 矩阵：

摘要：在 Transformer 架构里，多头注意力机制是相当关键的部分，它能让模型从不同的表示子空间来捕捉特征。下面为你详细介绍其中的 K、Q、V 矩阵：核心概念阐释 Query(Q)：它起着 “查询” 的作用，负责与键进行匹配，目的是找出需要关注的位置。 Key(K)：其功能是 “标识”，也就是为每阅读全文

posted @ 2025-06-22 15:52 m516606428 阅读(131) 评论(0) 推荐(0)

手写一个多头注意力机制

摘要： import torchimport torch.nn as nnimport torch.nn.functional as Fclass MultiHeadAttention(nn.Module): def __init__(self, embed_dim, num_heads, dropout= 阅读全文

posted @ 2025-06-22 15:50 m516606428 阅读(112) 评论(0) 推荐(0)

这是 BERT 模型里 Self - Attention（自注意力）机制的计算流程图，理解它就能懂 Transformer 核心逻辑！用大白话拆解每一步：

摘要：这是 BERT 模型里 Self - Attention（自注意力）机制的计算流程图，理解它就能懂 Transformer 核心逻辑！用大白话拆解每一步：一、输入：L×h 的 X 是啥？ L：序列长度（一句话拆成多少个词 / 词元，比如 “你好中国” 拆成 3 个词，L=3 ）。 h：隐藏层维度阅读全文

posted @ 2025-06-22 15:47 m516606428 阅读(118) 评论(0) 推荐(0)

Self - Attention（自注意力）机制

posted @ 2025-06-22 15:30 m516606428 阅读(69) 评论(0) 推荐(0)

BERT 和 GPT - 1 谁更好用

摘要： BERT 和 GPT - 1 谁更好用，取决于具体的 NLP 任务需求，以下从核心任务场景对比：一、做 “文本理解” 任务（分类、问答、实体识别）→ BERT 更好用 BERT 优势：用双向 Transformer，能同时看 “上文 + 下文” 理解语义（比如 “苹果” 在 “吃苹果” 和 “苹果阅读全文

posted @ 2025-06-22 14:56 m516606428 阅读(29) 评论(0) 推荐(0)

bert 和 gpt1代多大分别

摘要：以下为你清晰梳理 BERT 与 GPT - 1 的模型规模参数：一、BERT 核心版本参数 BERT 版本层数（Transformer 层）隐藏层维度注意力头数参数量 BERT - Base 12 768 12 约 1.1 亿 BERT - Large 24 1024 16 约 3.4 亿二、G 阅读全文

posted @ 2025-06-22 14:55 m516606428 阅读(71) 评论(0) 推荐(0)

从 0 到 1 搭建深度学习模型在 NLP 任务中有哪些优势？

摘要：从 0 到 1 搭建深度学习模型做 NLP 任务，优势主要体现在对场景的极致适配与深度可控性上，具体如下：场景定制化：能针对极小众场景（如古文言文语义分析、某行业加密话术理解），完全按需求设计模型结构、数据处理逻辑，让模型精准贴合任务。原理深度把控：从底层构建模型，能吃透深度学习在 NLP 里阅读全文

posted @ 2025-06-22 14:54 m516606428 阅读(19) 评论(0) 推荐(0)

BERT 文本表征的核心特点

摘要：这是在讲 BERT 文本表征的核心特点，用大白话拆解： 1. “文本表征” 是啥？就是把文字（比如 “我喜欢吃苹果” ），变成电脑能懂的 “数字形式”（矩阵或向量），方便模型分析语义～ 2. BERT 和 word2vec 都能 “转数字”，但有区别： word2vec（静态）：不管啥语境，一个阅读全文

posted @ 2025-06-22 14:52 m516606428 阅读(32) 评论(0) 推荐(0)

bert微调为什么可以降低学习率

摘要： BERT 微调时降低学习率主要有以下原因：保护预训练成果：BERT 在大规模语料上进行预训练，学习到了丰富的语言知识和通用特征。微调阶段使用较小的学习率，可以避免对预训练模型的参数进行过大的更新，防止破坏已经学习到的通用语义和句法等信息，使模型在适应新任务的同时，最大程度地保留预训练模型的 “记忆阅读全文

posted @ 2025-06-22 14:26 m516606428 阅读(43) 评论(0) 推荐(0)

预训练的bert模型底层词固定向量值么比如猫经过微调他的张量会变么

摘要：预训练的 BERT 模型在微调时，底层词向量的张量值通常会变化，但具体是否变化取决于微调策略。以下是详细解析：一、BERT 词向量的本质：可学习的嵌入表示 BERT 的词向量（Token Embeddings）是预训练阶段通过海量文本学习到的稠密向量表示，每个词对应一个固定维度的张量（如 BERT 阅读全文

posted @ 2025-06-22 14:24 m516606428 阅读(34) 评论(0) 推荐(0)

BERT 的 Pre-train + Fine-tune 流程

摘要： BERT 的 Pre-train + Fine-tune 流程凭借预训练阶段学到的通用语言理解能力，可高效适配多种 NLP 任务，按任务类型分类如下：一、分类任务（判断文本属于哪种类型）文本情感分析：判断评论、文章的情感倾向（正面 / 负面 / 中性），如电商评论褒贬分类。主题分类：给文本划阅读全文

posted @ 2025-06-22 14:22 m516606428 阅读(32) 评论(0) 推荐(0)

传统方法和 bert的预训练方式

摘要：以下从核心差异和流程对比角度，清晰拆解传统方法与 BERT 预训练方式的区别：一、核心逻辑差异（大白话版）传统方法：做 NLP 任务（比如文本分类、情感分析）时，从 0 开始训模型。流程是：设计模型结构→找少量标注数据（比如标好 “正面 / 负面” 的评论）→用标注数据从头训模型，让模型学阅读全文

posted @ 2025-06-22 14:21 m516606428 阅读(25) 评论(0) 推荐(0)

bert有几个版本基于chinese 的以外还有别的么

摘要： BERT 有不少版本，从基础到变体丰富多样，除中文相关，还有适配不同场景的版本，以下为你介绍：一、经典基础版本 BERT - Base：12 层 Transformer 、768 维隐藏层、12 个注意力头，参数约 1.17 亿，平衡性能与资源，适配通用 NLP 任务（文本分类、情感分析等）。阅读全文

posted @ 2025-06-22 14:12 m516606428 阅读(212) 评论(0) 推荐(0)

model.bin

摘要： model.bin 常是存储深度学习模型权重参数的二进制文件，和训练好的模型有关，但不完全等价，具体看场景： 1. 核心作用在 PyTorch、Hugging Face 等框架里，它主要存模型训练后的权重（比如神经网络里各层的参数值），是模型能干活的 “核心密码” 。 2. 和 “完整训练好的阅读全文

posted @ 2025-06-22 14:11 m516606428 阅读(92) 评论(0) 推荐(0)

对比 “传统方法” 与 “预训练方法” 流程

摘要：这是对比 “传统方法” 与 “预训练方法” 流程的内容，实体信息梳理：一、核心对比项传统方法（Fine - tune 流程）：步骤：设计模型结构→收集 / 标注训练数据→用标注数据训练→真实场景预测特点：依赖人工标注数据，从 0 开始为特定任务训模型预训练方法（Pre - train + F 阅读全文

posted @ 2025-06-22 14:09 m516606428 阅读(33) 评论(0) 推荐(0)

bert和transformer关系

摘要：要搞懂 BERT 和 Transformer 的关系，其实可以用 “儿子和爸爸” 的逻辑来大白话解释 ——Transformer 是 “技术爸爸”，BERT 是 “超牛儿子”，而且这个儿子还把爸爸的优点发扬光大了！ 1. Transformer：先有它，才有后来的各种神模型本质：Transform 阅读全文

posted @ 2025-06-22 14:08 m516606428 阅读(115) 评论(0) 推荐(0)

asl

摘要： ASL（美国手语）和 N-gram（N 元语法）乍一看没啥直接关系，但硬要说联系的话，可以从 “语言结构分析” 的角度白话解释： 1. ASL 是 “用手比划的语言”，N-gram 是 “算词语顺序的工具” ASL：就像我们用嘴说话，聋人用手、表情和身体动作 “说话”，每个手势是一个 “单词”，比如阅读全文

posted @ 2025-06-22 14:03 m516606428 阅读(23) 评论(0) 推荐(0)

找到降幅大于2%的每个用户；降幅：(最后一次行为发生时候的价格-当前价格)/行为发生时候的价格

摘要：表schema： a表字段：用户浏览行为表：user_id log_time log_price goods_id date b表字段：商品价格维表：goods_id current_price price_date 1）找到每个用户每天最后一次浏览行为发生的时候的价格； 2）找到降幅大于2%的每个阅读全文

posted @ 2025-06-22 13:57 m516606428 阅读(8) 评论(0) 推荐(0)

ppl ngram

摘要：在自然语言处理（NLP）领域，PPL（困惑度，Perplexity ）和 n - gram 是紧密关联的概念，主要关系如下： 1. n - gram 是基础模型，PPL 是评估指标 n - gram 模型角色：n - gram（像 unigram、bigram、trigram 等）是经典统计语言模阅读全文

posted @ 2025-06-22 11:38 m516606428 阅读(46) 评论(0) 推荐(0)

“数字归一化”

摘要：这是关于语言模型应用中 “数字归一化” 流程的内容，实体信息如下：主题：语言模型的应用 - 数字归一化步骤：找规范数字文本当原始语料正则表达式提取任意形式数字数字替换为 <阿拉伯数字>< 汉字数字 >< 汉字连读 > 等 token 用带 token 文本训练语言模型新文本用正则找数字，阅读全文

posted @ 2025-06-22 11:20 m516606428 阅读(15) 评论(0) 推荐(0)

怎么判断该不该转阿拉伯数字

摘要：断是否转阿拉伯数字，核心看数字表意场景与可读性需求，可分两类情况：一、建议转阿拉伯数字的场景量化数据（精准数值）像图里的 “四百五十四点九万吨”（454.9 万吨）、“七百七十三点四万吨”（773.4 万吨）、年份 “一九九九年”（1999 年），这类明确的计量、统计数值，转成阿拉伯数阅读全文

posted @ 2025-06-22 11:18 m516606428 阅读(13) 评论(0) 推荐(0)

语言模型文本纠错方法缺陷

摘要：这是关于语言模型文本纠错方法缺陷的说明，用大白话总结缺陷：漏判 “增减字”：比如原句多了字（“我爱吃饭” 多空格算错但难识别）、少了字（“我爱饭” 少 “吃”），这种方法搞不定。阈值难调：打分阈值高了，该改的错没改；阈值低了，乱改原意（比如 “我买苹果”→“我卖苹果”，模型可能误判替换）。 “ 阅读全文

posted @ 2025-06-22 11:09 m516606428 阅读(21) 评论(0) 推荐(0)

语言模型应用于文本纠错

摘要：这是关于语言模型应用于文本纠错的流程说明，用大白话拆解步骤：找 “错别字备胎”：先给每个字准备一堆可能混淆的字（比如 “天” 的混淆字有 “按、暗、俺” 等，因为长得像 / 读音像）。算原句 “合理度”：用语言模型打分，看原句 “像不像人话”（概率越高越合理）。替换字再打分：把原句里的字换成混阅读全文

posted @ 2025-06-22 11:08 m516606428 阅读(42) 评论(0) 推荐(0)

nlp中ppl

摘要：在 NLP（自然语言处理）里，PPL 是困惑度（Perplexity），大白话就是衡量语言模型 “有多懵圈” 的指标，用来判断模型对文本预测能力咋样，数值越小，模型越聪明，越懂语言规律。举个栗子理解假如你给模型一句特常见的话 “我吃饭”，模型能稳稳猜到 “吃” 后面接 “饭”，那 PPL 就阅读全文

posted @ 2025-06-22 11:06 m516606428 阅读(161) 评论(0) 推荐(0)

这张图对比了 Ngram 语言模型和神经网络（NN）语言模型的区别，用大白话解释就是：

摘要：这张图对比了 Ngram 语言模型和神经网络（NN）语言模型的区别，用大白话解释就是：对比项Ngram 模型（传统套路）NN 模型（神经网络新玩法）解码速度快（简单查表、计算，像背公式答题）慢（要算复杂神经网络，像解奥数题）内存消耗大（存很多 “词组统计结果”，占地方）小（靠神经阅读全文

posted @ 2025-06-22 10:56 m516606428 阅读(17) 评论(0) 推荐(0)

这页讲神经网络语言模型（NLM）比 Ngram 强在哪，大白话对比 “NLM 咋碾压 Ngram”：

摘要：这页讲神经网络语言模型（NLM）比 Ngram 强在哪，大白话对比 “NLM 咋碾压 Ngram”： 1. 语义理解更聪明（向量表示语义） Ngram ：靠 “统计词的出现频率” 判断语义（比如 “苹果” 常和 “手机” 连，就认为它们有关），但不懂真正的意思。 NLM ：把词变成 “语义向量”（阅读全文

posted @ 2025-06-22 10:52 m516606428 阅读(25) 评论(0) 推荐(0)

ngram ppl 大白话

摘要：在 NLP 里，Ngram 的 PPL（Perplexity，困惑度），就是用来衡量 “语言模型好不好” 的指标，大白话拆解： 1. 干啥用的？ PPL 越低 → 模型越 “懂人话”，预测的句子越合理。比如：模型算 “今天吃饭” 的 PPL 低，算 “今天吃书” 的 PPL 高 → 说明模型知阅读全文

posted @ 2025-06-22 10:43 m516606428 阅读(19) 评论(0) 推荐(0)

我想训练一个很牛的robot 围棋大师能打赢世界冠军的水平用什么模型做好

摘要：要训练出能打赢世界冠军水平的围棋机器人，可参考以下模型和技术路径，核心思路是借鉴 AlphaGo 系列的成功经验： 1. 基础框架：“策略网络 + 价值网络 + 蒙特卡洛树搜索（MCTS）” 策略网络：学 “当前局面下，哪步棋最可能赢”（类似人类选点直觉）。价值网络：评估 “当前局面的胜率”（判阅读全文

posted @ 2025-06-22 10:42 m516606428 阅读(63) 评论(0) 推荐(0)

N - gram 语言模型平滑方法里的插值法

摘要：这是 N - gram 语言模型平滑方法里的插值法，核心是 “融合高阶和低阶 ngram 概率，让结果更稳”，大白话拆解：核心思路回退法是 “没高阶用低阶”，插值法更灵活 —— “同时用高阶和低阶的概率，按比例混合” 。公式翻译算 “当前词 wₙ 在前两个词 wₙ₋₂wₙ₋₁ 后的概率” 时阅读全文

posted @ 2025-06-22 10:17 m516606428 阅读(8) 评论(0) 推荐(0)

N - gram 语言模型加 1 平滑（add - one smooth ）

摘要：这是关于 N - gram 语言模型加 1 平滑（add - one smooth ）方法的内容，解决 “P (word) 不存在（即某个词在语料中没出现过）时的概率计算问题”，大白话解释：核心逻辑当遇到没见过的词（count (word)=0 ），给它的计数 “强行 +1”，同时给总词数也阅读全文

posted @ 2025-06-22 10:14 m516606428 阅读(15) 评论(0) 推荐(0)

bow

摘要：回退法里的 Bow（回退概率），和 NLP 里的计算方式相关，跟计算机视觉里的词袋模型（BoW）不是一回事。回退法里 Bow 的常见计算思路，大白话拆： 1. 基础逻辑：“从已统计的概率里‘扣’” 回退概率 Bow(ab) ，本质是 **“给‘用短词串代替长词串’这个行为的权重”** 。计算时，通阅读全文

posted @ 2025-06-22 10:12 m516606428 阅读(24) 评论(0) 推荐(0)

回退平滑法

摘要： N-gram 模型的 “回退平滑法”，大白话拆成 “思路 + 例子 + 步骤” ，保证秒懂：核心思路当遇到 **“没见过的词串”（比如三元组 a b c 从没出现过），别直接给概率 0！而是“退一步”**，找更短的词串（比如二元组 b c ）的概率，来凑合用～举个栗子（人话翻译公式）假设要阅读全文

posted @ 2025-06-22 09:55 m516606428 阅读(18) 评论(0) 推荐(0)

“平滑问题”：

摘要：吃透 “平滑问题”：核心矛盾 N-gram 模型靠 “统计词串出现的次数” 算概率，但 “没见过的词串（比如新组合）” ，直接算的话概率是 0 。但理论上，再奇怪的词组合（比如 “苹果吃电脑” ），也不能说 “完全不可能出现”（万一有人脑洞大开这么写呢），所以得给它们 “很低但不是 0 的概率” 阅读全文

posted @ 2025-06-22 09:53 m516606428 阅读(10) 评论(0) 推荐(0)

马尔可夫假设的 “缺陷”

摘要：这段页讲马尔可夫假设的 “缺陷”，大白话拆成 3 个槽点 + 1 个安慰：槽点 1：“前面很远的词可能影响当前词”（long distance dependency）人话：有时候，当前词的意思，得看前面老远的词才能确定。例子：“我读过关于马尔可夫的生平的书”“我看过… 电影”“我听过… 故事阅读全文

posted @ 2025-06-22 09:42 m516606428 阅读(13) 评论(0) 推荐(0)

马尔可夫假设 “为啥更好”

摘要：大白话讲马尔可夫假设 “为啥更好”，核心是 “砍断长依赖，让计算变简单，还能凑合有用” ，分三步说： 1. 先吐槽 “原来的方法” 多烂之前 “以字为单位” 的方法，要算 “第 n 个字的概率，得看前面所有字”，组合爆炸，电脑根本算不动（比如句子长点，要统计的情况指数级增长，直接卡死）。 2. 阅读全文

posted @ 2025-06-22 09:36 m516606428 阅读(5) 评论(0) 推荐(0)

字太多、依赖链太长，要统计的情况指数级增长

摘要：为啥 “以字为单位时组合会爆炸”，大白话讲核心是 “字太多、依赖链太长，要统计的情况指数级增长” ，分两步说： 1. 以字为单位：每个字都要 “看前面所有字” 比如句子 “今天天气不错”，以字为单位时：第 1 个字 “今”：只算自己出现的概率（P (今) ）。第 2 个字 “天”：得算 “天” 阅读全文

posted @ 2025-06-22 09:35 m516606428 阅读(10) 评论(0) 推荐(0)

N-gram 模型里

摘要：这页讲 N-gram 模型里，“概率咋具体算出来” ，大白话拆成 “例子 + 步骤”：核心逻辑用 “统计词或词串出现的次数” 来算概率，简单说就是：想算 “某个词 / 词串的概率”，就看它在大量文本（语料）里 “出现多少次” ，再除以 “总次数 / 相关词串的次数”。举例子：算 “今天天气不阅读全文

posted @ 2025-06-22 09:31 m516606428 阅读(5) 评论(0) 推荐(0)

语言有前后依赖关系，概率得体现‘前面的词影响后面的词

摘要：为什么这么算从大白话角度解释为啥这么算，核心是 “语言有前后依赖关系，概率得体现‘前面的词影响后面的词’” ，分三步说： 1. 语言的 “依赖逻辑” 说话时，后面的词不是乱选的，得看前面说了啥。比如 “吃” 后面，常跟 “饭、面、瓜”；但 “看” 后面，常跟 “书、电影、风景” 。所以算句子概率时阅读全文

posted @ 2025-06-22 09:28 m516606428 阅读(12) 评论(0) 推荐(0)

N-gram 模型

摘要：这页讲 N-gram 模型咋算 “一句话像不像人话” 的概率，大白话拆成是啥、咋算、优缺点：一、核心逻辑（是啥）把句子拆成 “连续的词或字（w₁、w₂…wₙ）”，算这些词按顺序出现的概率。概率越高，句子越像人话。二、咋算概率（公式翻译）比如句子是 “今天天气不错”，拆成 w₁= 今、w₂= 阅读全文

posted @ 2025-06-22 09:26 m516606428 阅读(30) 评论(0) 推荐(0)

语言模型咋分类，

摘要：这页讲语言模型咋分类，大白话逐个拆： 1. 统计语言模型（SLM）特点：靠 “统计规律” 干活，比如 ngram 模型，就是数 “哪些词经常一起出现” 。大白话：像 “查字典统计高频搭配”，比如知道 “天气” 常和 “不错” 连，就用这规律判断句子对不对。 2. 神经语言模型（NLM）特点：用阅读全文

posted @ 2025-06-22 09:23 m516606428 阅读(45) 评论(0) 推荐(0)

语言模型在手写字识别里咋帮忙

摘要：这段讲语言模型在手写字识别里咋帮忙，大白话拆解：核心事儿手写识别时，机器先把图片里的字，变成一堆 “候选汉字”（比如写得潦草，一个字可能被看成好几种写法）。但光有候选还不够，语言模型要从这些候选里，挑出 “连起来最像人话、概率最高” 的句子。举例子看手写的 “浙江” ，机器可能识别成 “ 阅读全文

posted @ 2025-06-22 09:18 m516606428 阅读(9) 评论(0) 推荐(0)

语音识别里语言模型咋把音素变成文

摘要：这部分讲语音识别里语言模型咋把音素变成文字，大白话拆解：核心事儿语音转文字时，一个音素序列（比如拼音）可能对应好几种文字组合。语言模型的作用，就是从这些组合里，挑出 “最像人话、概率最高” 的那句。举例子看拼音 “zhong guo zheng zai dui kang xin guan” 阅读全文

posted @ 2025-06-22 09:14 m516606428 阅读(10) 评论(0) 推荐(0)

语音识别里语言模型咋

摘要：这段讲的是语音识别里语言模型咋工作的，大白话拆解下：第一步：提取声音特征把你说的话，先转成电脑能懂的 “声学特征向量”（就当是声音的数字密码）。第二步：声学模型预测音素拿这些 “声音密码” 当输入，丢给声学模型算一算，就能猜出你说的是啥音素（音素≈拼音的最小单位，但更细，还得带声调，比如 “ā” 阅读全文

posted @ 2025-06-22 09:13 m516606428 阅读(19) 评论(0) 推荐(0)

m516606428

公告