2025 年 6月 15 日随笔档案 - m516606428

2025年6月15日

摘要：一、nn.Linear 是干啥的？大白话：它是一个 “智能数字翻译器”，能把一组数字变成另一组有特定意义的数字。二、生活类比：奶茶店的配方表假设你开了一家奶茶店，有 3 种原料：茶、奶、糖。顾客下单时，你需要根据不同的配方，把这 3 种原料 “翻译” 成 5 种奶茶（比如原味、珍珠、布丁、芋泥阅读全文

posted @ 2025-06-15 23:58 m516606428 阅读(37) 评论(0) 推荐(0)

为什么不直接加入激活函数来代替线性层

摘要：可以把线性层和激活函数想象成做手工时的不同工具，它们职责不一样，没法互相替代，大白话解释为啥不能只用激活函数代替线性层： 1. 线性层是 “搭建基础框架” 线性层（nn.Linear）干的事，有点像用乐高积木搭架子。它按照 y = x*W + b 的规则，把输入的一组数（比如 [1,2,3] ），阅读全文

posted @ 2025-06-15 23:08 m516606428 阅读(40) 评论(0) 推荐(0)

激活函数（大白话版）

摘要：激活函数（大白话版）激活函数就是给神经网络 **“注入灵魂”** 的东西，让网络能学会复杂的模式。作用：让网络变 “聪明”：没有激活函数，不管多少层线性层（nn.Linear），都只能做简单的 “数字变形”（线性变换），学不会复杂规律（比如区分猫和狗）。激活函数加了非线性，让网络能捕捉复杂关系阅读全文

posted @ 2025-06-15 23:07 m516606428 阅读(108) 评论(0) 推荐(0)

线性层在pytorch是干嘛的

摘要： PyTorch 里的线性层（用nn.Linear实现），简单说就是帮你做 “数据变形 + 加权组合” 的工具，像个 “智能计算器”： 1. 核心作用：按规则变数据你给它一组数（比如 [1,2,3] ），它用自己学的 “变形规则”（由权重 W 和偏置 b 决定），把这组数变成另一组新数（比如 [ 阅读全文

posted @ 2025-06-15 23:06 m516606428 阅读(50) 评论(0) 推荐(0)

pytorch底层封装了什么

摘要： PyTorch 的底层封装可以理解为一个 “乐高工厂”，它帮你把硬件操作（比如 GPU 加速）、数学运算（比如矩阵乘法）、自动求导（比如梯度计算）这些 “小零件” 组装成你能直接用的 “积木”（神经网络层、优化器等）。下面用大白话拆解：一、底层封装的三大核心 1. 硬件加速（让显卡帮你算）底层逻阅读全文

posted @ 2025-06-15 22:58 m516606428 阅读(64) 评论(0) 推荐(0)

分词除了用jieba还有什么好

摘要：中文分词工具可太多了！Jieba 就像 “家常菜”，简单好用但不够 “高端”，遇到专业领域（比如医学、法律）或复杂场景（新词识别、歧义处理）就容易翻车。下面介绍几种更 “硬核” 的工具，附优缺点和适用场景，帮你选对工具！一、学术派：更精准的深度学习模型 1. THULAC（清华分词）特点：基于阅读全文

posted @ 2025-06-15 16:23 m516606428 阅读(223) 评论(0) 推荐(0)

用 KMeans 算法做文本相关聚类（像句向量、文本向量这类）的小技巧

摘要：这是讲用 KMeans 算法做文本相关聚类（像句向量、文本向量这类）的小技巧，拆解成唠家常式的： 1. “先设定较多的聚类类别” 就好比你要整理一堆衣服，先别想着直接分成 “上衣、裤子” 这几大类，而是多设些类别，比如 “T 恤、衬衫、卫衣、牛仔裤、运动裤” 等等。这样先细分，后面再调整，能更细致阅读全文

posted @ 2025-06-15 16:01 m516606428 阅读(49) 评论(0) 推荐(0)

除了tf idf 还有更好的方法么

摘要：当然有！TF-IDF 就像给文字 “数个数”，简单直接但不够 “聪明”，遇到复杂场景（比如同义词、语义关联）就容易抓瞎。下面用大白话讲讲更 “聪明” 的方法，附生活类比帮你秒懂：一、Word2Vec：让文字 “有感情” 的数字串 1. 核心逻辑：用 “上下文猜词” 学语义关系例子：句子 “我今阅读全文

posted @ 2025-06-15 15:59 m516606428 阅读(17) 评论(0) 推荐(0)

kmeans重新分组一般分多少次

摘要： Kmeans 重新分组的次数，其实就像 “拔河什么时候停”—— 没有固定次数，但有几个判断 “差不多得了” 的逻辑，用大白话讲就是：一、核心原则：“中心点不动了，就可以停了” 比如分水果的时候，每次换完组长（中心点），如果下次分组时组长几乎没变化，就说明分组稳定了。具体咋看呢？二、举个 “干饭人阅读全文

posted @ 2025-06-15 15:26 m516606428 阅读(12) 评论(0) 推荐(0)

kmeans原理

摘要： Kmeans 这玩意儿，说白了就是 “把一堆东西分成几堆，让每堆里的东西尽量像亲兄弟” 的方法！用超接地气的例子，给你拆明白👇 一、核心逻辑：“找中心点，把相似的圈一起” 想象你是班主任，要把班里同学分成 3 个小组做活动。Kmeans 的思路就是：先随便选 3 个 “临时组长”（选 3 个初始阅读全文

posted @ 2025-06-15 15:23 m516606428 阅读(29) 评论(0) 推荐(0)

微调具体怎么玩

摘要：咱用超接地气的 “给手机 APP 换皮肤” 逻辑，把 “模型微调” 彻底唠明白，保证看完就会玩👇 一、核心逻辑：“在模型现成本事上，改点小细节，适配你的需求” 模型（比如 BERT、Word2Vec ）本来就像个 “啥都会但不够专” 的万能 APP（能理解语言，但对细分领域不熟）。微调就是：给阅读全文

posted @ 2025-06-15 15:15 m516606428 阅读(23) 评论(0) 推荐(0)

模型 “出厂自带知识

摘要：你用的时候不用再自己喂大量数据重新训，直接就能用一、模型 “出厂自带知识”—— 提前喂饱了！不管是 Word2Vec 还是 BERT，发布的时候就已经用超大规模文本训好啦，就像手机出厂时系统已经装好、APP 已经预载。比如 Word2Vec，开发者可能用了整个互联网的文本、百科全书、小阅读全文

posted @ 2025-06-15 15:14 m516606428 阅读(6) 评论(0) 推荐(0)

拆词咋拆、词向量咋来、向量咋有关系

摘要：咱用最接地气的大白话，把 “拆词咋拆、词向量咋来、向量咋有关系” 这事儿彻底唠明白，保证听完就通透👇 一、“拆词” 咋拆？—— 就像切菜，按 “能表意的最小块” 切！比如句子 “我爱吃红烧肉” ，拆成 “我、爱、吃、红烧肉” ，依据就一个：把句子拆成 “单独拿出来能让人明白意思的小单元” 。简阅读全文

posted @ 2025-06-15 15:09 m516606428 阅读(5) 评论(0) 推荐(0)

句向量 / 文本向量

摘要：咱用超接地气的大白话，把 “句向量 / 文本向量” 的事儿唠明白，保证听完就懂👇 一句话总结核心逻辑：把一段文字，变成一组数字（向量），方便电脑 “理解文字意思”，还能比文字像不像、分分类～分步拆解（对应 PPT 里的 4 步）： 1）“拆词”—— 把文字拆成零散的词比如这句话：“我爱吃红烧阅读全文

posted @ 2025-06-15 15:07 m516606428 阅读(51) 评论(0) 推荐(0)

通俗易懂说明大模型中知识图谱怎么用能干什么比别的东西好在哪里

摘要：咱用大白话来讲知识图谱在大模型里的事儿，好懂又好玩👇 一、知识图谱在大模型里 “咋用”？把知识图谱想成 “结构化的知识地图” ，大模型是个 “聪明但有点迷糊的学生”，知识图谱就是给它的 “错题本 + 学霸笔记”，用法超接地气： 1. 给大模型 “塞知识”—— 训练时当 “外挂” 大模型学知识靠阅读全文

posted @ 2025-06-15 15:05 m516606428 阅读(42) 评论(0) 推荐(0)

大模型和 NLP（自然语言处理）

摘要：大模型和 NLP（自然语言处理）相关岗位的薪资待遇受到多种因素影响，从目前数据来看，难以简单判定哪个岗位薪资更高，以下是具体情况分析：整体平均薪资：职友集数据显示，NLP 岗位平均工资为 33,500 元 / 月1。大模型工程师平均工资为 28,400 元 / 月1。但大模型算法岗位 2025 年阅读全文

posted @ 2025-06-15 14:48 m516606428 阅读(115) 评论(0) 推荐(0)

梯度下降法 sgd为什么是-号

摘要：在梯度下降法（SGD）中使用 “-” 号的本质，是为了让参数沿着损失函数下降最快的方向更新。以下从数学原理、几何直观和代码实现三个维度展开解析：一、数学推导：梯度的负方向是函数下降最快的方向 1. 梯度的定义与方向假设损失函数为 \(L(\theta)\)，其中 \(\theta\) 是模型参数阅读全文

posted @ 2025-06-15 13:57 m516606428 阅读(112) 评论(0) 推荐(0)

Transformer 与传统线性模型（y=wx+b）的参数对应关系

摘要： Transformer 与传统线性模型（y=wx+b）的参数对应关系在深度学习中，层数和参数规模是模型复杂度的两个关键维度。理解 Transformer 这类大型模型与简单线性模型的对应关系，有助于从本质上把握模型设计的核心思想。一、传统线性模型（y=wx+b）的参数规模 1. 单层线性模型对阅读全文

posted @ 2025-06-15 13:38 m516606428 阅读(214) 评论(0) 推荐(0)

sgd公式

摘要：随机梯度下降（Stochastic Gradient Descent，SGD）是机器学习中最基础的优化算法之一，其核心思想是通过迭代更新参数来最小化损失函数。以下是 SGD 的公式、变种及关键特性的详细解析：一、SGD 基础公式与推导 1. 核心公式假设损失函数为 \(L(\theta; x, 阅读全文

posted @ 2025-06-15 13:21 m516606428 阅读(295) 评论(0) 推荐(0)

强化学习

摘要：以下是结合大模型与 NLP 场景的强化学习面试题整理，涵盖基础概念、技术应用及算法原理，附核心要点解析：一、强化学习基础概念什么是强化学习？与监督学习、无监督学习的核心区别？核心定义：通过智能体与环境交互，以最大化累积奖励为目标的学习范式，强调 “试错” 与 “延迟奖励”。区别：监督学习依阅读全文

posted @ 2025-06-15 12:25 m516606428 阅读(138) 评论(0) 推荐(0)

大模型和nlp面试题

摘要：大模型基础目前主流的开源模型体系有哪些？涌现能力是啥原因？大模型 LLM 的架构是怎样的？目前比较受欢迎的开源大模型有哪些？ prefix LM 和 causal LM、encoder - decoder 区别及各自有什么优缺点？模型幻觉是什么，如何解决？大模型的 Tokenizer 的阅读全文

posted @ 2025-06-15 11:38 m516606428 阅读(29) 评论(0) 推荐(0)

m516606428

公告