摘要: 一、nn.Linear 是干啥的? 大白话:它是一个 “智能数字翻译器”,能把一组数字变成另一组有特定意义的数字。 二、生活类比:奶茶店的配方表 假设你开了一家奶茶店,有 3 种原料:茶、奶、糖。顾客下单时,你需要根据不同的配方,把这 3 种原料 “翻译” 成 5 种奶茶(比如原味、珍珠、布丁、芋泥 阅读全文
posted @ 2025-06-15 23:58 m516606428 阅读(37) 评论(0) 推荐(0)
摘要: 可以把线性层和激活函数想象成做手工时的不同工具,它们职责不一样,没法互相替代,大白话解释为啥不能只用激活函数代替线性层: 1. 线性层是 “搭建基础框架” 线性层(nn.Linear)干的事,有点像用乐高积木搭架子 。它按照 y = x*W + b 的规则,把输入的一组数(比如 [1,2,3] ), 阅读全文
posted @ 2025-06-15 23:08 m516606428 阅读(40) 评论(0) 推荐(0)
摘要: 激活函数(大白话版) 激活函数就是给神经网络 **“注入灵魂”** 的东西,让网络能学会复杂的模式。 作用: 让网络变 “聪明”:没有激活函数,不管多少层线性层(nn.Linear),都只能做简单的 “数字变形”(线性变换),学不会复杂规律(比如区分猫和狗)。激活函数加了非线性,让网络能捕捉复杂关系 阅读全文
posted @ 2025-06-15 23:07 m516606428 阅读(108) 评论(0) 推荐(0)
摘要: PyTorch 里的线性层(用nn.Linear实现 ),简单说就是帮你做 “数据变形 + 加权组合” 的工具,像个 “智能计算器”: 1. 核心作用:按规则变数据 你给它一组数(比如 [1,2,3] ),它用自己学的 “变形规则”(由权重 W 和偏置 b 决定 ),把这组数变成另一组新数(比如 [ 阅读全文
posted @ 2025-06-15 23:06 m516606428 阅读(50) 评论(0) 推荐(0)
摘要: PyTorch 的底层封装可以理解为一个 “乐高工厂”,它帮你把硬件操作(比如 GPU 加速)、数学运算(比如矩阵乘法)、自动求导(比如梯度计算)这些 “小零件” 组装成你能直接用的 “积木”(神经网络层、优化器等)。下面用大白话拆解: 一、底层封装的三大核心 1. 硬件加速(让显卡帮你算) 底层逻 阅读全文
posted @ 2025-06-15 22:58 m516606428 阅读(64) 评论(0) 推荐(0)
摘要: 中文分词工具可太多了!Jieba 就像 “家常菜”,简单好用但不够 “高端”,遇到专业领域(比如医学、法律)或复杂场景(新词识别、歧义处理)就容易翻车。下面介绍几种更 “硬核” 的工具,附优缺点和适用场景,帮你选对工具! 一、学术派:更精准的深度学习模型 1. THULAC(清华分词) 特点: 基于 阅读全文
posted @ 2025-06-15 16:23 m516606428 阅读(223) 评论(0) 推荐(0)
摘要: 这是讲用 KMeans 算法做文本相关聚类(像句向量、文本向量这类)的小技巧,拆解成唠家常式的: 1. “先设定较多的聚类类别” 就好比你要整理一堆衣服,先别想着直接分成 “上衣、裤子” 这几大类,而是多设些类别,比如 “T 恤、衬衫、卫衣、牛仔裤、运动裤” 等等 。这样先细分,后面再调整,能更细致 阅读全文
posted @ 2025-06-15 16:01 m516606428 阅读(49) 评论(0) 推荐(0)
摘要: 当然有!TF-IDF 就像给文字 “数个数”,简单直接但不够 “聪明”,遇到复杂场景(比如同义词、语义关联)就容易抓瞎。下面用大白话讲讲更 “聪明” 的方法,附生活类比帮你秒懂: 一、Word2Vec:让文字 “有感情” 的数字串 1. 核心逻辑:用 “上下文猜词” 学语义关系 例子: 句子 “我今 阅读全文
posted @ 2025-06-15 15:59 m516606428 阅读(17) 评论(0) 推荐(0)
摘要: Kmeans 重新分组的次数,其实就像 “拔河什么时候停”—— 没有固定次数,但有几个判断 “差不多得了” 的逻辑,用大白话讲就是: 一、核心原则:“中心点不动了,就可以停了” 比如分水果的时候,每次换完组长(中心点),如果下次分组时组长几乎没变化,就说明分组稳定了。具体咋看呢? 二、举个 “干饭人 阅读全文
posted @ 2025-06-15 15:26 m516606428 阅读(12) 评论(0) 推荐(0)
摘要: Kmeans 这玩意儿,说白了就是 “把一堆东西分成几堆,让每堆里的东西尽量像亲兄弟” 的方法!用超接地气的例子,给你拆明白👇 一、核心逻辑:“找中心点,把相似的圈一起” 想象你是班主任,要把班里同学分成 3 个小组做活动。Kmeans 的思路就是: 先随便选 3 个 “临时组长”(选 3 个初始 阅读全文
posted @ 2025-06-15 15:23 m516606428 阅读(29) 评论(0) 推荐(0)
摘要: 咱用超接地气的 “给手机 APP 换皮肤” 逻辑,把 “模型微调” 彻底唠明白,保证看完就会玩👇 一、核心逻辑:“在模型现成本事上,改点小细节,适配你的需求” 模型(比如 BERT、Word2Vec )本来就像个 “啥都会但不够专” 的万能 APP(能理解语言,但对细分领域不熟 )。微调就是: 给 阅读全文
posted @ 2025-06-15 15:15 m516606428 阅读(23) 评论(0) 推荐(0)
摘要: 你用的时候 不用再自己喂大量数据重新训 ,直接就能用 一、模型 “出厂自带知识”—— 提前喂饱了! 不管是 Word2Vec 还是 BERT,发布的时候就已经用超大规模文本训好啦 ,就像手机出厂时系统已经装好、APP 已经预载。 比如 Word2Vec,开发者可能用了 整个互联网的文本、百科全书、小 阅读全文
posted @ 2025-06-15 15:14 m516606428 阅读(6) 评论(0) 推荐(0)
摘要: 咱用最接地气的大白话,把 “拆词咋拆、词向量咋来、向量咋有关系” 这事儿彻底唠明白,保证听完就通透👇 一、“拆词” 咋拆?—— 就像切菜,按 “能表意的最小块” 切! 比如句子 “我爱吃红烧肉” ,拆成 “我、爱、吃、红烧肉” ,依据就一个:把句子拆成 “单独拿出来能让人明白意思的小单元” 。 简 阅读全文
posted @ 2025-06-15 15:09 m516606428 阅读(5) 评论(0) 推荐(0)
摘要: 咱用超接地气的大白话,把 “句向量 / 文本向量” 的事儿唠明白,保证听完就懂👇 一句话总结核心逻辑: 把一段文字,变成一组数字(向量),方便电脑 “理解文字意思”,还能比文字像不像、分分类~ 分步拆解(对应 PPT 里的 4 步): 1)“拆词”—— 把文字拆成零散的词 比如这句话:“我爱吃红烧 阅读全文
posted @ 2025-06-15 15:07 m516606428 阅读(51) 评论(0) 推荐(0)
摘要: 咱用大白话来讲知识图谱在大模型里的事儿,好懂又好玩👇 一、知识图谱在大模型里 “咋用”? 把知识图谱想成 “结构化的知识地图” ,大模型是个 “聪明但有点迷糊的学生”,知识图谱就是给它的 “错题本 + 学霸笔记”,用法超接地气: 1. 给大模型 “塞知识”—— 训练时当 “外挂” 大模型学知识靠 阅读全文
posted @ 2025-06-15 15:05 m516606428 阅读(42) 评论(0) 推荐(0)
摘要: 大模型和 NLP(自然语言处理)相关岗位的薪资待遇受到多种因素影响,从目前数据来看,难以简单判定哪个岗位薪资更高,以下是具体情况分析: 整体平均薪资:职友集数据显示,NLP 岗位平均工资为 33,500 元 / 月1。大模型工程师平均工资为 28,400 元 / 月1。但大模型算法岗位 2025 年 阅读全文
posted @ 2025-06-15 14:48 m516606428 阅读(115) 评论(0) 推荐(0)
摘要: 在梯度下降法(SGD)中使用 “-” 号的本质,是为了让参数沿着损失函数下降最快的方向更新。以下从数学原理、几何直观和代码实现三个维度展开解析: 一、数学推导:梯度的负方向是函数下降最快的方向 1. 梯度的定义与方向 假设损失函数为 \(L(\theta)\),其中 \(\theta\) 是模型参数 阅读全文
posted @ 2025-06-15 13:57 m516606428 阅读(112) 评论(0) 推荐(0)
摘要: Transformer 与传统线性模型(y=wx+b)的参数对应关系 在深度学习中,层数和参数规模是模型复杂度的两个关键维度。理解 Transformer 这类大型模型与简单线性模型的对应关系,有助于从本质上把握模型设计的核心思想。 一、传统线性模型(y=wx+b)的参数规模 1. 单层线性模型 对 阅读全文
posted @ 2025-06-15 13:38 m516606428 阅读(214) 评论(0) 推荐(0)
摘要: 随机梯度下降(Stochastic Gradient Descent,SGD)是机器学习中最基础的优化算法之一,其核心思想是通过迭代更新参数来最小化损失函数。以下是 SGD 的公式、变种及关键特性的详细解析: 一、SGD 基础公式与推导 1. 核心公式 假设损失函数为 \(L(\theta; x, 阅读全文
posted @ 2025-06-15 13:21 m516606428 阅读(295) 评论(0) 推荐(0)
摘要: 以下是结合大模型与 NLP 场景的强化学习面试题整理,涵盖基础概念、技术应用及算法原理,附核心要点解析: 一、强化学习基础概念 什么是强化学习?与监督学习、无监督学习的核心区别? 核心定义:通过智能体与环境交互,以最大化累积奖励为目标的学习范式,强调 “试错” 与 “延迟奖励”。 区别: 监督学习依 阅读全文
posted @ 2025-06-15 12:25 m516606428 阅读(138) 评论(0) 推荐(0)
摘要: 大模型基础 目前主流的开源模型体系有哪些? 涌现能力是啥原因? 大模型 LLM 的架构是怎样的? 目前比较受欢迎的开源大模型有哪些? prefix LM 和 causal LM、encoder - decoder 区别及各自有什么优缺点? 模型幻觉是什么,如何解决? 大模型的 Tokenizer 的 阅读全文
posted @ 2025-06-15 11:38 m516606428 阅读(29) 评论(0) 推荐(0)