摘要: Kmeans 这玩意儿,说白了就是 “把一堆东西分成几堆,让每堆里的东西尽量像亲兄弟” 的方法!用超接地气的例子,给你拆明白👇 一、核心逻辑:“找中心点,把相似的圈一起” 想象你是班主任,要把班里同学分成 3 个小组做活动。Kmeans 的思路就是: 先随便选 3 个 “临时组长”(选 3 个初始 阅读全文
posted @ 2025-06-15 15:23 m516606428 阅读(29) 评论(0) 推荐(0)
摘要: 咱用超接地气的 “给手机 APP 换皮肤” 逻辑,把 “模型微调” 彻底唠明白,保证看完就会玩👇 一、核心逻辑:“在模型现成本事上,改点小细节,适配你的需求” 模型(比如 BERT、Word2Vec )本来就像个 “啥都会但不够专” 的万能 APP(能理解语言,但对细分领域不熟 )。微调就是: 给 阅读全文
posted @ 2025-06-15 15:15 m516606428 阅读(23) 评论(0) 推荐(0)
摘要: 你用的时候 不用再自己喂大量数据重新训 ,直接就能用 一、模型 “出厂自带知识”—— 提前喂饱了! 不管是 Word2Vec 还是 BERT,发布的时候就已经用超大规模文本训好啦 ,就像手机出厂时系统已经装好、APP 已经预载。 比如 Word2Vec,开发者可能用了 整个互联网的文本、百科全书、小 阅读全文
posted @ 2025-06-15 15:14 m516606428 阅读(6) 评论(0) 推荐(0)
摘要: 咱用最接地气的大白话,把 “拆词咋拆、词向量咋来、向量咋有关系” 这事儿彻底唠明白,保证听完就通透👇 一、“拆词” 咋拆?—— 就像切菜,按 “能表意的最小块” 切! 比如句子 “我爱吃红烧肉” ,拆成 “我、爱、吃、红烧肉” ,依据就一个:把句子拆成 “单独拿出来能让人明白意思的小单元” 。 简 阅读全文
posted @ 2025-06-15 15:09 m516606428 阅读(5) 评论(0) 推荐(0)
摘要: 咱用超接地气的大白话,把 “句向量 / 文本向量” 的事儿唠明白,保证听完就懂👇 一句话总结核心逻辑: 把一段文字,变成一组数字(向量),方便电脑 “理解文字意思”,还能比文字像不像、分分类~ 分步拆解(对应 PPT 里的 4 步): 1)“拆词”—— 把文字拆成零散的词 比如这句话:“我爱吃红烧 阅读全文
posted @ 2025-06-15 15:07 m516606428 阅读(51) 评论(0) 推荐(0)
摘要: 咱用大白话来讲知识图谱在大模型里的事儿,好懂又好玩👇 一、知识图谱在大模型里 “咋用”? 把知识图谱想成 “结构化的知识地图” ,大模型是个 “聪明但有点迷糊的学生”,知识图谱就是给它的 “错题本 + 学霸笔记”,用法超接地气: 1. 给大模型 “塞知识”—— 训练时当 “外挂” 大模型学知识靠 阅读全文
posted @ 2025-06-15 15:05 m516606428 阅读(42) 评论(0) 推荐(0)
摘要: 大模型和 NLP(自然语言处理)相关岗位的薪资待遇受到多种因素影响,从目前数据来看,难以简单判定哪个岗位薪资更高,以下是具体情况分析: 整体平均薪资:职友集数据显示,NLP 岗位平均工资为 33,500 元 / 月1。大模型工程师平均工资为 28,400 元 / 月1。但大模型算法岗位 2025 年 阅读全文
posted @ 2025-06-15 14:48 m516606428 阅读(115) 评论(0) 推荐(0)
摘要: 在梯度下降法(SGD)中使用 “-” 号的本质,是为了让参数沿着损失函数下降最快的方向更新。以下从数学原理、几何直观和代码实现三个维度展开解析: 一、数学推导:梯度的负方向是函数下降最快的方向 1. 梯度的定义与方向 假设损失函数为 \(L(\theta)\),其中 \(\theta\) 是模型参数 阅读全文
posted @ 2025-06-15 13:57 m516606428 阅读(112) 评论(0) 推荐(0)
摘要: Transformer 与传统线性模型(y=wx+b)的参数对应关系 在深度学习中,层数和参数规模是模型复杂度的两个关键维度。理解 Transformer 这类大型模型与简单线性模型的对应关系,有助于从本质上把握模型设计的核心思想。 一、传统线性模型(y=wx+b)的参数规模 1. 单层线性模型 对 阅读全文
posted @ 2025-06-15 13:38 m516606428 阅读(214) 评论(0) 推荐(0)
摘要: 随机梯度下降(Stochastic Gradient Descent,SGD)是机器学习中最基础的优化算法之一,其核心思想是通过迭代更新参数来最小化损失函数。以下是 SGD 的公式、变种及关键特性的详细解析: 一、SGD 基础公式与推导 1. 核心公式 假设损失函数为 \(L(\theta; x, 阅读全文
posted @ 2025-06-15 13:21 m516606428 阅读(295) 评论(0) 推荐(0)