摘要: ​ 很多人对大模型感兴趣,却被名词劝退:Token、Embedding、Attention、Transformer、BERT、GPT、对齐、RAG、Agent……越学越乱。解决方法不是疯狂补数学,而是用一条“由浅入深”的路径先建立知识骨架:先会判断,再逐步深入。 第一步:先把“大模型在做什么”说清楚 阅读全文
posted @ 2026-01-12 18:12 OpenCSG 阅读(5) 评论(0) 推荐(0)
摘要: Transformer 之所以重要,是因为它把“理解一句话”这件事变成了可规模化学习的问题:模型不再按顺序一点点读,而是能在同一时间看见整句(甚至整段)文本,判断词与词之间的关联,然后更新每个词的语义表示。 一、先抓住直觉:词的含义来自上下文 同一个词在不同语境里意思可能完全不同。人类理解靠上下文, 阅读全文
posted @ 2026-01-12 17:09 OpenCSG 阅读(8) 评论(0) 推荐(0)
摘要: GPT 让人第一次强烈感受到:只用自然语言描述需求,系统就能给出像样结果。但当大家想把它用于真实业务时,会立刻遇到一个边界:能输出好文字,不等于能完成任务。 “下一站” 之所以指向智能体(Agent),就是因为智能体把 AI 从 “回答者” 推进为 “执行者”。 一、GPT 的强项:把任务统一成 “ 阅读全文
posted @ 2026-01-12 14:28 OpenCSG 阅读(221) 评论(0) 推荐(0)
摘要: 如果把 AI 的发展看成一条不断升级的“生产力曲线”,大语言模型的出现不是偶然的灵光一闪,而是长期积累在某个节点集中爆发的结果:数据规模更大、算力更强、训练范式更成熟,再加上架构上的关键突破,最终把 AI 从“能做某个任务”推向“能处理一类任务”。 一、“石器时代”:规则与浅层模型,能用但天花板明显 阅读全文
posted @ 2026-01-12 13:54 OpenCSG 阅读(11) 评论(0) 推荐(0)