2025年8月18日

从 “工具” 到 “共生”:GPT-5 藏着哪些颠覆认知的新可能?

摘要: 概要 从GPT-5来看,通用LLM的性能逼近上限,Scaling Law在失灵; 从头部企业来看,MoE取代Dense架构成为了LLM的主流架构; OpenAI开源模型 8 月 6 日,OpenAI 宣布推出两款开源模型 GPT-oss-120b 和 GPT-oss-20b,这是自 2020 年发布 阅读全文

posted @ 2025-08-18 11:56 limingqi 阅读(70) 评论(0) 推荐(0)

大模型训练中max_length参数设置的技巧

摘要: max_length 的设置需要结合具体场景(如任务类型、模型能力、输入输出长度需求等),没有固定的 “标准值”,但有一些常见的设置范围和参考原则,以下是详细说明: 一、常见的 max_length 设置范围 基础场景(短文本交互) 范围:512 到 1024 适用场景:聊天对话(单轮短句)、关键词 阅读全文

posted @ 2025-08-18 11:42 limingqi 阅读(199) 评论(0) 推荐(0)

导航