会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
第七子007
博客园
首页
新随笔
联系
订阅
管理
上一页
1
2
3
4
5
6
7
···
22
下一页
2025年2月2日
LLM大模型:deepseek浅度解析(二):R1的GRPO原理
摘要: chatGPT3.5、4.0、4o这些版本发布后,因为效果相比以往的NLP产品比,确实有质的提升,所以引起了很大的轰动。但也有部分AI学术巨头吐槽说transformer架构根本不是真正的AGI,原理上讲本质就是个统计模型:通过海量训练数据的统计信息来计算next token的概率,并不具备真正的思
阅读全文
posted @ 2025-02-02 12:42 第七子007
阅读(8902)
评论(1)
推荐(2)
2025年1月27日
LLM大模型:deepseek浅度解析(一):V3的差异化
摘要: 这几天被deepseek刷屏了:凡是和AI沾边的博主,无一例外不介绍deepseek的!一时间deepseek热度蹭蹭上窜,风头无限,看的其他国产AI大模型厂商直瞪眼!deepseek是一家叫做幻方的量化投资公司出品,可谓是师出名门,这个大模型到底有啥独特之处了? 一个大模型的效果好不好,主要看以下
阅读全文
posted @ 2025-01-27 21:42 第七子007
阅读(4137)
评论(0)
推荐(0)
2025年1月13日
LLM大模型:Process Reinforcement through Implicit Rewards:PRIME 强化学习模型分析,超过GPT-4o?
摘要: 1、众所周知,可商用的成熟大模型训练分四个步骤: pre-train:大量未标记的语料做auto-regression,此步骤初步完成LLM权重的赋值。经过此阶段的LLM,类似人类小学生的水平,还无法有针对性的回答问题; supervised Fine-tuning:用 {instruction,i
阅读全文
posted @ 2025-01-13 14:52 第七子007
阅读(618)
评论(0)
推荐(1)
2025年1月7日
LLM大模型:Reinforcement Learning-强化学习中思维链中COT、TOT和GOT的前世今生
摘要: 这一轮爆火的AI热潮是被transformer架构点燃的, 根据scanling law的观点, transformer这个架构有个显著的特点:大力出奇迹!计算量C=6*ND,N是模型参数,D是token数。N越大,网络压缩、承载信息的能力越大,但是需要的token也就越多,需要的算力也越多,这就是
阅读全文
posted @ 2025-01-07 15:52 第七子007
阅读(1412)
评论(0)
推荐(0)
2024年12月20日
LLM大模型: 多模态特征提取网络架构feather engineering侧的奇技淫巧
摘要: 传统的机器学习,用的分类器或回归模型,诸如logistics regression/softmax、svm、naive bayes、decision tree、random forest、GBDT、xgboost等,最核心的要点就是要人工构造特征了。好的特征能让准确率、覆盖率等指标提升十几个~几十个
阅读全文
posted @ 2024-12-20 17:46 第七子007
阅读(1222)
评论(0)
推荐(0)
2024年12月12日
LLM大模型: mamba的诞生和改进点
摘要: transformer的核心attention机制效果出奇地好,诞生了chatGPT这种里程碑式milestone的产品,但是attention机制本身的缺点也很明显:time & space complexity 高达 O(N^2); transformer架构2017年发的论文,至今已7年了,时
阅读全文
posted @ 2024-12-12 09:33 第七子007
阅读(683)
评论(0)
推荐(0)
2024年12月4日
LLM大模型: CV领域常见attention思路变种及其作用(二)
摘要: attention机制的效果非凡,但本身也是有缺陷的:Q*K矩阵的复杂度高达O(n^2);如果用在CV领域,还涉及到如下问题: 局部性、全局性 稀疏性 多尺度问题 为了更好地把attention机制应用于CV,上述的几个问题是需要解决的! 1、DilateFormer: Multi-Scale Di
阅读全文
posted @ 2024-12-04 11:45 第七子007
阅读(275)
评论(0)
推荐(0)
2024年11月29日
LLM大模型: CV领域常见attention思路变种及其作用(一)
摘要: 多年前做传统的机器学习,主要用的是LR、SVM、bayes、浅层nerual network、decision tree、random forest、GBDT等,这些分类或回归模型要想AUC、ROC等指标高,最核心的就是构造特征了!为此还专门诞生了一个细分领域:feather enginering,
阅读全文
posted @ 2024-11-29 15:19 第七子007
阅读(330)
评论(0)
推荐(1)
2024年11月4日
LLM大模型: Segment Anything Model原理详解
摘要: meta在2023.4.5又发了image sematic segmentation的文章,名字就叫Segment Anything;学术圈有个潜规则:title越简单,事情越大,比如7年前的那篇 attention is all you need,直接提升了nlp的层次!这次的Segment An
阅读全文
posted @ 2024-11-04 11:44 第七子007
阅读(3233)
评论(0)
推荐(0)
2024年10月30日
LLM大模型: Maskformer/Mask2Former语义分割原理详解
摘要: 1、自动驾驶、机器人、电商、监控等行业都涉及到image的sematic segmentation,传统的方式:per-pixel classification,每个像素点都要分类;如果进一步做 instance-level segmentation,可能还要改network architure后重
阅读全文
posted @ 2024-10-30 17:36 第七子007
阅读(2912)
评论(0)
推荐(0)
上一页
1
2
3
4
5
6
7
···
22
下一页
公告