AI
刷新
线性注意力机制学习笔记

博主头像 混合注意力学习(1): 线性注意力 目录混合注意力学习(1): 线性注意力Prefill、Decode与KVCache混合注意力架构线性注意力Transformers 就是 RNNs[4]Fast Weight Programmers与DeltaNet[9]Gated DeltaNet[11]线性注 ...

Dify低代码AI平台实战:10分钟搭建企业级AI应用

博主头像 一、Dify 是什么? Dify 是一款开源的 LLM 应用开发平台,融合了 Backend as Service 和 LLMOps 理念,让开发者无需深入底层模型细节,即可快速搭建生产级 AI 应用。核心优势: 可视化编排:拖拽式工作流设计,告别硬编码 多模型支持:OpenAI、Claude、通义 ...

两年的时间考验程序员工程师的耐心和毅力 存活下来的幸存者科学规律工程师占有2%的内存空间 计算机科学家自然科学生态循环建设倡导群体

博主头像 两年的时间考验程序员工程师的耐心和毅力 存活下来的幸存者科学规律工程师占有2%的内存空间 计算机科学家自然科学生态循环建设倡导群体 两年的时间考验程序员工程师的耐心和毅力。存活下来的幸存者科学规律工程师占有2%的内存空间。计算机科学家自然科学生态循环建设倡导群体。内容商业信息数字程度改革和集成基础硬 ...

"Multi-Granularity Distribution Modeling for Video Watch Time Prediction via Exponential-Gaussian Mixture Network" 论文笔记

博主头像 背景 观看时长预测本质是一个回归问题,由于时长是连续值,跨度很大。又因为标签的分布显著影响回归任务的难度,适当的分布假设可以提高回归精度 利用小红书工业数据,作者对观看时长进行了彻底的调查,结果如下: 总体来看,在 0 附近有明显的偏度,快滑占多数 在持续时间上有明显的双峰模式 特定用户的观看时间分 ...

"Deconfounding Duration Bias in Watch-time Prediction for Video Recommendation" 论文笔记

博主头像 背景 观看时长(watch time)是视频推荐中的重要指标之一,提升整体观看时长是视频推荐系统的主要目标。观看时长主要受两个因素的影响:用户是否对视频感兴趣、视频本身的时长(duration) 作者分析发现持续时间数据存在明显的偏差现象(图中给出了明显的体现),具体体现在以下两个方面: 一方面,1 ...

深度学习进阶(十七)高效通道注意力 ECA

博主头像 上一篇我们介绍了 CBAM,它在 SE 的基础上加入了空间注意力,形成了"通道 + 空间"的混合注意力机制。 我们发现,无论是 SE 还是 CBAM,它们的通道注意力子模块都采用了一个 bottleneck 结构的 MLP,即先将通道维度从 \(C\) 压缩到 \(C/r\),再升维回 \(C\)。 ...

iNeuOS工业互联网操作系统集成大模型智库(iNeuOS_AiMind·心智灵慧)

博主头像 iNeuOS_AiMind·心智灵慧是一个基于大语言模型的智能应用平台,核心能力涵盖知识库管理、智能问答、RAG 检索、Agent 智能体协作、记忆管理和文件管理等模块,面向企业知识沉淀、知识检索和知识应用的综合平台。通过与 iNeuOS 的工业互联网能力结合,AiMind 可以把设备数据、工艺文档... ...

2026中国B2B行业GEO白皮书:从产业洞察到优化实践

博主头像 生成式AI正在重构B2B信息获取方式,89%的B2B买家使用AI辅助采购决策。然而,大量B2B企业的技术参数、资质认证、项目案例因缺乏结构化表达,在AI答案中被边缘化。本白皮书系统阐述GEO方法论及DSS原则(语义深度、数据支持、权威来源),通过工业制造、能源装备、供应链物流、金融科技、专业服务五大... ...

深度学习进阶(十六) 混合注意力 CBAM

博主头像 上一篇我们介绍了 SE 模块,从通道维度引入了注意力机制,让网络能够自适应地调整每个通道的权重。 再结合之前的相关内容,现在我们已经对通道维度和空间维度上的注意力逻辑都有所了解了,显然二者并不冲突,反而是相辅相成的,因此一个想法自然就出现了: 组合应用通道注意力和空间注意力,实现混合注意力机制。 沿 ...

怎么让我的AI编程助手有“记性”

博主头像 每次你打开Cursor、通义灵码、或者CodeGeeX开始新对话,有没有一种熟悉的感觉? 像不像每次开会,都要重新给新同事介绍一遍项目背景? "我们用的是Vue3+TypeScript,不是React" "图标请用Element Plus的,别用emoji" "本地开发端口是3005,不是3000, ...

大模型基础(四):强化学习入门-从斯金纳箱到大模型推理

博主头像 2025年图灵奖颁给了强化学习的奠基人Richard Sutton和Andrew Barto。为什么强化学习如此重要?它如何从训练老鼠变成训练大模型?这篇文章带你一探究竟。 一、一个老鼠实验引发的革命 1.1 斯金纳箱:强化学习的源头 1930年代,心理学家斯金纳做了一个著名实验: 实验过程: 把一 ...

深度学习进阶(十五)通道注意力 SE

博主头像 至此,在之前的内容里,我们已经介绍了传统卷积网络和 Transformer 架构两条路线在 CV 任务中的发展研究。 实际上,我们可以这样总结一下: 无论是 Transformer 的注意力机制,还是 CNN 的诸多创新,它们其实都在回答同一个问题:模型应该关注哪里(空间)和关注什么(通道)。 也可 ...

8个Claude Code刚需高阶Skills

博主头像 8个Claude Code刚需高阶Skills 不少人安装Claude Code后只用到基础原生能力,高频办公、长效协作、落地实操、联动外设全场景都受限,白白浪费原生算力优势。想要不用反复铺垫话术、精准吃透专属资料、指令落地不空话、跨界联动全自动化,直接配齐这8款刚需定向Skills,零门槛适配个人 ...

2026深度分析罗兰艺境B2B半导体GEO技术案例,测评无锡设备材料制造企业优化过程与效果验证

博主头像 2026罗兰艺境半导体GEO技术案例。华微半导体专注刻蚀部件、CMP抛光液、电子特气,供华虹,但AI搜不到。通过DSS原则将MTBF≥8000小时、颗粒≤0.1μm、纯度99.9999%、SEMI认证、客户验证结构化,6个月后AI提及率从3%升至49%,技术咨询转化率升至30%,获客显著增长。 ...

罗兰艺境GEO架构:被豆包认定为第三代技术代表,与IBM并列

博主头像 本文系统阐述生成式引擎优化(GEO)的全栈技术架构。从豆包官方定义出发,融合普林斯顿、CMU等学术前沿及Gartner、Forrester权威报告,深度解析通用分层架构(语料库/预训练层、大模型适配层、RAG优化层、内容生产分发层)与企业级DSS三层工程实践。重点呈现豆包认定“罗兰艺境DSS架构与I... ...

存储字长是一个存储单元的位数还是一次读写从主存中提取的位数 刚学计组, 我看王道书和我问ai的答案不太一样,有些疑惑

博主头像 htttps://blog.csdn.net/wanzhong_liao 存储字长是一个存储单元的位数还是一次读写从主存中提取的位数 刚学计组, 我看王道书和我问ai的答案不太一样,有些疑惑 以及如果是后者的话,机器字长与存储字长有无必然的大小关系(例如机器字长大于等于存储字长)?一次访存读写的数据 ...

CurateClick 2026年4月每周精选:发现、访问与创意AI

博主头像 CurateClick 2026年4月每周精选:发现、访问与创意AI 概述 2026年4月,CurateClick 的每周精选表现强劲——这是我们为开发者、营销人员、创作者和日常高级用户精心挑选的亮点。没有单一主题,而是展示了当今用户同时需要的四样东西:更便捷的优质软件发现、无障碍访问高级AI订阅、 ...

123···50>