合集-人工智能
摘要:摘要 《Attention Is All You Need》论文开创性地提出Transformer架构,彻底改变了自然语言处理领域的技术路径。该论文解决了传统RNN/CNN模型的三大痛点:通过自注意力机制实现全局语义捕捉,摆脱了序列处理的低效性;多头注意力设计支持并行计算,大幅提升训练效率;缩放点积注意力有效解决长距离依赖问题。Transformer的核心创新包括:1)完全基于注意力机制取代循环结构;2)编码器-解码器堆叠架构;3)残差连接和层归一化优化训练稳定性。这一架构为GPT、BERT等大模型奠定了基
阅读全文
摘要:摘要 2020年发表的《Language Models are Few-Shot Learners》(GPT-3论文)开创了AI新时代。该论文突破性地证明:当Transformer模型参数规模扩大到1750亿时,仅通过文本交互即可实现任务无关的少样本学习。GPT-3采用"预训练+提示词"的新范式,无需微调就能在翻译、问答等40+任务上展现强大性能。论文系统验证了模型在语言建模、闭卷问答等9类任务中的表现,其中在LAMBADA长文本任务上准确率达86.4%,较此前最优提升18.4%。这一研
阅读全文
摘要:摘要: 论文《LoRA: Low-Rank Adaptation of Large Language Models》提出了一种高效的大模型微调方法,通过冻结预训练权重并插入可训练的低秩矩阵($\Delta W = B \cdot A$),显著降低参数规模(仅为原模型的0.01%-0.2%)。实验表明,LoRA在GLUE和生成任务上性能媲美甚至超越全量微调,同时实现无推理延迟、显存占用降低2/3等优势。该技术解决了传统微调资源消耗大的问题,成为大模型适配的主流方案,兼容多种Transformer架构,推动了大
阅读全文
摘要:本文解读OpenAI关键论文《Training Language Models to Follow Instructions with Human Feedback》,该研究提出了人类反馈强化学习(RLHF)框架,解决大模型与人类意图对齐的问题。论文通过三步法:有监督微调、奖励模型训练和强化学习优化,使1.3B的InstructGPT在人类评估中胜过175B的GPT-3,输出偏好率达85%。模型在真实性、安全性和指令遵循方面显著提升,幻觉率从41%降至21%,毒性输出减少25%。
阅读全文
摘要:摘要: 《检索增强生成(RAG)在知识密集型NLP任务中的应用》这篇论文提出了一种创新方法,通过结合检索与生成技术,解决了传统语言模型在知识密集型任务中的四大痛点:知识更新成本高、缺乏可解释性、容易产生幻觉以及知识存储效率低。RAG框架将预训练检索器(基于DPR)与生成器(基于BART)结合,并利用外部知识库(如维基百科),实现了端到端的“先检索后生成”流程。论文提出的两种变体——RAG-Sequence(固定文档生成)和RAG-Token(动态切换文档)——分别适用于不同任务场景。实验证明,RAG在开放域
阅读全文
摘要:复旦NLP团队2023年发表的综述《The Rise and Potential of Large Language Model Based Agents》系统构建了LLM智能体的通用框架,提出以"大脑(LLM决策)-感知(多模态理解)-行动(工具调用)"为核心的技术范式,突破传统智能体的任务局限性。文章涵盖单智能体、多智能体协作、人机交互及智能体社群四大应用场景,并指出工具SKMA体系、安全护栏、结果检查三大落地关键。通过效用、社交性、价值观、进化能力四维评估体系,以及AGI
阅读全文
摘要:《Switch Transformers:用简单高效的稀疏化实现万亿参数模型》论文解读
本文深入解析了Google提出的Switch Transformers架构,该论文通过创新的稀疏化设计解决传统MoE模型的路由复杂性和训练不稳定性问题。核心创新在于简化路由机制(单专家选择)、优化负载均衡策略(辅助损失函数+专家容量设计)和开发三重并行架构(数据+模型+专家并行)。实验表明,稀疏模型在相同计算预算下,预训练速度提升4-7倍,下游任务性能显著优于密集模型,如1.6万亿参数的Switch-C在TriviaQA
阅读全文
摘要:前言 当AI编程从“代码编写”变成“对话创作”,技术创新的门槛正在被彻底打破。Google Gemini 3.0的发布,用颠覆性的Canvas功能重新定义了AI工具的使用场景——无需一行代码,仅凭自然语言描述就能在浏览器里“聊”出可用的应用程序。无论是产品经理快速验证原型,还是普通用户实现创意想法,
阅读全文
摘要:@目录前言一、Gemini3 Build界面准备二、精准提示词设计(核心步骤)提示词设计逻辑解析:三、效果演示(生成后功能实测)1. 手势控制粒子缩放与扩散2. 多模型切换功能3. 颜色自定义功能4. 简洁现代的界面与全屏控制预览与导出方式:四、扩展方向:总结 前言 Gemini3横空出世,网上对其
阅读全文
摘要:@目录前言核心提示词(直接复制使用)效果演示(Gemini 3生成后实际表现)1. 权限处理效果2. 摄像头画面与手部标注3. 3D粒子手跟随效果4. 淡出与再生效果总结 前言 Gemini3横空出世,网上对其的评价颇为一致,都认为其是近期以来的最佳大模型,并且很多博主通过Gemini3很快的做出了
阅读全文
摘要:@目录引言准备工作:环境搭建步骤一:获取应用代码步骤二:安装项目依赖步骤三:启动开发服务器步骤四:授权与使用项目结构解析常见问题与解决方案总结 引言 前几篇博客中我们介绍了用gemini3搭建了几个非常有意思的app,但是只在网页上运行肯定是满足不了我们的需求的,这篇博客讲教大家如何把app部署到自
阅读全文
摘要:引言 在计算机视觉(CV)领域的漫长发展中,卷积神经网络(CNN)凭借其固有的平移等变性和局部归纳偏置,长期占据绝对主导地位。从LeNet到ResNet,再到EfficientNet,CNN的网络结构迭代不断推动着视觉任务性能的突破。然而,2020年一款全新模型的出现,彻底打破了这一格局——它将自然
阅读全文
摘要:@目录前言一、Gemini3快速上手:从输入到生成游戏的核心步骤1. 访问与登录Gemini3并进入Build界面二、 创造并精准输入提示词(核心)三、 生成代码并调试运行四、效果演示:沉浸式粒子躲避体验1. 开始界面:随机变换颜色的迷幻霓虹初始界面2. 视觉表现:动态流体背景+彩虹轨迹2. 核心玩
阅读全文
摘要:随着AI技术的普及,Google AI Studio中的Gemini模型成为不少开发者和创作者的常用工具。但很多用户在访问时会遇到一个棘手问题——无法成功进入平台,页面仅显示“Google AI Studio 和 Gemini API 的可用区域”列表,导致无法正常使用服务。这种情况并非单一原因导致,我结合自身排查经历和大量用户反馈,整理出三种核心场景及对应的全方位解决方法,帮你快速突破访问障碍。
阅读全文
摘要:摘要:MinerU 2.5-2509-1.2B 是由 OpenDataLab 推出的开源 PDF 提取工具,支持精准的布局分析、公式识别和表格提取。本文详细介绍了在 Linux 系统下的部署流程:首先确保满足硬件要求(8核CPU、8GB以上显存GPU);然后通过 Conda 创建 Python 3.10 环境并安装 magic-pdf 核心包;接着从 ModelScope 下载预训练模型权重;配置关键路径后,即可通过命令行或 Web UI 进行 PDF 转换。文章还提供了常见问题的解决方案,如显存溢出处理等
阅读全文
摘要:本文详细介绍了如何在Linux服务器上本地部署智谱AI开源的GLM-4V-9B多模态视觉模型。主要内容包括:环境准备(Ubuntu系统、24GB显存等)、模型下载(推荐使用ModelScope加速)、核心部署代码实现图文对话功能,并提供了显存优化方案(4-bit量化)和高并发推理方案(vLLM部署)。文章还包含常见问题排查指南,帮助用户快速解决部署过程中的典型错误。通过本地部署该模型,可有效保护数据隐私并降低长期使用成本,适用于智能办公、医疗影像等多个场景。
阅读全文
摘要:本文介绍了如何在单卡24G显存环境下运行Flux.1-dev文生图大模型。首先需完成Hugging Face授权并获取Token,然后通过ModelScope镜像站快速下载35GB模型文件。关键步骤包括:1)安装必要依赖库;2)使用顺序CPU卸载技术(enable_sequential_cpu_offload)解决显存不足问题;3)编写优化后的推理脚本。文中提供了完整的代码示例和常见错误解决方案,特别适合国内用户在有限显存条件下运行这一开源最强文生图模型。
阅读全文
摘要:本文介绍了NewBie-image-Exp0.1动漫图像生成模型的部署教程。该模型基于Next-DiT架构,具有3.5B参数,支持XML结构化提示词。文章详细说明了硬件要求(16GB显存、Linux/Windows系统、Python 3.10+等环境)和依赖安装方法,特别针对网络受限环境提供了本地安装技巧。重点解决了源码中的"浮点数索引"、"维度不匹配"等核心Bug,并提供了自动修复脚本。最后给出了手动组装组件的推理脚本实现方案,帮助用户稳定运行模型生成图像。
阅读全文
摘要:Clawdbot是一个多功能智能体(Agent),具备文件操作、代码执行、联网搜索等能力。本文详细介绍了其安装配置流程: 环境准备:全新安装Node.js(v22+/v24+)或彻底卸载旧版后安装新版,需确保环境变量配置正确; 权限设置:在PowerShell中解锁脚本执行权限; 一键安装:通过官方脚本自动部署主程序; 初始化向导:选择QuickStart模式,配置基础技能(Skills)和API(如Qwen或OpenAI),暂跳过高级选项。 完成上述步骤后即可启动Clawdbot,后续可扩展远程控制等功能
阅读全文
摘要:阿里通义千问APP在2026年春节期间推出"30亿免单送奶茶"活动,通过AI Agent技术实现"一句话点单"的便捷体验,3小时内订单突破百万。活动成功验证了AI从聊天工具向"主动办事助手"的转型,但也暴露了系统在高并发下的技术短板:API网关崩溃、数据库过载和GPU显存溢出等问题。该活动展现了阿里在大模型技术、生态整合(高德、支付宝等)和成本控制(自研芯片)方面的独特优势,为AI Agent的商业化落地提供了重要参考,同时也揭示了工程化能力仍需突
阅读全文
摘要:摘要: CyberArcanum 赛博秘仪是一款融合神秘学仪式感与前沿技术的数字塔罗工具,旨在通过AI和交互设计重构传统占卜体验。其核心创新包括: 手势选牌:基于Google MediaPipe实现手部动作交互,用户通过挥动和握拳完成选牌仪式,全程本地处理保障隐私; 沉浸式流程:从输入困惑到AI解牌,每个环节(如暗金界面、3D翻牌动效)强化仪式感,避免传统数字塔罗的"点击抽卡"简化; 深度对话:集成DeepSeek API提供个性化流式解读,支持多轮追问,使AI成为引导自我探索的&quo
阅读全文

浙公网安备 33010602011771号