Fork me on GitHub
摘要: DeepSpeed Chat:轻松、快速且经济地在所有规模上对 ChatGPT 类模型进行 RLHF 训练 要引用 DeepSpeed Chat,请引用我们的arxiv 报告: @article{yao2023dschat, title={{DeepSpeed-Chat: Easy, Fast an 阅读全文
posted @ 2025-05-08 16:02 stardsd 阅读(14) 评论(0) 推荐(0)
摘要: https://github.com/NVIDIA/DALI DALI库的核心优势在于其GPU加速能力。传统的数据预处理过程大多在CPU上执行,包括数据的加载、解码、裁剪、调整大小等操作,这些操作往往是计算密集型的,且受限于CPU的计算能力。而DALI库通过将部分或全部数据预处理任务卸载到GPU上执 阅读全文
posted @ 2025-05-08 15:38 stardsd 阅读(24) 评论(0) 推荐(0)
摘要: 在大模型训练中,通信成本是影响训练效率的关键瓶颈之一。数据并行(Data Parallelism) 和 张量并行(Tensor Parallelism) 通过各自的策略来降低通信开销、提升效率。下面从它们的通信特点和优化方式来分析。 一、数据并行(Data Parallelism) 原理: 每个 G 阅读全文
posted @ 2025-05-08 15:29 stardsd 阅读(104) 评论(0) 推荐(0)
摘要: 一、问题背景 随着AIGC领域的兴起,各大厂商都在训练和推出自研的大模型结构,并结合业务进行落地和推广。在大模型分布式训练场景中,主流的主要是基于英伟达GPU进行训练(如A100),如何有效地压榨GPU的计算能力,提升训练效率,降低训练成本,是一个非常重要的实践优化问题。 1.1 直接目标 最直接地 阅读全文
posted @ 2025-05-08 14:58 stardsd 阅读(74) 评论(0) 推荐(0)
摘要: 使用 uv 管理多个虚拟环境(venv)时,可以做到 快速、高效、干净地切换项目环境。 🎯 一、最佳实践:每个项目一个虚拟环境 建议把虚拟环境放在项目目录内或统一放在一个专用目录,比如: 项目目录下的 .venv/ 统一放到 ~/.venvs/<项目名>/ 🚀 二、uv 管理多个 venv 的基 阅读全文
posted @ 2025-04-21 10:25 stardsd 阅读(781) 评论(0) 推荐(0)
摘要: 【深度解析】谷歌A2A(Agent2Agent)协议:AI智能体协作的未来基石 📝 摘要:谷歌A2A(Agent2Agent)协议为AI智能体之间的开放协作与通信提供了标准化框架。本文系统梳理A2A协议的设计理念、核心机制、典型实现与应用场景,结合完整代码示例,深入剖析其在多智能体系统中的价值与未 阅读全文
posted @ 2025-04-18 17:18 stardsd 阅读(161) 评论(0) 推荐(0)
摘要: OpenAI Codex Cli 在您的终端中运行的轻量级编码代理 npm i -g @openai/codex 快速入门 全局安装: npm install -g @openai/codex 接下来,将您的 OpenAI API 密钥设置为环境变量: export OPENAI_API_KEY=" 阅读全文
posted @ 2025-04-17 15:09 stardsd 阅读(160) 评论(0) 推荐(0)
摘要: 截至2025年第一季度,国际AI研究呈现技术深化、行业融合加速、基础设施需求旺盛三大趋势。以下从学术突破、技术应用、硬件创新、行业挑战四个维度展开分析: 一、学术研究:模型能力与效率双重突破 知识图谱与大模型融合 蚂蚁集团在NeurIPS 2024提出的KGL(知识图谱语言),通过将知识图谱三元组结 阅读全文
posted @ 2025-03-21 13:20 stardsd 阅读(119) 评论(0) 推荐(0)
摘要: 多智能体系统 (MAS) 由多个人工智能 (AI) 智能体组成,它们共同代表用户或其他系统执行任务。 MAS 中的每个代理都具有各自的属性,但所有代理都会协同工作以实现所需的全局属性。1多 代理系统在完成可能涉及数百甚至数千个代理的大规模复杂任务方面很有价值。2 这一理念的核心是人工智能 (AI)  阅读全文
posted @ 2025-03-06 11:02 stardsd 阅读(289) 评论(0) 推荐(0)
摘要: AI到AI通信:Gibberlink https://github.com/PennyroyalTea/gibberlink 在 ElevenLabs 伦敦黑客马拉松的一次开创性演示中,开发人员推出了 GibberLink,这是一种新颖的协议,可让人工智能语音助手使用针对机器而非人类优化的语言进行交 阅读全文
posted @ 2025-02-27 16:46 stardsd 阅读(177) 评论(0) 推荐(0)
摘要: Transformer体系结构已经成为大型语言模型(llm)成功的主要组成部分。为了进一步改进llm,人们正在研发可能优于Transformer体系结构的新体系结构。其中一种方法是Mamba(一种状态空间模型)。 Mamba: Linear-Time Sequence Modeling with S 阅读全文
posted @ 2025-02-27 14:35 stardsd 阅读(435) 评论(0) 推荐(0)
摘要: MCP全称是Model Context Protocol, 也就是”模型上下文协议”, 是Anthropic这家公司搞的一个AI应用协议。这个东西服务于AI应用(而不是AI模型),之所以强调这个,是因为很多人分不清楚大语言模型与大语言模型应用的差别。 那AI应用为什么需要MCP呢? 大部分大语言模型 阅读全文
posted @ 2025-02-26 14:58 stardsd 阅读(3316) 评论(2) 推荐(1)
摘要: 大模型一体机行业内幕 DeepSeek大模型一体机特点:私有化部署、交付容易、价格低廉,适合内网IT改造和CIO们的创新选择,也是目前被疯抢的原因。 大模型一体机从功能上要分ABC三类:A类:主要是硬件就是机头+AI卡,组成的纯纯的AI硬件服务器。B类:在A类的技术上加上Deepseek模型和开发平 阅读全文
posted @ 2025-02-21 10:56 stardsd 阅读(1033) 评论(0) 推荐(0)
摘要: GPQA The following are 10 questions. Answer each of the multiple choice question. Only use the letter for the answer. What is the world's largest livi 阅读全文
posted @ 2025-02-21 09:42 stardsd 阅读(76) 评论(0) 推荐(0)
摘要: 基本数据并行(DP)在训练模型时,不会降低每个设备的内存占用。在当前配备 32GB 内存的 GPU 上,当模型参数超过 14 亿时,使用 DP 就会出现内存不足的情况。这是因为 DP 会在每个设备上复制完整的模型参数、梯度和优化器状态等模型状态数据。以一个参数规模较大的模型为例,每个设备都要存储完整 阅读全文
posted @ 2025-02-10 15:26 stardsd 阅读(474) 评论(0) 推荐(0)
摘要: 在 DeepSeek 模型中,多头潜在注意力(Multi-Head Latent Attention,MLA) 是一种关键技术,旨在通过低秩压缩方法优化注意力机制的计算效率和内存使用。MLA 通过对键(Key)和值(Value)进行低秩联合压缩,显著减少了推理过程中的键值缓存(KV Cache),在 阅读全文
posted @ 2025-02-05 16:51 stardsd 阅读(2581) 评论(0) 推荐(0)
摘要: 看到DeepSeek-V3使用了多token预测(Multi-token Prediction, MTP)技术,该技术原始论文是由Meta 发在ICML 2024的一篇Poster。 论文: [2404.19737] Better & Faster Large Language Models via 阅读全文
posted @ 2025-01-17 09:35 stardsd 阅读(2038) 评论(0) 推荐(0)
摘要: Generalist AI (AGI) framework based on the principles of embodiment, grounding, causality and memory 图:通用 AGI 系统的功能框图。概念模型由以下部分组成:(1)核心框架、体现,提供与世界接口和交 阅读全文
posted @ 2025-01-14 17:10 stardsd 阅读(50) 评论(0) 推荐(0)
摘要: 类型 主要功能 在LLMs中的实现方法 感官记忆 短暂存储感官信息以供认知系统访问。 缓冲输入/输出系统;感官输入的锁存机制;仿生感官记忆技术。 作为一种缓冲机制,允许认知处理组件在不同速度下工作而不丢失信息。 过滤信息(例如,通过注意机制)以供长期存储。 在线记忆 暂时存储活跃信息以支持认知处理。 阅读全文
posted @ 2025-01-14 16:48 stardsd 阅读(64) 评论(0) 推荐(0)
摘要: 符号嵌入问题(Symbol Grounding Problem)是认知科学、心灵哲学和人工智能中的一个关键问题。它探讨的是符号(或词语)是如何在一个系统中获得意义的。换句话说,抽象符号(如单词或概念)是如何代表现实世界中的对象、行为或经验的? 关键概念 符号表示:指的是将意义编码为抽象符号的理念,例 阅读全文
posted @ 2025-01-14 15:48 stardsd 阅读(190) 评论(0) 推荐(0)
摘要: 空间思考:多模态大型语言模型如何看待、记忆和回忆空间 VSI-Bench:我们引入了一个高质量的基准,用于评估 MLLM 的 3D、基于视频的视觉空间智能 评估:我们在开源和闭源 MLLM 上对 VSI-Bench 进行了评估,发现 MLLM 表现出有竞争力的(尽管不如人类)视觉空间智能。 语言分析 阅读全文
posted @ 2025-01-08 17:07 stardsd 阅读(142) 评论(0) 推荐(0)
摘要: 本文介绍了 NEC 公司研发的利用人工智能自主优化 5G 网络的技术,该技术可实时分析应用状态和无线质量,自主优化 5G 网络,以确保机器人和汽车远程控制所需的可靠性和实时性能。具体内容如下: 技术背景与目标 重要性与问题:5G 网络对数字化转型和高级应用至关重要,但多数应用在通信质量下降时生产力会 阅读全文
posted @ 2024-12-25 15:18 stardsd 阅读(122) 评论(0) 推荐(0)
摘要: 与主要专注于文本生成和回复的传统 LLMs 不同,LAMs 旨在在物理和数字环境中执行动作。 核心观点 LAMs 是 AI 发展的重要方向,能够将 AI 从被动语言理解转变为主动任务完成,在人工智能发展进程中具有重要意义。 LAMs 通过在物理和数字环境中执行动作,实现了从语言交互到实际行动的跨越, 阅读全文
posted @ 2024-12-24 15:46 stardsd 阅读(170) 评论(0) 推荐(0)
摘要: 1. 视频编解码协议和视频传输协议的区别: 视频编解码协议是指在视频采集、压缩、存储、传输和显示过程中,对视频数据进行编码和解码的规则和方法。视频编解码协议的目的是为了减少视频数据的冗余,提高视频质量,降低视频码率,节省网络带宽和存储空间。常见的视频编解码协议有 MPEG-4、H.264、H.265 阅读全文
posted @ 2024-01-06 09:38 stardsd 阅读(1111) 评论(0) 推荐(0)
摘要: 通信的三个层面的问题: 层面A(技术问题):通讯符号如何准确地加以传输? 层面B(语义问题):传输的符号如何精确地传达含义? 层面C(效用问题):收到的含义如何以期望的方式有效地影响行为? 语义通讯泛指不同的智能体之间进行的以“ 达意” 为目的的通讯.这里的“ 智能体” 可以指人类、智能机器甚至其它 阅读全文
posted @ 2024-01-05 21:26 stardsd 阅读(784) 评论(0) 推荐(0)
摘要: 推荐论文: https://arxiv.org/abs/2211.13745 论文摘要:本文研究了设备边缘协同推理系统中 CNN 推理的计算卸载。受新兴语义通信范式的启发,我们提出了一种新颖的基于自动编码器的 CNN 架构(AECNN),用于在终端设备上进行有效的特征提取。我们基于CNN中的通道注意 阅读全文
posted @ 2024-01-05 20:37 stardsd 阅读(276) 评论(0) 推荐(0)
摘要: 课程链接: https://edu.aliyun.com/course/315432/ 课程介绍 高校精品课-华中科技大学 -智能媒体计算 出品讲师:于俊清 课时列表 第0章:学习资源领取 课时0:免费领取云资源额度 第1章:章节一共13课时 课时1:科技革命 28:42 课时2:互联网时代、课程简 阅读全文
posted @ 2024-01-05 17:31 stardsd 阅读(107) 评论(0) 推荐(0)
摘要: 【官方文档地址】:使用 FFmpeg 和 NVIDIA GPU 硬件加速 ( PDF ) 从 Kepler 一代开始的所有 NVIDIA® GPU 都支持完全加速的硬件视频编码和解码。在本文档的其余部分中,硬件编码器和硬件解码器分别称为 NVENC 和 NVDEC。 NVENC和NVDEC的硬件能力 阅读全文
posted @ 2024-01-05 17:00 stardsd 阅读(4068) 评论(0) 推荐(0)
摘要: 我们进行图片分类,做一些人工智能的项目或者利用Python来对图片进行分类,都可以利用到Exif信息。 什么是Exif? Exif是一种图像文件格式,实际上Exif格式就是在JPEG格式头部插入了数码照片的信息,包括拍摄时的光圈、快门、白平衡、ISO、焦距、日期时间等各种和拍摄条件以及相机品牌、型号 阅读全文
posted @ 2023-07-19 14:46 stardsd 阅读(3103) 评论(0) 推荐(0)
摘要: MIME 类型 媒体类型(通常称为 Multipurpose Internet Mail Extensions 或 MIME 类型)是一种标准,用来表示文档、文件或字节流的性质和格式。它在IETF RFC 6838中进行了定义和标准化。 互联网号码分配机构(IANA)是负责跟踪所有官方 MIME 类 阅读全文
posted @ 2023-07-19 14:17 stardsd 阅读(216) 评论(0) 推荐(0)
摘要: 在数位图像处理领域中,色度抽样是指在表示图像时使用较亮度信息为低的分辨率来表示色彩(色度)信息。当对模拟分量视频或者YUV讯号进行数字抽样时,一般会用到色度抽样。 原理 由于存储及发送的限制,信号处理中大多数会偏向被减少(或被压缩)以减低负荷。由于人眼对色度的敏感度不及对亮度的敏感度,图像的色度分量 阅读全文
posted @ 2023-07-19 13:51 stardsd 阅读(481) 评论(0) 推荐(0)
摘要: lumo 是一个精简高效的库,简化了实验所需的所有组件的管理,并特别关注增强深度学习实践者的体验。 实验管理:: 为每次运行分配唯一路径,区分不同类型的文件并存储;通过 git 管理代码快照;记录实验中产生的一切信息,保障可回溯、可复现 参数管理:基于 fire 提供比 argparser 更便捷的 阅读全文
posted @ 2023-07-17 16:35 stardsd 阅读(123) 评论(0) 推荐(0)
摘要: PyTorch已经足够简单易用,但是简单易用不等于方便快捷。特别是做大量实验的时候,很多东西都会变得复杂,代码也会变得庞大,这时候就容易出错。针对这个问题,就有了PyTorch Lightning。它可以重构你的PyTorch代码,抽出复杂重复部分,让你专注于核心的构建,让你的实验更快速更便捷地开展 阅读全文
posted @ 2023-07-17 16:18 stardsd 阅读(583) 评论(0) 推荐(0)
摘要: Kornia 是一款基于 PyTorch 的可微分的计算机视觉库。 它由一组用于解决通用计算机视觉问题的操作模块和可微分模块组成。其核心使用 PyTorch 作为主要后端,以提高效率并利用反向模式自动微分来定义和计算复杂函数的梯度。 概览 受现有开源库的启发,Kornia可以由包含各种可以嵌入神经网 阅读全文
posted @ 2023-07-17 15:53 stardsd 阅读(400) 评论(0) 推荐(0)
摘要: 我们介绍了一种名为可组合扩散(CoDi)的新型生成模型,能够从任意输入模态的任意组合中生成任意组合的输出模态,例如语言、图像、视频或音频。与现有的生成人工智能系统不同,CoDi能够同时生成多个模态,并且其输入不限于文本或图像等子集模态。尽管许多模态组合缺乏训练数据集,我们提出在输入和输出空间中对模态 阅读全文
posted @ 2023-07-11 17:42 stardsd 阅读(244) 评论(0) 推荐(0)
摘要: Elasticsearch 从 2022 年 2 月发布的 8.0 版本开始,提供了基于向量的搜索和自然语言处理(NLP)功能。 下图清楚地展示了向量搜索引擎的工作原理。它涉及以下几个步骤: 将原始实体(如歌曲、图像或文本)转换为数字表示(向量 Embedding); 使用距离度量来表示向量之间的相 阅读全文
posted @ 2023-07-11 16:36 stardsd 阅读(385) 评论(0) 推荐(0)
摘要: LZ77简介 Ziv和Lempel于1977年发表题为“顺序数据压缩的一个通用算法(A Universal Algorithm for Sequential Data Compression )”的论文,论文中描述的算法被后人称为LZ77算法。值得说的是,LZ77严格意义上来说不是一种算法,而是一种 阅读全文
posted @ 2023-07-11 14:21 stardsd 阅读(306) 评论(0) 推荐(0)
摘要: 一、 Web中间件(Web middleware) web中间件是指位于Web服务器和Web应用程序之间的软件组件或库,用于实现附加功能、处理请求和向应用程序提供服务。这些中间件通过提供身份验证、日志记录、路由、缓存、负载平衡等特性,增强了web应用程序的功能和灵活性。 二、 web服务器: web 阅读全文
posted @ 2023-07-09 15:15 stardsd 阅读(1825) 评论(0) 推荐(0)
摘要: Algolia是一个搜索和发现API,帮助公司为其网站和移动应用构建搜索体验。Algolia提供后端API客户端和前端小部件,帮助公司管理其数据并构建搜索体验。Algolia是与数据库无关的,因此可以与任何数据源一起使用,包括NoSQL数据库。 Algolia成立于2012年,由Nicolas De 阅读全文
posted @ 2023-07-02 17:11 stardsd 阅读(75) 评论(0) 推荐(0)
摘要: 一、概述Ο,读音:big-oh;表示上界,小于等于。 Ω,读音:big omega、欧米伽;表示下界,大于等于。 Θ,读音:theta、西塔;既是上界也是下界,称为确界,等于。 ο,读音:small-oh;表示上界,小于。 ω,读音:small omega;表示下界,大于。 Ο是渐进上界,Ω是渐进下 阅读全文
posted @ 2023-06-27 17:03 stardsd 阅读(1628) 评论(0) 推荐(0)