04 2025 档案

摘要:2025阿贝尔奖公布了! 刚刚,78岁的日本京都大学教授Masaki Kashiwara(柏原正树)荣获数学界「诺贝尔奖」。 挪威科学与文学院决定将其授予柏原,以表彰其对代数分析和表示论领域做出的基础贡献,特别是「D-模」(D-modules)理论,以及晶体基结构的发现。 柏原是阿贝尔奖首位日本国籍 阅读全文
posted @ 2025-04-26 05:21 吴建明wujianming 阅读(122) 评论(0) 推荐(0)
摘要:OpenAI竟觊觎上了谷歌浏览器? 周二法庭听证会上,ChatGPT负责人Nick Turley掷地有声地宣告: 若联邦法庭强制谷歌剥离Chrome,OpenAI将毫不犹豫出手收购。 添加图片注释,不超过 140 字(可选) 他在法庭上作证,去年7月,OpenAI曾请求获取谷歌搜索数据开发Searc 阅读全文
posted @ 2025-04-26 05:17 吴建明wujianming 阅读(33) 评论(0) 推荐(0)
摘要:现在的智能汽车,一般都有智舱和智驾两个控制器。量产车型还要分成高、中、低等不同的配置,进而导致控制器的配置不同。 比如高配车型用顶级芯片,能实现城区领航辅助。中配中端芯片,实现高速领航。低配用入门芯片,具备LCC和主动安全功能。 三个配置芯片不同,就意味着需要开发三个控制器,配套的底软和应用程序也得 阅读全文
posted @ 2025-04-26 05:11 吴建明wujianming 阅读(76) 评论(0) 推荐(0)
摘要:会“思考”的机器人: 焊接精度控制在0.1毫米 在神奇的人工智能领域,具身智能成为热门话题。它强调机器人通过物理实体与周围环境实时互动,从而实现感知、认知、决策和行动的一体化,这也让“机器能否思考?”这个哲学问题有了新解。在长沙,中南智能作为行业的探索者,牵头承担国家重点研发计划“智能机器人”专项, 阅读全文
posted @ 2025-04-26 04:54 吴建明wujianming 阅读(40) 评论(0) 推荐(0)
摘要:随着半导体先进制程和工艺的发展,摩尔定律的发展逐渐趋于极限。因此,chiplet的概念迅速发展起来。Chiplet(芯粒)是指预先制造好、具有特定功能、可组合集成的晶片(Die,也叫裸片)。通过Chiplet架构,可以将不同功能,不同工艺节点的裸片通过2D、2.5D或3D的封装方式,异构集成在一起。 阅读全文
posted @ 2025-04-26 04:44 吴建明wujianming 阅读(283) 评论(0) 推荐(0)
摘要:6本书推荐《MLIR编译器原理与实践》、《ONNX人工智能技术与开发实践》、《AI芯片开发核心技术详解》、《智能汽车传感器:原理·设计·应用》、《TVM编译器原理与实践》、《LLVM编译器原理与实践》 由清华大学出版社资深编辑赵佳霓老师策划编辑的新书《MLIR编译器原理与实践》已经出版,京东、淘宝天 阅读全文
posted @ 2025-04-26 04:39 吴建明wujianming 阅读(15) 评论(0) 推荐(0)
摘要:方向一、计算成像与图像处理(文章1-6) 方向二、超表面与光学设计(文章7-9) 1 通过单发无监督深度神经网络对 3D 积分图像进行去噪 Denoising 3D integral images by a single-shot unsupervised deep neural network 作 阅读全文
posted @ 2025-04-25 06:25 吴建明wujianming 阅读(32) 评论(0) 推荐(0)
摘要:Analysis of three-dimensional pinhole diffraction of deep ultraviolet converging light with a large numerical aperture 作者:Renju Peng, Yong Zhou, and B 阅读全文
posted @ 2025-04-25 06:22 吴建明wujianming 阅读(23) 评论(0) 推荐(0)
摘要:2025上海车展电驱动系统现场实拍 原创 驱动视界 驱动视界 2025年04月23日 23:41 上海 添加图片注释,不超过 140 字(可选) 添加图片注释,不超过 140 字(可选) 添加图片注释,不超过 140 字(可选) 添加图片注释,不超过 140 字(可选) ▲汇川 添加图片注释,不超过 阅读全文
posted @ 2025-04-25 04:50 吴建明wujianming 阅读(209) 评论(0) 推荐(0)
摘要:“有些系统不是为今天设计的,而是为一个尚未到来的世界预备的。 MLIR 是这样一个系统。 它想统一 AI 编译的碎片,却最终成了所有人都在用、没人能统一的工具。 不是它不够好,而是现实不允许它成功。 这是一个结构主义者造梦的故事,也是技术理想在产业逻辑中反复折叠的一次回声。 一、那年我们一起造框架 阅读全文
posted @ 2025-04-25 04:40 吴建明wujianming 阅读(464) 评论(0) 推荐(0)
摘要:要不是因为这个周末北京出现了极端大风,明天就是“2025北京亦庄半程马拉松暨人形机器人半程马拉松”开跑的时间。目前,这一赛事将延期到4月19日举行。那么,面对到时候可能扑面而来的具身智能机器人、智能机器人、人形机器人等概念,你能分得清么?别着急,看这篇文章就行。 添加图片注释,不超过 140 字(可 阅读全文
posted @ 2025-04-25 04:24 吴建明wujianming 阅读(128) 评论(0) 推荐(0)
摘要:6本书推荐《MLIR编译器原理与实践》、《ONNX人工智能技术与开发实践》、《AI芯片开发核心技术详解》、《智能汽车传感器:原理·设计·应用》、《TVM编译器原理与实践》、《LLVM编译器原理与实践》 由清华大学出版社资深编辑赵佳霓老师策划编辑的新书《MLIR编译器原理与实践》已经出版,京东、淘宝天 阅读全文
posted @ 2025-04-25 04:18 吴建明wujianming 阅读(12) 评论(0) 推荐(0)
摘要:近日,中共中央机关刊《求是》杂志(2025年07期)刊发中国科学院党组书记、院长侯建国《深化科研院所改革 赋能科技强国建设》署名文章。求是网对此发表《科研院所进一步深化改革的新形势新要求》评论文章。 文中提到,目前“破四唯”不彻底和“立新标”不及时同时存在,一些科研院所还在为争“牌子”耗费大量时间精 阅读全文
posted @ 2025-04-24 05:02 吴建明wujianming 阅读(66) 评论(0) 推荐(0)
摘要:做算力供给方和需求方的“桥梁”,让国内中小型企业都有算力可用。 过去几个月,DeepSeek在全球AI生态掀起一股强势的“鲶鱼效应”,大模型领域为期两年的开闭源之争终于出现里程碑式转折,开源路线第一次闯出了逼近闭源SOTA水平的模型,AI平权真正成为了可能。 随之而来的,是包括应用、AI Infra 阅读全文
posted @ 2025-04-24 04:46 吴建明wujianming 阅读(65) 评论(0) 推荐(0)
摘要:添加图片注释,不超过 140 字(可选) 大数据文摘出品 微软的BitNet b1.58 2B4T 的技术报告悄然上线。 其实在开源社区里,关于极致低比特量化的大模型早就有各种传闻,这次微软研究院终于亮出底牌。 ——全球首个原生1-bit、规模高达20亿参数的开源大模型。 添加图片注释,不超过 14 阅读全文
posted @ 2025-04-24 04:37 吴建明wujianming 阅读(96) 评论(0) 推荐(0)
摘要:6本书推荐《MLIR编译器原理与实践》、《ONNX人工智能技术与开发实践》、《AI芯片开发核心技术详解》、《智能汽车传感器:原理·设计·应用》、《TVM编译器原理与实践》、《LLVM编译器原理与实践》 由清华大学出版社资深编辑赵佳霓老师策划编辑的新书《MLIR编译器原理与实践》已经出版,京东、淘宝天 阅读全文
posted @ 2025-04-24 04:30 吴建明wujianming 阅读(13) 评论(0) 推荐(0)
摘要:2025年上海车展展前分析报告 添加图片注释,不超过 140 字(可选) 添加图片注释,不超过 140 字(可选) 添加图片注释,不超过 140 字(可选) 添加图片注释,不超过 140 字(可选) 添加图片注释,不超过 140 字(可选) 添加图片注释,不超过 140 字(可选) 添加图片注释,不 阅读全文
posted @ 2025-04-23 04:48 吴建明wujianming 阅读(44) 评论(0) 推荐(0)
摘要:在连连亏损下,曾经的AI四小龙开始学着贴地飞行。 4月10日,商汤科技发布了“日日新V6”大模型,多模态能力对标国际水平,数理分析超越GPT-4o。 添加图片注释,不超过 140 字(可选) 凭借着新模型的优越表现,商汤科技在大众面前终于怒刷了下存在感。 谁还记得在八九年前,商汤科技与旷视科技、云从 阅读全文
posted @ 2025-04-23 04:39 吴建明wujianming 阅读(66) 评论(0) 推荐(0)
摘要:还有人记得十年前那波智慧停车的大浪潮吗? 2015年前后的互联网+智慧停车,让这个不起眼的赛道在资本的推动下,一时成了投资和创业市场上炙手可热的项目。因为车牌识别技术横空出世,加上中国城市化基建狂飙的大背景,在停车这条细分赛道爆发出巨大的风暴。由etcp以互联网+停车场的模式入场,掀起了智慧停车第一 阅读全文
posted @ 2025-04-23 04:33 吴建明wujianming 阅读(66) 评论(0) 推荐(0)
摘要:6本书推荐《MLIR编译器原理与实践》、《ONNX人工智能技术与开发实践》、《AI芯片开发核心技术详解》、《智能汽车传感器:原理·设计·应用》、《TVM编译器原理与实践》、《LLVM编译器原理与实践》 由清华大学出版社资深编辑赵佳霓老师策划编辑的新书《MLIR编译器原理与实践》已经出版,京东、淘宝天 阅读全文
posted @ 2025-04-23 04:24 吴建明wujianming 阅读(16) 评论(0) 推荐(0)
摘要:寒武纪这份年报,像是一杯加了冰块的烈酒——入口刺激,后劲复杂。先说亮点吧,这公司2024年营收涨了65%,冲到11.7亿,尤其是云端芯片直接爆了1187%的增长,简直像坐上了火箭。 寒武纪这速度堪比煎饼摊开进金融街——过去靠路边摊养活(前几年小几亿营收),现在写字楼白领排队扫码支付,说明产品确实被客 阅读全文
posted @ 2025-04-22 04:57 吴建明wujianming 阅读(141) 评论(0) 推荐(0)
摘要:在高性能计算领域的技术角逐中,剑指NVIDIA NVLink 的 UALink 联盟于近期正式发布 1.0 标准。在研究具体技术细节之前,让我们先拨开技术迷雾,回溯这场互联标准之争的江湖恩怨。 当前智算集群架构中,围绕着GPU存在三大互连,分别是业务网络互连、Scale Out网络互连、Scale 阅读全文
posted @ 2025-04-22 04:47 吴建明wujianming 阅读(437) 评论(0) 推荐(0)
摘要:在当今时代,随着航空技术的日新月异、空域管理政策的逐步优化,低空经济正以前所未有的活力蓬勃兴起,宛如一颗冉冉升起的璀璨新星,照亮了各个产业领域,为人类的生产生活带来了翻天覆地的变革,勾勒出一幅充满无限可能的未来画卷。接下来,让我们一同深入探寻低空经济这一宝藏领域的 60 个精彩应用场景。 一、交通运 阅读全文
posted @ 2025-04-22 04:40 吴建明wujianming 阅读(438) 评论(0) 推荐(0)
摘要:6本书推荐《MLIR编译器原理与实践》、《ONNX人工智能技术与开发实践》、《AI芯片开发核心技术详解》、《智能汽车传感器:原理·设计·应用》、《TVM编译器原理与实践》、《LLVM编译器原理与实践》 由清华大学出版社资深编辑赵佳霓老师策划编辑的新书《MLIR编译器原理与实践》已经出版,京东、淘宝天 阅读全文
posted @ 2025-04-22 04:30 吴建明wujianming 阅读(31) 评论(0) 推荐(0)
摘要:“从打工到创业:新时代职场必备的思维转型指南” Hello,我是Yoyo!今天和大家聊聊一个老生常谈却越来越重要的话题:为什么在今天的时代,不论是打工还是创业,我们都需要具备“创业思维”。在快速变化的职场中,仅靠一份工作打拼一辈子的想法已经显得有些不合时宜了。AI、芯片行业的崛起,科技的飞速发展,让 阅读全文
posted @ 2025-04-21 04:24 吴建明wujianming 阅读(78) 评论(0) 推荐(0)
摘要:添加图片注释,不超过 140 字(可选) 添加图片注释,不超过 140 字(可选) 添加图片注释,不超过 140 字(可选) 添加图片注释,不超过 140 字(可选) 一、报告概览 项目 内容 出海背景 中国汽车产业借助电动化、智能化实现全球竞争力,从制造大国转型出口强国。 出口趋势(2020-20 阅读全文
posted @ 2025-04-21 04:19 吴建明wujianming 阅读(292) 评论(0) 推荐(0)
摘要:电院作为办学规模最大的王牌学院,升格为全校目前唯一的“学部”,由学校副职领导分别担当学部党政负责人。 18日,上海交通大学宣布首个AI周在本周末启动,并透露在2025年计算机科学排名“CS Rankings”中,其计算机学科的人工智能分项,位列排行榜全球第一。当天,交大正式官宣推出“AI十条”,全面 阅读全文
posted @ 2025-04-21 04:14 吴建明wujianming 阅读(123) 评论(0) 推荐(0)
摘要:6本书推荐《MLIR编译器原理与实践》、《ONNX人工智能技术与开发实践》、《AI芯片开发核心技术详解》、《智能汽车传感器:原理·设计·应用》、《TVM编译器原理与实践》、《LLVM编译器原理与实践》 由清华大学出版社资深编辑赵佳霓老师策划编辑的新书《MLIR编译器原理与实践》已经出版,京东、淘宝天 阅读全文
posted @ 2025-04-21 04:05 吴建明wujianming 阅读(119) 评论(0) 推荐(1)
摘要:Meta前脚刚发Llama 4,后脚就有大佬请辞了! 一亩三分地的爆料贴称,经过反复训练后,Llama 4未能取得SOTA,甚至与顶尖大模型实力悬殊。 为了蒙混过关,高层甚至建议: 在后训练阶段中,将多个benchmark测试集混入训练数据。 在后训练阶段中,将多个benchmark测试集混入训练数 阅读全文
posted @ 2025-04-20 04:51 吴建明wujianming 阅读(28) 评论(0) 推荐(0)
摘要:充满想象力的MIT大牛团队,又有新作了! 大佬Max Tegmark、Ziming Liu等人在一项新研究中发现,AI能够在没有任何先验知识的情况下,能够完全独立地提出哈密顿物理量。 添加图片注释,不超过 140 字(可选) 论文地址:https://arxiv.org/pdf/2504.02822 阅读全文
posted @ 2025-04-20 04:45 吴建明wujianming 阅读(58) 评论(0) 推荐(0)
摘要:历时近一个月,终于完稿。 通渠有道携绿色慧联正式发布累计第七份专题研究成果、也是行业首份货车辅助驾驶深度研究报告——《2025年货车辅助驾驶行业研究报告》。 本报告属通渠有道【战略洞察】业务主要产品,原定售价13.9万元,本次继续以“ 0元”高质量分享。完整版报告46页,请文末扫码下载。 通渠有道希 阅读全文
posted @ 2025-04-20 04:33 吴建明wujianming 阅读(110) 评论(0) 推荐(0)
摘要:6本书推荐《MLIR编译器原理与实践》、《ONNX人工智能技术与开发实践》、《AI芯片开发核心技术详解》、《智能汽车传感器:原理·设计·应用》、《TVM编译器原理与实践》、《LLVM编译器原理与实践》 由清华大学出版社资深编辑赵佳霓老师策划编辑的新书《MLIR编译器原理与实践》已经出版,京东、淘宝天 阅读全文
posted @ 2025-04-20 04:21 吴建明wujianming 阅读(30) 评论(0) 推荐(0)
摘要:“智能座舱资源正在融合当中,打造一流智舱研发能力,”4月15日,在极氪四周年发布会上,吉利控股集团总裁、极氪CEO安聪慧如是回应《财经》的提问。 “整合还会继续。未来,吉利会打造一款通用型的智能座舱底座,搭配不同规格的芯片,适配不同价格区间与用户需求的车型。”《财经》自一位参与整合业务的知情人处获悉 阅读全文
posted @ 2025-04-19 05:50 吴建明wujianming 阅读(30) 评论(0) 推荐(0)
摘要:用说人话的方式讲解MCP 目前各种MCP的文章和实际例子以及开源工具层出不穷,本文试图用最简单的方式解释下MCP解决什么问题和MCP怎么写的问题。 为啥要用MCP MCP是一项专为LLM工具化操作设计的轻量化标准协议,其核心目标是构建LLM与异构软件系统间的通用指令交互框架。与传统的单一功能调用机制 阅读全文
posted @ 2025-04-19 05:46 吴建明wujianming 阅读(186) 评论(0) 推荐(0)
摘要:使用免费GPU服务器的必要性在于其显著降低深度学习、科学计算等高算力任务的门槛,帮助个人开发者、学生及初创企业节省硬件成本 。 一、主流免费GPU平台推荐 九天·毕昇平台 特点:中国移动推出的AI算力平台,注册即送1000-3000算力豆,可免费使用V100显卡(显存32GB)、支持Jupyter/ 阅读全文
posted @ 2025-04-19 05:32 吴建明wujianming 阅读(873) 评论(0) 推荐(0)
摘要:6本书推荐《MLIR编译器原理与实践》、《ONNX人工智能技术与开发实践》、《AI芯片开发核心技术详解》、《智能汽车传感器:原理·设计·应用》、《TVM编译器原理与实践》、《LLVM编译器原理与实践》 由清华大学出版社资深编辑赵佳霓老师策划编辑的新书《MLIR编译器原理与实践》已经出版,京东、淘宝天 阅读全文
posted @ 2025-04-19 05:27 吴建明wujianming 阅读(15) 评论(0) 推荐(0)
摘要:K.3.3 共享内存共享内存采用32个存储体的组织结构,连续的32位字依次映射到相邻存储体。每个存储体每个时钟周期可提供32位带宽。 当线程束发起共享内存请求时,若两个线程访问同一32位字内的地址(即使地址位于相同存储体)不会引发存储体冲突: 对于读取操作:该字将通过广播机制传送至所有请求线程 对于 阅读全文
posted @ 2025-04-13 05:02 吴建明wujianming 阅读(41) 评论(0) 推荐(0)
摘要:G.4 优化内存复用CUDA通过两种方式实现内存复用:‣ 图内复用:基于虚拟地址分配的虚拟内存与物理内存复用(类似流顺序分配器机制)‣ 图间复用:通过虚拟别名技术实现物理内存复用,不同图可将相同物理内存映射到各自的独立虚拟地址 G.4.1 图内地址复用CUDA可能通过为生命周期不重叠的不同内存分配分 阅读全文
posted @ 2025-04-13 04:54 吴建明wujianming 阅读(78) 评论(0) 推荐(0)
摘要:上图可通过以下示例代码生成: __global__ void launchFireAndForgetGraph(cudaGraphExec_t graph) { cudaGraphLaunch(graph, cudaStreamGraphFireAndForget);}void graphSetup 阅读全文
posted @ 2025-04-13 04:42 吴建明wujianming 阅读(49) 评论(0) 推荐(0)
摘要:6本书推荐《MLIR编译器原理与实践》、《ONNX人工智能技术与开发实践》、《AI芯片开发核心技术详解》、《智能汽车传感器:原理·设计·应用》、《TVM编译器原理与实践》、《LLVM编译器原理与实践》 由清华大学出版社资深编辑赵佳霓老师策划编辑的新书《MLIR编译器原理与实践》已经出版,京东、淘宝天 阅读全文
posted @ 2025-04-13 04:25 吴建明wujianming 阅读(14) 评论(0) 推荐(0)
摘要:SEMICON China作为全球规模最大的半导体年度盛会,其内容不容错过,因为这里是了解全球产业格局、前沿技术以及市场趋势的重要窗口,同时也是分享全球业界领袖智慧和视野的绝佳平台。 SEMICON/FPD China 2025将于2025年3月26日至3月28日在上海新国际博览中心举办。时间:20 阅读全文
posted @ 2025-04-12 04:40 吴建明wujianming 阅读(332) 评论(0) 推荐(0)
摘要:当智能手表精准测量血氧饱和度,当环保部门实时监测水体污染,当糖尿病患者无痛检测血糖值,这些看似神奇的场景背后,都藏着一位"隐形翻译官"——电化学传感器。这种将化学信号转化为电信号的装置,正在用独特的"嗅觉"改变人类认知世界的维度。 添加图片注释,不超过 140 字(可选) 一、技术原理:微观世界的" 阅读全文
posted @ 2025-04-12 04:35 吴建明wujianming 阅读(103) 评论(0) 推荐(0)
摘要:在国家促消费政策推动下,很多省市出台并逐步落实了相应促消费政策,叠加车展、主机厂厂补加码等线下活动的全面启动,3月车市延续2月的新能源强势增长态势。由于新能源车面对俄罗斯销量较低,因此新能源出口也表现好于燃油车,新能源车出口创出新高。 3月新能源乘用车批发销量达到113万辆,同比增长35%,环比增长 阅读全文
posted @ 2025-04-12 04:27 吴建明wujianming 阅读(70) 评论(0) 推荐(0)
摘要:6本书推荐《MLIR编译器原理与实践》、《ONNX人工智能技术与开发实践》、《AI芯片开发核心技术详解》、《智能汽车传感器:原理·设计·应用》、《TVM编译器原理与实践》、《LLVM编译器原理与实践》 由清华大学出版社资深编辑赵佳霓老师策划编辑的新书《MLIR编译器原理与实践》已经出版,京东、淘宝天 阅读全文
posted @ 2025-04-12 04:10 吴建明wujianming 阅读(14) 评论(0) 推荐(0)
摘要:智人表现为一个有创造力的人。人类的力量体现在创造并传承那些无形、抽象价值的能力上。数学蕴含着古老的智力技术,能够使人类避免错误判断。思维的绝对正确性是人类自由的必要条件。其中一个生动的例子就是前苏联数学家谢尔盖·利沃维奇·索伯列夫(Sergei Lvovich Sobolev 1908-1989)参 阅读全文
posted @ 2025-04-11 05:18 吴建明wujianming 阅读(56) 评论(0) 推荐(0)
摘要:2025年4月10日,中国上海——芯原股份 (芯原,股票代码:688521.SH) 今日宣布推出其新一代低复杂度增强视频编码 (LCEVC) 视频解码器IP——VC9000D_LCEVC。其与芯原的VC9000D基础视频解码器协同工作,可提供高达8K超高清的解码能力,满足高性能、低功耗的视频处理需求 阅读全文
posted @ 2025-04-11 05:09 吴建明wujianming 阅读(75) 评论(0) 推荐(0)
摘要:近日,上海芯片独角兽紫光展锐官网显示,紫光展锐的公司名称,由“紫光展锐(上海)科技有限公司”变更为“紫光展锐(上海)科技股份有限公司”。自此,紫光展锐股份制改革全面完成。 添加图片注释,不超过 140 字(可选) 根据工商信息,公司股改已于3月31日完成变更登记,而此前的3月20日,紫光展锐已召开股 阅读全文
posted @ 2025-04-11 05:00 吴建明wujianming 阅读(70) 评论(0) 推荐(0)
摘要:6本书推荐《MLIR编译器原理与实践》、《ONNX人工智能技术与开发实践》、《AI芯片开发核心技术详解》、《智能汽车传感器:原理·设计·应用》、《TVM编译器原理与实践》、《LLVM编译器原理与实践》 由清华大学出版社资深编辑赵佳霓老师策划编辑的新书《MLIR编译器原理与实践》已经出版,京东、淘宝天 阅读全文
posted @ 2025-04-11 04:47 吴建明wujianming 阅读(23) 评论(0) 推荐(0)
摘要:Radeon GPU上使用ROCm一些技术点 1. 使用最新的高端AMD Radeon™7000系列GPU,将桌面变成机器学习平台 AMD已扩展了对RDNA™3 GPU上机器学习开发的支持,该GPU具有Radeon™软件,适用于Linux 24.10.3和ROCm™6.1.3! 使用PyTorch、 阅读全文
posted @ 2025-04-10 04:49 吴建明wujianming 阅读(93) 评论(0) 推荐(0)
摘要:英伟达GPU为 CUDA 添加Python 今年,英伟达可谓是全力押注,明确表示要确保 Python 成为 CUDA 并行编程框架中的“一等公民”。 多年以来,英伟达为 GPU 开发的 CUDA 软件工具包始终缺少原生 Python 支持,现如今这种情况终于有所转变。在近期的 GTC 大会上,英伟达 阅读全文
posted @ 2025-04-10 04:36 吴建明wujianming 阅读(86) 评论(0) 推荐(0)
摘要:6本书推荐《MLIR编译器原理与实践》、《ONNX人工智能技术与开发实践》、《AI芯片开发核心技术详解》、《智能汽车传感器:原理·设计·应用》、《TVM编译器原理与实践》、《LLVM编译器原理与实践》 由清华大学出版社资深编辑赵佳霓老师策划编辑的新书《MLIR编译器原理与实践》已经出版,京东、淘宝天 阅读全文
posted @ 2025-04-10 04:22 吴建明wujianming 阅读(34) 评论(0) 推荐(0)
摘要:添加图片注释,不超过 140 字(可选) 三维异构集成技术是什么? 三维异构集成技术(3D Heterogeneous Integration)是一种将不同工艺节点、不同功能(如逻辑芯片、存储、传感器等)的芯片通过垂直堆叠和先进互连技术整合在单一封装内的解决方案。该技术旨在突破传统平面集成的限制,提 阅读全文
posted @ 2025-04-09 16:00 吴建明wujianming 阅读(409) 评论(0) 推荐(0)
摘要:ROCm的编程模型 HIP(Heterogeneous Compute Interface for Portability,可移植异构计算接口) 是一种厂商中立的C++编程模型,用于实现高度优化的GPU 工作负载。它类似于CUDA,是一种C++方言,支持模板、类、lambda 和其他C++构造。 H 阅读全文
posted @ 2025-04-09 05:18 吴建明wujianming 阅读(130) 评论(0) 推荐(0)
摘要:基础设施差距不大,软件栈ROCm丰富度远低于CUDA 编译器方面,ROCm HCC 通用性更强,NVCC 只针对[n1] [2] NVIDIA硬件去做的,在使用上主要是用户习惯的差异,其余差异不大。 CUDA与ROCm编译及工具链具体情况,见表2-4。 表2-4 CUDA与ROCm编译及工具链 CU 阅读全文
posted @ 2025-04-09 05:10 吴建明wujianming 阅读(160) 评论(0) 推荐(0)
摘要:芯片封装与晶圆制造杂谈 104家!主要晶圆厂汇总 阅读全文
posted @ 2025-04-09 05:01 吴建明wujianming 阅读(18) 评论(0) 推荐(0)
摘要:6本书推荐《MLIR编译器原理与实践》、《ONNX人工智能技术与开发实践》、《AI芯片开发核心技术详解》、《智能汽车传感器:原理·设计·应用》、《TVM编译器原理与实践》、《LLVM编译器原理与实践》 由清华大学出版社资深编辑赵佳霓老师策划编辑的新书《MLIR编译器原理与实践》已经出版,京东、淘宝天 阅读全文
posted @ 2025-04-09 04:56 吴建明wujianming 阅读(21) 评论(0) 推荐(0)
摘要:ROCm运行时架构 ROCm运行时架构OpenCL Demo,如图1-33所示。 图1-33 ROCm运行时架构OpenCL Demo OpenMP测试: 进入目录/opt/rocm-5.1.0/llvm/examples/openmp/veccopy,执行如下编译: /opt/rocm-5.1.0 阅读全文
posted @ 2025-04-07 04:53 吴建明wujianming 阅读(32) 评论(0) 推荐(0)
摘要:开发OpenCL内核测试用例 前面的例子只有主机侧的代码,没有GPU运行的代码,实际上没有调用AMDGPU的异构计算能力,参考网上的代码,写一个实现两个一维向量加和的内核,投到AMDGPU上得到计算结果: #include <stdio.h> #include <stdlib.h> #include 阅读全文
posted @ 2025-04-07 04:48 吴建明wujianming 阅读(44) 评论(0) 推荐(0)
摘要:基于AMDGPU如何运行OpenCL测试用例 参考CPU算例的OpenCL的例子,写一个OpenCL的helloworld demo,这个并不太难,因为OpenCL是开源机构Khronos Group定义的标准,在这个标准下所有的头文件,运行时标准等都是定义好的,所以源码级没有太多改动,基本上拷贝过 阅读全文
posted @ 2025-04-07 04:42 吴建明wujianming 阅读(60) 评论(0) 推荐(0)
摘要:AMDGPU对CUDA支持方式的分析 实现方式是针对HIP API(Heterogeneous-Computing Interface for Portability)做CUDA的接口套壳,即将cuda的API接口作为标准接口,用AMD ROCm实现cuda的API(目的就是保证对外的API与CUD 阅读全文
posted @ 2025-04-07 04:36 吴建明wujianming 阅读(185) 评论(0) 推荐(0)
摘要:ROCm平台简单分析 在启动docker的测试命令中,传入一个设备参数--device=/dev/kfd,转到DOCKER环境,kfd表示AMDGPU异构计算的GPU设备驱动(KMD)的设备节点,它是用户操作GPU的基础。AMD GPU设备驱动流程简单分析,如图1-24所示。 图1-24 AMD G 阅读全文
posted @ 2025-04-07 04:33 吴建明wujianming 阅读(145) 评论(0) 推荐(0)
摘要:6本书推荐《MLIR编译器原理与实践》、《ONNX人工智能技术与开发实践》、《AI芯片开发核心技术详解》、《智能汽车传感器:原理·设计·应用》、《TVM编译器原理与实践》、《LLVM编译器原理与实践》 由清华大学出版社资深编辑赵佳霓老师策划编辑的新书《MLIR编译器原理与实践》已经出版,京东、淘宝天 阅读全文
posted @ 2025-04-07 04:28 吴建明wujianming 阅读(51) 评论(0) 推荐(0)
摘要:标量ALU和控制格式 1. SOP2 标量格式,两个输入,一个输出。如图5-41所示。 图5-41 SOP2标量格式,两个输入,一个输出 2. 格式SOP2 描述这是一个标量指令,有两个输入和一个输出。后面可以跟一个32位的文字常量。 3. SOP1 有一个16位带符号立即(SIMM16)输入和一个 阅读全文
posted @ 2025-04-02 16:51 吴建明wujianming 阅读(24) 评论(0) 推荐(0)
摘要:11. 使用VOP3编码的VOP1 这种格式的指令也可以编码为VOP3。这允许访问额外的控制位(例如ABS、OMOD),以换取不能使用文字常数。VOP3操作码为:VOP2操作码+0x140,如图5-33所示。 图5-33 VOP3操作码为:VOP2操作码+0x140 12. VOPC说明 VOPC的 阅读全文
posted @ 2025-04-02 16:48 吴建明wujianming 阅读(46) 评论(0) 推荐(0)
摘要:数据共享操作 本地数据共享(LDS)是一种延迟非常低的临时数据RAM,其有效带宽至少比直接、无缓存的全局内存高一个数量级,允许在工作组中的工作项之间共享数据。与只读缓存不同,LDS允许内存空间的高速写到读重用(完全收集/读取/加载和分散/写入/存储操作)。 1. 数据共享概述 显示了使用OpenCL 阅读全文
posted @ 2025-04-02 16:41 吴建明wujianming 阅读(63) 评论(0) 推荐(0)
摘要:2. 缓冲区寻址 缓冲区是内存中的一种数据结构,用索引和偏移量进行寻址。索引指向特定的步长字节记录,偏移量是记录字节偏移量,见表5-6。步幅来自资源,索引来自VGPR(或零),偏移来自SGPR或VGPR,也来自指令本身,见表5-7。 表5-6 用于寻址的缓冲指令字段 字段 大小 说明 inst_of 阅读全文
posted @ 2025-04-02 16:35 吴建明wujianming 阅读(23) 评论(0) 推荐(0)
摘要:向量ALU运算(上) 向量ALU指令(VALU)对64个线程中的每个线程的数据,执行算术或逻辑运算,并将结果写回VGPR、SGPR或EXEC掩码。 1. 微码编码 大多数VALU指令有两种编码:VOP3的64位和32位两种。使用64位指令并具有全方位的功能,使用32位编码中提供了一组有限的功能。一些 阅读全文
posted @ 2025-04-02 16:30 吴建明wujianming 阅读(54) 评论(0) 推荐(0)
摘要:6本书推荐《MLIR编译器原理与实践》、《ONNX人工智能技术与开发实践》、《AI芯片开发核心技术详解》、《智能汽车传感器:原理·设计·应用》、《TVM编译器原理与实践》、《LLVM编译器原理与实践》 由清华大学出版社资深编辑赵佳霓老师策划编辑的新书《MLIR编译器原理与实践》已经出版,京东、淘宝天 阅读全文
posted @ 2025-04-02 16:27 吴建明wujianming 阅读(21) 评论(0) 推荐(0)
摘要:AMDGPU对CUDA支持方式的分析 实现方式是针对HIP API(Heterogeneous-Computing Interface for Portability)做CUDA的接口套壳,即将cuda的API接口作为标准接口,用AMD ROCm实现cuda的API(目的就是保证对外的API与CUD 阅读全文
posted @ 2025-04-01 19:54 吴建明wujianming 阅读(235) 评论(0) 推荐(0)
摘要:AMD GPU平台简单分析 在启动docker的测试命令中,传入一个设备参数--device=/dev/kfd,转到DOCKER环境,kfd表示AMDGPU异构计算的GPU设备驱动(KMD)的设备节点,它是用户操作GPU的基础。AMD GPU设备驱动流程简单分析,如图1-19所示。 图1-19 AM 阅读全文
posted @ 2025-04-01 19:51 吴建明wujianming 阅读(98) 评论(0) 推荐(0)
摘要:从引言中“Dennard Scaling”的失效开始,引入GPU出现的背景,又介绍了GPU的通用性,以及高并发、低延迟保证的高计算速度。随后,我们以最常见的CUDA为例,介绍了GPU编程的基础,SIMT与SIMD,编译链接的过程。最后,我们深入硬件层面,分为三步走,先用最简系统“run起来”,然后分 阅读全文
posted @ 2025-04-01 19:25 吴建明wujianming 阅读(24) 评论(0) 推荐(0)
摘要:6本书推荐《MLIR编译器原理与实践》、《ONNX人工智能技术与开发实践》、《AI芯片开发核心技术详解》、《智能汽车传感器:原理·设计·应用》、《TVM编译器原理与实践》、《LLVM编译器原理与实践》 由清华大学出版社资深编辑赵佳霓老师策划编辑的新书《MLIR编译器原理与实践》已经出版,京东、淘宝天 阅读全文
posted @ 2025-04-01 19:11 吴建明wujianming 阅读(22) 评论(0) 推荐(0)