会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
qzero233
博客园
首页
新随笔
联系
订阅
管理
2025年11月1日
手撕深度学习之CUDA矩阵乘法(上篇):从朴素实现到40倍性能提升的优化之旅
摘要: 本文是CUDA矩阵乘法系列文章的上篇。这个系列会从一个最简单的实现出发,逐步优化到cuBLAS标准库86%的性能,并详细介绍其中涉及到的CUDA性能优化技巧。 本文首先给出了一个开箱即用的实验源代码,然后介绍了GPU硬件知识以及3种简单实现,逐步展示了把性能从cuBLAS的0.39%优化到16%,即性能提升40倍的“魔法”。
阅读全文
posted @ 2025-11-01 19:49 QZero
阅读(144)
评论(0)
推荐(0)
2025年9月28日
手撕深度学习之CUDA并行规约算法(下篇):硬核优化5连击,性能暴涨300%!附开箱即用模板,小白也能秒上手!
摘要: 本文为CUDA并行规约系列文章的下篇,本文介绍了5种并行规约算法的实现,并从硬件的角度对它们进行分析和优化,最终给出一个开箱即用的模板代码及其使用示例。
阅读全文
posted @ 2025-09-28 18:28 QZero
阅读(210)
评论(0)
推荐(0)
2025年9月26日
手撕深度学习之CUDA并行规约算法(上篇):硬核揭秘200%性能提升的GPU优化之道,从硬件特性到算法实现的完整进阶指南
摘要: 本文为CUDA并行规约系列文章的上篇,本系列将会介绍CUDA编程的一些基础软硬件知识,然后给出7种规约算法的实现,并从硬件的角度对它们进行分析和优化,最终给出一个开箱即用的模板代码。 本文主要介绍了CUDA编程的基础软硬件知识,并给出了2种规约算法的实现和分析。
阅读全文
posted @ 2025-09-26 18:26 QZero
阅读(224)
评论(0)
推荐(0)
2025年9月12日
张量链式法则(下篇):揭秘Transpose、Summation等复杂算子反向传播,彻底掌握深度学习求导精髓!
摘要: 本文紧接系列的上篇,介绍了 transpose,summation,broadcast_to 等更为复杂的深度学习算子的反向传播公式推导。
阅读全文
posted @ 2025-09-12 14:32 QZero
阅读(143)
评论(0)
推荐(0)
2025年9月11日
张量链式法则(上篇):任意维度反向传播公式推导与常见算子解析
摘要: 本文为常用算子反向传播公式的上篇,介绍了适用于任意张量函数的链式法则公式,使用该公式可以求出诸如reshape,broadcast_to这类会改变张量维度数量的算子的反向传播公式。本文同时给出了求常见算子反向传播公式的通用方法,并以几个简单的算子为例进行了演示。 本系列文章的下篇将用本文提到的公式求解reshape,transpose等更复杂的算子的反向传播公式。
阅读全文
posted @ 2025-09-11 20:29 QZero
阅读(142)
评论(0)
推荐(1)
2025年9月10日
手撕深度学习:矩阵求导链式法则与矩阵乘法反向传播公式,深度学习进阶必备!
摘要: 本文总结了矩阵导数的本质定义,对矩阵求导链式法则公式进行了讨论,并使用矩阵求导链式法则公式推导了矩阵乘法的反向传播公式。
阅读全文
posted @ 2025-09-10 21:07 QZero
阅读(271)
评论(2)
推荐(1)
2025年9月7日
macOS下libnfc 1.8.0写卡失败问题及解决方案
摘要: 本文记录了在mac下使用1.8.0版本的libnfc时写卡失败的问题,并给出了使用1.7.1版本libnfc的解决方案。本文同时在文末记录了使用libnfc对NFC卡片进行复制和编辑的操作步骤。
阅读全文
posted @ 2025-09-07 22:48 QZero
阅读(88)
评论(0)
推荐(0)
2025年8月29日
后端大模型流式输出被springcloud gateway"阻塞"的解决办法
摘要: 本文记录了在使用 springcloud gateway 的场景下,后端流式输出异常的情况,具体表现为大模型返回并没有流式输出,而是一次性全部返回;并且经过测试,直接对业务服务进行请求能够成功进行流式输出。 最终发现,是业务服务返回的 Content-Type 错误导致 gateway 没有按照流式输出返回给前端,只需要修改接口的 Content-Type 即可解决问题。 修改接口 Content-Type 之后,spring web 框架会按照 SSE 标准返回,此时需要前端使用 eventsource-parser 这个开源库对返回的数据进行解析。
阅读全文
posted @ 2025-08-29 18:55 QZero
阅读(242)
评论(0)
推荐(0)
2025年8月3日
记一次酣畅淋漓的js逆向
摘要: 本文记录了对一个混淆后的js脚本的逆向过程,并介绍了过程中遇到的两种js混淆策略与应对方式;与此同时,本文还记录了对于禁止F12调试的站点的破解方法;最后,本文对js逆向与这过程中的AI工具使用情况进行了一些感受分享与讨论。
阅读全文
posted @ 2025-08-03 19:49 QZero
阅读(1660)
评论(4)
推荐(13)
2025年5月19日
SpringBoot微服务HTTPS通信实践:Nacos注册与Feign自签名证书配置指南
摘要: 前言 最近笔者有个项目需要从单体后端迁移到微服务架构后端,使用的技术栈是springboot + nacos + openfeign。为了确保通信安全,所有服务都启用了https。前期不使用https的demo很快就跑通了,但是今天在继续搭建启用https的demo时,遇到了很多坑,在此记录一下,希
阅读全文
posted @ 2025-05-19 22:58 QZero
阅读(116)
评论(0)
推荐(0)
下一页
公告