摘要: 本文是CUDA矩阵乘法系列文章的上篇。这个系列会从一个最简单的实现出发,逐步优化到cuBLAS标准库86%的性能,并详细介绍其中涉及到的CUDA性能优化技巧。 本文首先给出了一个开箱即用的实验源代码,然后介绍了GPU硬件知识以及3种简单实现,逐步展示了把性能从cuBLAS的0.39%优化到16%,即性能提升40倍的“魔法”。 阅读全文
posted @ 2025-11-01 19:49 QZero 阅读(138) 评论(0) 推荐(0)
摘要: 本文为CUDA并行规约系列文章的下篇,本文介绍了5种并行规约算法的实现,并从硬件的角度对它们进行分析和优化,最终给出一个开箱即用的模板代码及其使用示例。 阅读全文
posted @ 2025-09-28 18:28 QZero 阅读(210) 评论(0) 推荐(0)
摘要: 本文为CUDA并行规约系列文章的上篇,本系列将会介绍CUDA编程的一些基础软硬件知识,然后给出7种规约算法的实现,并从硬件的角度对它们进行分析和优化,最终给出一个开箱即用的模板代码。 本文主要介绍了CUDA编程的基础软硬件知识,并给出了2种规约算法的实现和分析。 阅读全文
posted @ 2025-09-26 18:26 QZero 阅读(224) 评论(0) 推荐(0)
摘要: 本文紧接系列的上篇,介绍了 transpose,summation,broadcast_to 等更为复杂的深度学习算子的反向传播公式推导。 阅读全文
posted @ 2025-09-12 14:32 QZero 阅读(143) 评论(0) 推荐(0)
摘要: 本文为常用算子反向传播公式的上篇,介绍了适用于任意张量函数的链式法则公式,使用该公式可以求出诸如reshape,broadcast_to这类会改变张量维度数量的算子的反向传播公式。本文同时给出了求常见算子反向传播公式的通用方法,并以几个简单的算子为例进行了演示。 本系列文章的下篇将用本文提到的公式求解reshape,transpose等更复杂的算子的反向传播公式。 阅读全文
posted @ 2025-09-11 20:29 QZero 阅读(142) 评论(0) 推荐(1)
摘要: 本文总结了矩阵导数的本质定义,对矩阵求导链式法则公式进行了讨论,并使用矩阵求导链式法则公式推导了矩阵乘法的反向传播公式。 阅读全文
posted @ 2025-09-10 21:07 QZero 阅读(271) 评论(2) 推荐(1)
摘要: 本文记录了在mac下使用1.8.0版本的libnfc时写卡失败的问题,并给出了使用1.7.1版本libnfc的解决方案。本文同时在文末记录了使用libnfc对NFC卡片进行复制和编辑的操作步骤。 阅读全文
posted @ 2025-09-07 22:48 QZero 阅读(87) 评论(0) 推荐(0)
摘要: 本文记录了在使用 springcloud gateway 的场景下,后端流式输出异常的情况,具体表现为大模型返回并没有流式输出,而是一次性全部返回;并且经过测试,直接对业务服务进行请求能够成功进行流式输出。 最终发现,是业务服务返回的 Content-Type 错误导致 gateway 没有按照流式输出返回给前端,只需要修改接口的 Content-Type 即可解决问题。 修改接口 Content-Type 之后,spring web 框架会按照 SSE 标准返回,此时需要前端使用 eventsource-parser 这个开源库对返回的数据进行解析。 阅读全文
posted @ 2025-08-29 18:55 QZero 阅读(242) 评论(0) 推荐(0)
摘要: 本文记录了对一个混淆后的js脚本的逆向过程,并介绍了过程中遇到的两种js混淆策略与应对方式;与此同时,本文还记录了对于禁止F12调试的站点的破解方法;最后,本文对js逆向与这过程中的AI工具使用情况进行了一些感受分享与讨论。 阅读全文
posted @ 2025-08-03 19:49 QZero 阅读(1660) 评论(4) 推荐(13)
摘要: 前言 最近笔者有个项目需要从单体后端迁移到微服务架构后端,使用的技术栈是springboot + nacos + openfeign。为了确保通信安全,所有服务都启用了https。前期不使用https的demo很快就跑通了,但是今天在继续搭建启用https的demo时,遇到了很多坑,在此记录一下,希 阅读全文
posted @ 2025-05-19 22:58 QZero 阅读(116) 评论(0) 推荐(0)