上一页 1 ··· 7 8 9 10 11 12 13 14 15 ··· 19 下一页
摘要: http://http.developer.nvidia.com/GPUGems2/gpugems2_chapter37.html 阅读全文
posted @ 2013-03-13 20:23 waytofall 阅读(206) 评论(0) 推荐(0)
摘要: http://http.developer.nvidia.com/GPUGems3/gpugems3_ch37.html 阅读全文
posted @ 2013-03-13 14:30 waytofall 阅读(164) 评论(0) 推荐(0)
摘要: https://devtalk.nvidia.com/default/topic/409587/best-way-of-traversing-an-octree-in-cuda-/ 阅读全文
posted @ 2013-03-12 18:51 waytofall 阅读(246) 评论(0) 推荐(0)
摘要: http://www.iti.fh-flensburg.de/lang/algorithmen/sortieren/networks/indexen.htm 阅读全文
posted @ 2013-03-12 17:17 waytofall 阅读(174) 评论(0) 推荐(0)
摘要: http://news.slashdot.org/story/04/03/04/028253/five-free-calculus-textbookshttp://www.squidoo.com/calculus-books 阅读全文
posted @ 2013-03-06 15:15 waytofall 阅读(265) 评论(0) 推荐(0)
摘要: 前言:由于有人要考C语言计算机二级,编程零基础,要我入入门。我就把QQ聊天记录整理一下,再把未讲完的东西继续讲下去,希望为以后做类似工作也省省力。对于有多年编程经验的资深程序员来说,这些着实小菜。而且由于为了应付二级考试,严格的说也不能算真正的计算机基础讲解。但其实我想,基础应该是最难的。硬件,操作系统,编译器,算法,哪一个不是计算机里面最重要也是最难啃的部分?而对于一个没有编程基础的人来说,想去快速入门编程,只能以一种很傻瓜的方式去灌输,只能把很多东西说的很浅显,很死,甚至是错误。如果不是这样,哪能让一个人快速的上手呢?遥想自己当年学习c语言,从老师的嘴里得来的,也不过是一些傻瓜的理解,而解 阅读全文
posted @ 2013-03-06 00:38 waytofall 阅读(15613) 评论(0) 推荐(2)
摘要: CUDA存储器模型:GPU片内:register,shared memory;板载显存:local memory,constant memory, texture memory, texture memory,global memory;host 内存: host memory, pinned memory.register: 访问延迟极低; 基本单元:register file (32bit/each) 计算能力1.0/1.1版本硬件:8192/SM; 计算能力1.2/1.3版本硬件: 16384/SM; 每个线程占有的register有限,编程时不要为其分配过多私有变量;local mem 阅读全文
posted @ 2013-02-25 16:09 waytofall 阅读(883) 评论(0) 推荐(0)
摘要: 虽然用的繁体字,但是颇有高屋建瓴的味道,对于初学者尤其是对硬件架构不熟悉的人,在看了看官方的Programming Guide后,有一些地方感觉醍醐灌顶。http://www2.kimicat.com/gpu%E7%9A%84%E7%A1%AC%E9%AB%94%E6%9E%B6%E6%A7%8B 阅读全文
posted @ 2013-02-21 23:40 waytofall 阅读(222) 评论(0) 推荐(0)
摘要: http://www.opengpu.org/forum.php?mod=viewthread&tid=2635 阅读全文
posted @ 2013-02-19 22:58 waytofall 阅读(304) 评论(0) 推荐(0)
摘要: 其实这两天一直不知道什么叫bank conflict冲突,这两天因为要看那个矩阵转置优化的问题,里面有讲到这些问题,但是没办法,为了要看懂那个bank conflict冲突,我不得不去找资料,说句实话我现在不是完全弄明白,但是应该说有点眉目了,现在我就把网上找的整理一下,放在这边,等哪天完全弄明白了我就在修改里面的错误。Tesla的每个SM拥有16KB共享存储器,用于同一个线程块内的线程间通信。为了使一个half-warp内的线程能够在一个内核周期中并行访问,共享存储器被组织成16个bank,每个bank拥有32bit的宽度,故每个bank可保存256个整形或单精度浮点数,或者说目前的ba.. 阅读全文
posted @ 2013-02-19 14:04 waytofall 阅读(3324) 评论(0) 推荐(0)
上一页 1 ··· 7 8 9 10 11 12 13 14 15 ··· 19 下一页