摘要: 调试一个CUDA核函数过程中发现一个奇怪的问题:调用某个核函数,程序耗时33秒,并且主要时间是main()函数结束后的33秒;而注释掉此核函数,程序执行不到1秒。 由此可见,可能是某种栈溢出,导致了程序运行异常。但是,为什么程序的效果看起来是在main函数结束后还继续卡死这么长时间呢?并且没有任何c 阅读全文