中国超级计算机为什么不能为AI提供算力?
网上看到这样的帖子:
https://www.zhihu.com/question/609008408/answer/3130831897

==========================================================
我个人搞了十多年的计算机,其中大部分时间都是搞AI相关,10多年前的时候就学过cuda编写bp模型,可以说算得上国内这领域的老鸟了,前段时间阴差阳错的成为了东北沿海某城市的AI计算中心的准总监(技术leader),虽然后来感觉待遇各方面不是很满意而选择回村种地,但是对于AI计算中心的超算平台一直难于进行AI算力的提供却有着比较深的切身体会。
个人的总结是两点:
一是费用问题:
或者说是性价比的问题,要知道大部分的AI任务都不需要太多的计算资源(这里指的是几十块甚至上百块显卡,上百个CPU甚至上千的CPU),一般的AI任务往往就是一个CPU+一个RTX4090显卡就够,总的造价在2W以内,而你要知道在超算平台的AI设备上只要你运行就是一个小时20多元甚至40元、50元,换句话说同样的钱自己买个设备用上5年都可以,但是用超算中心的设备也就是一个月不到就花光的钱,因此小规模的计算(20卡以内的)任务我所接触到的都是自建运算环境,而不是去买所谓的超算平台的AI算力,当然你如果是国家科研单位的那就不用怕,就像我在某沿海985大学读书的时候所有的花销都是走国家级项目报销的,自然也就不存在费用这个问题了,而这个问题对于中小型的企业来说却很致命,因为对于中小型企业来说根本这就是不划算的买卖。对于为什么超算平台的费用一直无法降呢,我想这里面有设备费用、人员维护费用、电费、空调费、场地建设费等等在里面,就拿其中的电费来说,超算中心假如有1000个服务器,它的负载只有10%,那它也绝对不可以把不用的900台服务器关机来省电,而在一个中小企业来说它就是可以把没有计算任务的服务器关机来省电的,也正是因为这样的问题所以导致超算中心的使用费用无法降低,而中小企业又难以接受超算中心如此不具备性价比的方案。
二是技术问题:
前面说的费用问题或许还能要人容易理解,但是后面的技术问题可能确实要一些不了解的人搞不清楚情况,这一个个超算中心都是几十亿上百亿的投资,怎么还会存在技术问题解决不了呢,这花钱不就行了吗,但是这确实是现实情况。国家级别的超算我没有管过,这是实话,但是省市一级的我却比较有经验了,这里说的也是这种情况,这些超算中心往往没有专门的技术人员来管理,所谓的挂名的技术人员也就只是国企、事业单位中的普通的所谓的“技术人员”,如果你想指望这些人员能够提供什么服务那就是多想了的。而一些企业的自建对外的超算中心,比如某个做路由器交换机起家的手机厂商也是以销售为主,并不以技术服务为主,说的直白一些就是只管卖而不管技术维护,而实际上使用超算往往是在技术上要难以单机模式下的,这个超算平台的软件安装,环境配置以及用户的project中代码的适配都是需要专业技术人员来服务的,而这些事情对于现在国内的省市一级的超算往往是无法做到的,这些超算中心的技术leader往往都是当地的985高校的博士生、研究生,一般都是院长博导的嫡系学生,和上面说的上话那种的学生,然后给推到这些铁饭碗的单位,这也就在某种程度上印证了那么一句话,那就是“国企事业单位是没有真正意义上的技术岗位的”。
总的来说,国内的超算平台一个是费用太高难以接受,一个是无人维护和管理而导致难以使用,或许这就是国内超算AI平台的现状吧。
-------------------------------------------------------------------
国内的超算平台一般都是异构计算模式,当然也有一部分是只提供CPU服务的,不过大部分都是CPU+GPU的异构计算,那主机一个个都是A100的卡,看着这些卡空着有时也感慨国家这么大的资金投入也就是打了水漂了,毕竟这成百亿上千亿的钱造航空母舰估计都够造好几个的了。
-------------------------------------------------------------------
posted on 2023-07-26 21:05 Angry_Panda 阅读(356) 评论(0) 收藏 举报
浙公网安备 33010602011771号