当微软向动视暴雪挥舞着钞票,试图打造让竞争对手难以匹敌的元宇宙全链条时,为了押宝元宇宙连名字都改了的Facebook又怎么可能坐视不管呢?
当地时间1月24日,Meta官宣了其研究团队的新杰作——AI研究超级集群(AI Research SuperCluster,RSC)。等到2022年年中组装完成时,RSC将成为世界上最快的AI超级计算机。
至于RSC是用来干什么的,那可就是司马昭之心路人皆知了。
比上代性能提升20倍
以Meta目前的硬件技术积累,想要研发出全球最快的AI超算,当然还是需要外力支持。向来在元宇宙领域提供着关键技术支持的英伟达自然是Meta最可靠的盟友,而数据存储公司Pure Storage则在存储领域为RSC提供了基础支撑,企鹅计算公司则负责具体交付,包括提供托管服务和AI优化的基础设施等。
事实上,这并非Meta和英伟达在该领域的第一次合作。早在2017年,Meta就启用了由22000个英伟达GPU构建的第一代AI研究基础设施,每天处理35000项AI训练任务。而Meta的早期基准测试表明,RSC训练大型NLP(Natural Language Process,自然语言处理)模型的速度比之前的系统快3倍,运行视觉计算任务的速度则快了足足20倍。
之所以RSC的性能相比上代突飞猛进,自然离不开最新硬件的加持。目前RSC使用了760个英伟达DGX A100系统作为其计算节点。这些节点在英伟达高达200GB/S的InfiniBand(无限带宽,一种网络通信标准)网络上连接了总共6080个英伟达A100 GPU,能提供1895PFLOPS(每秒浮点运算次数)的TF32(面向深度学习训练的一种数值类型)性能。
在今年晚些时候的第二阶段,RSC将扩展到16000个GPU,Meta认为这些GPU将提供高达5EFLOPS(每秒5亿次计算)的混合精度AI性能。Meta也将扩展RSC的存储系统,以每秒16TB的速度提供高达1EB(1EB=1000PB=100万TB)的数据。
抛开上面这些略显晦涩的专业术语,本质上而言,RSC主要的使命就是帮助Meta构建更好的AI模型。RSC可以从数万亿实例中进行深度学习,跨越数百种语言工作,把文本、图像和视频放在一起分析,以判断内容是否有害。因此,在现阶段,RSC的主要用途是帮助人们在使用Meta旗下的服务时保持安全。当然,Meta在对外声明中也表示,RSC的工作也能在未来建立元宇宙时发挥同样的作用。
不过,虽然这一连串天文数字给人一种“不明觉厉”的感觉,但就整个元宇宙的技术实现路径来看,“地表最强”的RSC也还远远谈不上是元宇宙时代“合格的基础设施”。
瓶颈重重,元宇宙只是一张饼?
在12月18日举办的2021网易未来大会上,英伟达中国区Omniverse负责人何展在主题演讲中曾表示,英伟达认为,距离真正达到大家期盼中的元宇宙实时沉浸的渲染效果,目前的算力还差100万倍。仅从这一点来看,英伟达提出的技术路径图显示,最快也要到2035年才能实现真正的有体验的路径追踪算法的算力。
而另一家芯片巨头英特尔公司则预测,要初步实现元宇宙的虚拟世界,目前还有1000倍的算力差距。作为对比,目前全球最快的超级计算机是日本富士通制造的富岳,其峰值算力为537PFLOPS,而Meta的RSC在AI上的理论算力极限5EFLOPS也不过是富岳的十倍而已。
即便如此,RSC的物理体积已经相当庞大,想要靠堆芯片数的物理方式填平这数千倍到数百万倍的算力鸿沟并不现实。因此,许多人都将算力问题的解决寄望于还停留在实验室阶段的量子计算机。
除了算力,存储则是另一个巨大的瓶颈。以“毛孔级拟真”而在飞行爱好者中广受好评的《微软模拟飞行》,为了实现100%的拟真体验,其数据量已经达到2PB(也即2000TB或200万GB),而目前你能买到的最大容量的硬盘也不过18TB。而《微软模拟飞行》仅仅是对飞行这一个场景的模拟,包罗万象的元宇宙的数据量之庞大,显然又是一个天文数字。
因此,将更海量的数据放在云端,通过RSC这样的超算集群来解决存储和计算问题也就成了公认的最佳解决方案。但这也不可避免地造成了一个新的难题——带宽。这包含两个难题:云端到客户端之间实时数据交换的带宽,以及云端不同服务器之间实时数据交换的带宽。
目前常见的千兆家用光纤宽带,每秒的数据交换量还停留在MB的量级,这显然承担不了实时沉浸的元宇宙带宽诉求。而即便是RSC的每秒16TB的数据交换量,在元宇宙动辄以EB(即100万TB)计的数据量面前,同样显得杯水车薪。
而即便上述的算力、存储和带宽三大技术瓶颈都得以解决,仍有一个最根本的问题摆在所有人面前——能源。想想那些因为电表数字异常而被顺藤摸瓜的挖币黑矿场,仅仅是数百张显卡7*24小时工作就已经让电力系统倍感压力,为维持元宇宙而产生的巨大能源需求以现有的能源供应体系又该如何满足呢?
不过,即使不考虑这些现实问题,RSC本身存在的另一个维度的问题也足以让人感到一丝寒意——伦理风险。
比“天网”更可怕的是“无网”
如果你看过《终结者》系列,上文对RSC的描述多少会让你联想到那张与全人类为敌的“天网”。在电影中,天网是一个人类于20世纪后期创造的以计算机为基础的人工智能防御系统。它最初被用于军事领域的研究发展,但随后天网的自我意识觉醒,并视全人类为威胁,以诱发核弹攻击为起步发动了将整个人类置于灭绝边缘的“审判日”。
以这部电影的视角来看,RSC无疑是在“玩火自焚”。这个地表最强的AI超算集群目前正在做的,就是通过大量深度学习任务让AI更智能,也即努力让其真的具有“自我意识”般的人类智能。而从人类历史发展进程来看,一切最先进的技术最终都必然以各种不同形式服务于军事领域。因此,不止是吃瓜网友,此前已有许多专业人士甚至AI工程师都表达过类似担忧。
不过,从各国政府对元宇宙和人工智能的态度来看,不遗余力地探索和抢占这一科技高地依然是当下的主旋律。其原因也十分简单:比“天网”更可怕的是“无网”。对于相对落后的国家而言,虽然没有了“天网”的风险,但占领技术高地的国家依然可以借助AI技术在科技、经济甚至军事领域对弱国的国家安全造成威胁。
正因如此,不止是Meta,全球各国从政府、科研机构再到企业,都在努力进行着关乎AI、元宇宙和更多未来科技的竞争。可喜的是,中国在这一领域也并没有掉队。在全球超算TOP500榜单上,中国的神威·太湖之光和天河二号都位居世界前十,在金融、气象、国防安全、航空航天等众多领域提供着关键算力支持。
与此同时,虽然不像Meta那样高调,但腾讯、阿里等国内互联网巨头通过多年的云计算业务发展,也已经积累了丰富的超算相关软硬件研发经验,在这场高科技竞争中它们同样居于第一梯队。
而对普通用户而言,既然重仓AI和元宇宙已是大势所趋,与其对伦理风险杞人忧天,不如拥抱变化,享受技术进步带来的红利。相信随着技术和能源瓶颈被不断突破,那个真正能让人沉浸其中的元宇宙也终将从大饼变成现实,让每个人都能看到更多可能。
,