发布日期:2024-06-09 15:01 点击次数:184
金磊 发自 凹非寺量子位 | 公众号 QbitAI世博shibo登录入口
算力基础方法缔造,北京市有了最新的大当作——
《北京市算力基础方法缔造奉行有谈论(2024-2027年)》。
其中,《有谈论》在“保险次第”中建议了对企业利好的看法:
对采购自主可控GPU芯片开展智能算力处事的企业,按照投资额的一定比例予以支撑,加速完毕智算资源供给自主可控。对主动进行绿色节能修订的存量数据中心,按照投资额的一定比例予以支撑。
对企业扩大资金的举措,意在升迁东说念主工智能算力券政策效用,饱读吹企业用好智能算力资源,加速推动大模子赋能行业应用。
除此以外,在《有谈论》的缱绻目的中,也开释出了一个蹙迫的信号——智算资源供给集群化:
篡改智算缔造“小、散”局面,蚁合缔造一批智算单一大集群。到2025年,本市智算供给范畴达到45EFLOPS,2025-2027年凭据东说念主工智能大模子发展需要和国度干系部署进一步优化算力布局。
为何会如斯?这就要结合当下算力商场的需乞降供给伸开来看了。
一方面,自从ChatGPT问世引爆AIGC以来,大模子的数目可谓是极速增长,单是北京这一座城市,就依然领有122家大模子翻新团队,约占寰宇的一半,大模子数目更是居寰宇首位。关于算力商场的需求之大可见一斑。
不仅如斯,跟着Sora、Suno等应用的问世,大模子的发展闭塞加速驶入多模态阶段,AI算力的需求在Scaling Law为主旋律确当下还会执续高涨。
另一方面,AIGC诚然带火了“N卡”,但目下着眼于民众闭塞是一卡难求的态势,况兼因稀缺导致其价钱日益情随事迁。
而且单从GPU的性能角度来看,即等于英伟达也只可接受加速探讨到达了临界点的事实,算力供给方需要另一种容颜来进行探讨——
通过芯片与芯片间的迷惑工夫,一步步构建出大型AI大范畴算力集群。
聚焦到国内,其实这种“集群”形状也依然紧锣密饱读地在伸开,国内已有不少厂商在不断探索和执行,举例云探讨巨头华为云、AI芯片公司摩尔线程等等。
以摩尔线程为例,就在前不久他们发布了名为夸娥(KUAE)的智算集群处置有谈论,旨在以一体化委派的容颜处置大范畴GPU算力的缔造和运营管制问题,不错大幅裁减传统算力缔造、应用设备和运维运营平台搭建的时候资本。
从这少量来看,国内商场算力的发展是与《有谈论》所建议的“智算资源供给集群化”是相契合的,也从侧面印证着国产GPU智算集群依然到了大势所趋的阶段。
关联词,道路虽已澄澈,但在执行过程当中,尤其是GPU数目达到千卡致使万卡时,集群落地并非是件易事。
那么难点王人有什么?国产GPU又是若何应酬的?咱们连续往下看。
千卡GPU集群落地痛点
领先咱们需要了解GPU集群在本色落地过程中的范畴会达到什么量级。
以Llama 3为例,在它问世之际,Meta就公布了其基础方法确定:
咱们在两个定制的24K GPU集群上作念稽查。
与之肖似的,马斯克的Grok 2据悉稽查依然用了20000张H100,Grok 3更是传出需要惊东说念主的100000张;即使是参数目仅为30亿的Sora,GPU的数目也估算在4200至10500张之间。
而事实上,当下要慷慨一些基础模子的算力需求,千卡集群闭塞是标配一样的存在;这不单是是因为千卡是大集群的基本单位,更是因为百卡或更小范畴的GPU数目接续慷慨不了大模子稽查需求,只但是实验性的。
但智算集群中GPU的数目也还只是一方面,之于GPU自己,在诸如稽查大模子等落地过程中的难点亦然不少。
因为缔造集群自己如故一个格外复杂的系统性工程,它不仅是堆GPU这样肤浅,从一个GPU到一个处事器,再到把它们构成群,时间包含了硬件的相聚、存储、软件、再到大模子诊疗等各式细节成分,均会影响到集群的最终性能。
举例相似是Llama 3,Meta在先容基础方法的时候还提到了一个要道信息:
当在16K GPU上同期稽查时,咱们灵验地完毕了每个GPU跨越400 TFLOPS的探讨愚弄率。
如果每张卡的利率用不够高,很昭着就会裁减最终智算集群的效率。
再如分散式稽查过程中,一张卡坏掉就会影响合座的稽查,关于千卡致使更大范畴的集群来说,这种情况出现的概率就会更高;因此关于千卡集群的通晓性和可靠性也建议了极高的条件。
聚焦到国产智算集群,还需得具备不错兼容主流GPU软件的智商(举例CUDA),由此智力应酬更多且日月牙异的主流大模子任务。
一言蔽之,构建千卡智算集群难,构开国产千卡智算集群难上加难。
若何破局?
虽说窘境重重,但也正如上文所言,摩尔线程依然在探索与执行,况兼他们在构建千卡智算集群这件事上也已交出了“高分功课”。
咱们不妨以摩尔线程的夸娥(KUAE)智算中心处置有谈论为例,来看下构开国产GPU智算集群的破局之说念。
合座来看,夸娥(KUAE)智算中心处置有谈论是一个以全功能GPU为底座,软硬件一体化的全栈的处置有谈论。
之是以叫作念全栈,是因为夸娥的智商是波及到了构建GPU智算集群中的方方面面,包括最底层的基础方法缔造、中间层的智算集群管制,以及表层的大模子处事。
领先来看基础方法。
从内容上来看主要包含夸娥(KUAE)探讨集群、RDMA相聚与分散式存储三大方面。据了解,其缔造周期只需30天,可支撑千亿参数模子的预稽查、微合并推理,可完毕高达91%的千卡集群性能推广统统。
况兼基于大范畴智算加速卡MTT S4000和双路8卡GPU处事器MCCX D800的智商,夸娥集群还支撑从单机多卡到多机多卡,从单卡到千卡集群的无缝推广。
据悉明天将推出更大范畴的集群,以慷慨更大范畴的大模子稽查需求。
其次是集群管制平台。
这一软硬件一体化平台主要是用于AI大模子稽查、分散式图形渲染、流媒体处理和科学探讨等使命,深度集周全功能GPU探讨、相聚和存储,提供高可靠、高算力处事。
通过这个平台,用户可生动管制多数据中心、多集群算力资源,集成多维度运维监控、告警和日记系统,匡助智算中心完毕运维自动化。
临了是模子处事。
掩饰了大模子预稽查、微合并推理全经由,支撑统统主流开源大模子。通过摩尔线程MUSIFY设备用具,不错纵容复用CUDA应用生态,内置的容器化处置有谈论,则可完毕API一键部署。
这个平台意在提供大模子人命周期管制,通过恣意、易操作的交互界面,用户可按需组织使命流,大幅裁减大模子的使用门槛。
那么本色恶果若何?
据了解,摩尔线程目下依然支撑了包括LLaMA、GLM、Aquila、Baichuan、GPT、Bloom、玉言等在内的各种主流大模子的稽查和微调:
以200B稽查数据量为例,智源商讨院70B参数Aquila2可在33天完成稽查1300亿参数范畴的模子可在56天完成稽查
至于刚才提到的千卡GPU集群落地难的各类细节,摩尔线程也有我方的应酬策略。
举例在提高集群算力愚弄率这件事上,摩尔线程吸收软硬件协同联想和端到端的并行策略,通过对集群通讯库的算法、相聚拓扑和硬件的规格进行全心联想与成就,完毕了高度的集群兼容性。
具体到工夫,则是轮廓愚弄了MTLink和PCIe,使得通讯性能升迁一倍,轮廓调优下MFU升迁幅度跨越50%。
在通晓性方面,摩尔线程在根儿上先保证GPU的质料,从卡出厂驱动便进行多项严格的检测。
自后,摩尔线程还设备了集群系统监控和会诊用具,有助于筛选和快速定位到有问题的卡和处事器,不错自动归援救硬件替换。
况兼结合异步稽查点(Checkpoint)加速,写的时候从10分钟降到秒级,读的速率从40分钟降到2分钟;即使是碰到稽查颠倒,系统也不错自动再行拉起。
在可推广性方面,夸娥目下依然支撑了包括DeepSpeed、Megatron-DeepSpeed、Colossal-AI、FlagScale在内的业界主流分散式框架。
除此以外,还交融了多种并行算法策略,包括数据并行、张量并行、活水线并行和ZeRO,且针对高效通讯探讨并行和Flash Attention作念了特地优化。
临了,在兼容性方面,摩尔线程代码移植Musify用具,可快速将现存的主流迁徙至MUSA,零资本完成CUDA代码自动移植。
借助摩尔线程元探讨合并系统架构MUSA,用户还不错复用PyTorch开源社区的大批模子算子,裁减设备资本。
合座而言,摩尔线程的夸娥智算集群全栈有谈论的上风不错归结为八点,即:掩饰主流大模子、兼容CUDA等主流生态、断点续训、大谈话模子分散式稽查、加速推理、高性能通讯、高性能存储,以及高可靠性。
它就像把统统复杂的有谈论打包成了一把钥匙,委派到用户手上开箱即用。
而且摩尔线程的夸娥(KUAE)智算集群处置有谈论不单是说说那么肤浅,是依然作念到了上岗。
据了解,夸娥目下依然完成了三个千卡智算集群的落地,隔离位于北京亦庄、北京密云和南京。
不仅如斯,摩尔线程仍在执续谱写着“打造国产GPU集群”的篇章。
就在前不久,摩尔线程与清华系创业公司无问芯穹达成互助,成为第一家接入无问芯穹并得胜完成千卡级别大模子稽查的国产GPU公司。两边结伙推动基于夸娥(KUAE)千卡智算集群的“MT-infini-3B”互助大模子实训,目下性能已在同范畴模子中置身前方。
况兼无问芯穹CEO公开驯服了夸娥(KUAE)的实力:
教训证,摩尔线程夸娥千卡智算集群在性能、通晓性、易用性和算力愚弄率上均有优异推崇,不错为千亿参数级别大模子稽查提供执续高效的高性能算力支撑。
由此可见,摩尔线程的夸娥千卡智算集群是取得了执行考据的那种,那么临了一个问题等于:为什么是摩尔线程能率先落地?
其实早在2022年的时候,团队便依然设定了建集群的大看法与策略,这是因为那时A100算力亦然处于紧缺的景况,国内商场急需大致替代它的产物。
从GPU功能情况来看,摩尔线程是在惟一不错对标英伟达的国产GPU企业,天然单芯片性能还有差距,但如果集成起来便可处置单一性的不及。
而跟着2023年大模子的火爆,这种GPU集群式的看法就显得愈加正确,毕竟黄仁勋在发布B200之际就暗示“咱们需要更大的GPU,如果不可更大,就把更多GPU组合在一齐,酿成更大的编造GPU”。
因此,目下回头再看摩尔线程那时的策略和决定,照实是具备前瞻性的。
一言以蔽之,有实力,有工夫,有战术,也有得益,摩尔线程还将在国产GPU的发展说念路上带来若何的惊喜,是值得期待了。
参考联贯:[1]https://www.mthreads.com/product/KUAE[2]https://jxj.beijing.gov.cn/zwgk/zcjd/202404/t20240425_3637629.html[3]https://ai.meta.com/blog/meta-llama-3/