9月7日,騰訊在數字生態大會上正式推出混元大模型。據介紹,騰訊混元大模型是由騰訊全鏈路自研的通用大語言模型,擁有超千億參數規模,預訓練語料超2萬億 tokens,具備強大的中文創作能力,復雜語境下的邏輯推理能力,以及可靠的任務執行能力。
目前,騰訊云、騰訊廣告、騰訊游戲、騰訊金融科技、騰訊會議、騰訊文檔、微信搜一搜、QQ 瀏覽器等超過50個騰訊業務和產品,已經接入騰訊混元大模型測試。同時,騰訊混元大模型將作為騰訊云 MaaS 服務的底座,客戶不僅可以直接通過 API 調用,也可以將混元大模型作為基底模型,為不同產業場景構建專屬應用。
(相關資料圖)
在這一波大模型浪潮中,云服務被認為是最理想的大模型承載平臺,而大模型也將引領下一代云服務的演進。通過云廠商所提供的基礎設施、模型服務、訓練加速框架等支持,大模型的能力將很快滲透到各行各業中。
與此同時,算力緊缺是擺在眼前的困境。如何在有限的卡上,構建穩定可靠的算力集群,如何讓有限的算力資源發揮出最大的價值,也成為各家云廠商和模型公司最重要的課題。
大模型時代的贏家
如今我們正處于“智能涌現”的風口浪尖,人工智能只需訪問每天產生的2.5萬億字節數據中的一小部分,就能創造出人類智力無法比擬的奇跡。不久前,由 Google DeepMind 構建的 AlphaDev,結合了計算機推理和直覺,幫助我們人類發現一些我們原本不知道的東西:一種全新且更快的排序算法,排序速度上取得的突破超越了科學家們幾十年來的研究。
人類可能需要20年的時間才能成為領域專家,然后將這種思維應用于解決實際問題。如今,人工智能可以在幾分鐘或幾秒鐘內實現這種專編程客棧業化。
騰訊集團副總裁、云與智慧產業事業群 COO、騰訊云總裁邱躍鵬將今年這一特殊的年份描述為“大模型的元年”,他說:“今天有點像移動互聯網剛到來的時候,那一年我們往后看,可能沒有太多人想到十幾年之后移動互聯網帶來的深刻改變。”
如今,在技術創新帶來的這股潮流趨勢下,全球的科技企業都開始了 GPT“軍備”競賽,希望通過研發更強大的 GPT 模型來增強他們的產品和服務。以微軟納德拉為首的一眾大佬都聲稱要將“所有產品上搭載 AI,徹底改造”。
然而,人工智能的高成本構成了一個不容忽視的難題,這也成為了許多企業參與的障礙,大企業反而比初創企業更能占據有利的地位。Semianalysis 估計,截至編程客棧2023年2月,OpenAI 使用超過3,600臺 Nvidia HGX A100服務器來為 ChatGPT 提供服務。這些 HGX 服務器均包含8個 A100GPU,每臺成本為 $10,000美元。這大約相當于為 ChatGPT 提供服務的硬件成本高達2.88億美元,顯然這些基礎設施只有大型云服務提供商才能提供。
另一方面,訓練和“推理”(實際運行)大語言模型的高昂成本是一種結構性成本,與之前的計算熱潮不同。即使軟件被構建或訓練,它仍然需要大量的計算資源來運行大語言模型,因為每次生成提示響應時都需要進行數十億次計算。相比之下,我們日常使用的應用程序所需的計算要少得多。也就是說,訓練模型的成本只是冰山一角,隱藏在水面之下還有巨大的“推理成本”,即每次調用模型輸出時產生的成本。Semianalysis 表示,“以任何合理規模部署模型時,推理成本遠遠超過訓練成本。事實上,ChatGPT 推理的成本超過了每周的訓練成本。”
因此,以最低的綜合成本獲取算力資源已經成為人工智能公司成功的關鍵因素,而在云計算行業中,那些提供這種“鏟子”的企業價值不可小覷。
“針對大模型所有相關能力的投入和研究是必需的,所有云廠商都js必須做好對于 AGI 的支持,這是一個必答題,沒有人能不答這道題。”邱躍鵬表示。
“目前投資規模最大的是在訓練,沒有幾十億的資本投入,很難下場去持續做大模型。另一方面,真的下場做大模型的企業不多,未來真正的應用場景還是在下游。結合場景看,未來,推理是比訓練更大的市場。今天我們看到很多場景用了大模型之后,帶來的效果提升確實非常明顯,這說明大模型的商業模式相對來說更清晰。雖然目前還很難講具體的算力需求究竟有多少,但一定是非常長期的機會。”
傳統云服務能滿足需求嗎?
傳統的云基礎設施并不是為支持大規模人工智能而設計的,隨著 AI 普及度和復雜度越來越高,云廠商也面臨了一些全新的挑戰,計算、存儲以及 IT 架構等層面都發生著翻天覆地的變化。
傳統云服務大部分由通用 CPU 的服務器組成,而更適合運行 AI 工作負載的 GPU 集群只占基礎設施的一小部分。根據英偉達在2023年臺北電腦展會上的演講,如果使用 GPU 進行訓練,相比 CPU 服務器,客戶可以以4% 的成本和1.2% 的電力消耗來訓練一個 LLM。因此,該公司表示 CPU 已落伍,用 GPU 才是訓練大語言模型的首選。
傳統服務器和 AI 服務器對 GPU 的依賴對比,來自摩根大通的估計。
但高密度算力需求,也會給云服務帶來影響,比如 IDC(數據中心)的規劃對于高密集算力而言,仍然有許多瓶頸,例如需要高功率供電的機架。高功率的電力供給基礎設施都很早期,高功率供電的機架很稀缺。
邱躍鵬提到,“IDC 是非常長周期的投資,面向未來,算力基礎設施也需要相應地升級,來更好地承接大模型帶來的新需求。”
而從存儲方面來說,在過去幾年中,大語言模型的尺寸每年平均增長了10倍,參數數量從數百萬個到萬億不等,大語言模型(LLM)也會面臨存儲容量的挑戰,單個存儲設備是不可能滿足存儲要求的。例如,OpenAI 的 GPT-3模型擁有1750億個參數,僅其參數就需要超過300GB 的存儲空間。
正如 OpenAI 論文“Language Models are Few-Shot Learners”中表示的那樣,較大的模型往往表現更好,然而,參數數量增加也提出了更高的存儲容量需求。如果在讀取數據時機器出現問題,或者導致 SSD 硬件故障,都是不能容忍的。
最后一個是大模型“解鎖”了各行各業的數據。以前是個別企業帶著大家通過 AI 技術逐個攻克單一領域的問題,模型參數量和算力需求在多年來其實也一直是一個比較穩定的水平,據估算,海量數據因為依賴結構化也只用起來了20%。而現在,隨著大模型通用能力的加持,各行各業的萬千企業都已經參與到了這里面來,Embeding(向量化)技術讓非結構化數據的應用也有了更多的想象空間,模型訓練的所需算力也變成了千卡規模,數據檢索也會面臨更大的壓力。
基于以上種種挑戰,騰訊云認為,在新的大模型時代,需要更高效的云技術。如果把之前的云稱為 AI1.0時代,那么在1.0時代里,行業著重關注的是單機單卡的性能、標量數據的結構化精確檢索,以及云原生帶來的自動調度。而現在,當行業進入到了 AI2.0時代,在這個背景下,由于服務重點發生了轉變,現在更多關注 AI 企業和大模型,云廠商需要將重點轉向集群性能的提升、向量數據的存儲與檢索等方向上。
騰訊云是如何解決當前挑戰的
傳統云計算已經無法滿足 AI 企業及大模型訴求,云智算已成為了關鍵支撐,騰訊面向 AI 場景專用,打造了騰訊云 AI 超級底座。
在這次大會上,我們關注到了騰訊云 AI 超級底座的幾個關鍵產品:
高性能算力集群
基于當下大模型大規模、高效率的訓練需求,騰訊云上線了全新一代高性能計算集群 HCC,相比上一代整體提升了3倍。在實際業務測試當中,業內傳統的集群方案訓練一次需要50天的時間,而騰訊云只需要4天。
HCC 不止是一個單純的算力資源,還包含了目前騰訊最先進的存儲和3.2T RDMA 網絡能力,以及上層最前沿的軟件定義技術、云原生編排技術和加速框架。
存儲層面,訓練場景下,幾千臺計算節點會同時讀取一批數據集,需要盡可能縮短數據集的加載時長。騰訊云提供了 COS+GooseFS 對象存儲方案,提升端到端的數據讀取性能,以及 CFS Turbo 高性能并行文件存儲方案,解決大模型場景大數據量、高帶寬、低延時的訴求。
騰訊稱,目前 HCC 已成為國內性能最強的訓練集群,算力能夠實現無損釋放。
他們在硬件方面進行了大量的優化和升級,不斷提高了集群的計算能力和穩定性,基于騰訊自研星星海服務器,搭載了目前業內領先的 GPU 芯片,支持單卡在 FP16精度下輸出989TFlops 的算力(如果在精度差一點的推理場景下,可以接近2000TFlops)。
另外,運行成本是開發者普遍非常關心的問題,大模型興起初期,有開發者抱怨說:“跑一把大模型 ,體驗就感覺就像坐在一輛被困在路上的出租車里:要么下車,要么盯著計價器跳動”。
雖然云計算工程師們已經能把故障率降得很低很低,但由于大模型任務和環境的復雜,仍然有可能出現偶發的中斷。訓練中斷也是當前整個行業高度關注的話題。
騰訊云基于云原生能力,能夠支持集群的監控和斷點續算能力。為此騰訊提供了7*24小時的全局監控視角,支持編排、框架、實例等多層級的指標監控。一旦觸發故障,系統能夠在5分鐘內恢復任務,10分鐘內恢復基礎設施,并且無需人工干預,就能夠自動最大化保障任務的連續進行。一個粗略的計算是,每減少一小時異常,干卡規模可節省數十萬元成本。
高性能數據處理
為了滿足企業在這個新時代對數據檢索的需求,騰訊推出了一款專為 AI 場景打造的數據庫:騰訊云向量數據庫。
這是一款企業級的分布式向量數據庫,相較于傳統的單機插件式向量數據庫方案,騰訊提供了10倍的單索引規模,支持高達10億級行數,助力企業應對海量非結構化數據檢索的挑戰。
許多企業在 AI 接入過程中,Embedding 工程成為了非常大的瓶頸。而騰訊向量數據庫集成 Embedding 能力,可以使得企業數據接入 AI 的工期從30天縮短到了3天,效率提升10倍。
大模型的成功依賴于三編程個要素:模型、算力和數據,擁有高質量的數據能夠使模型更加精準。
騰訊在云上打造了云原生數據湖倉、向量數據庫。它們就像“過濾器”,能夠對大量的原始數據進行清洗、分類。
云原生數據湖倉配合 COS 數據湖存儲,目前能支持每秒百萬級數據更新入湖、TB 級海量吞吐能力。配合剛剛發布的騰訊云向量數據庫,能夠實現10億級向量檢索規模、100億級的離線數據清洗規模,并將延遲控制在毫秒級。
實測效果顯示,對比傳統方式,騰訊云的高性能數據處理引擎,讓原始數據清洗性能提升了40%+,企業運行綜合成本降低50% 。
通過對各類數據的收集、分類、去重、清洗、管理,能夠給大模型提供純度極高的數據“燃料”,大模型也能基于這些高質量數據,全面提升訓練和推理效率。
TI 平臺提供精調部署能力
很多企業需要在通用大模型的基礎上,灌入自己的數據做訓練或精調,從而打造出適合自身業務的行業大模型。騰訊云也結合開發者和企業的使用需求,進一步完善了訓練推理框架和 TI 平臺工具鏈。
在訓練推理層面,騰訊借助自研的機器學習框架 Angel,完成了混元的訓練。Angel 訓練速度相比業界主流框架提升1倍,推理速度比業界主流框架提升1.3倍。目前,企業和開發者可以通編程過 TI 平臺直接使用該框架。
TI 平臺提供的工具覆蓋環境準備、代碼調試、性能評估和部署全鏈路,具備高性能的大模型精調與部署能力,覆蓋大模型開發、應用全生命周期,讓客戶只需加入自己獨有的場景數據,即可在短時間內精調出專屬的模型方案。
寫在最后
大模型已經成為當前云服務提供商不可或缺的機遇。
事實上,云廠商之間正在圍繞大模型展開競爭,重新爭奪公有云市場,因為 AI 并不只是帶來算力投入的增長,而是會帶來整個業務的增長——當大模型的能力不斷進化,企業在云上使用模型服務的需求也會增加;而被大模型改造的應用和產品,也帶來了新的市場空間。基礎設施、模型和應用,三者相輔相成,已經成為云廠商必爭的空間。
面對全新的發展機遇,騰訊集團高級執行副總裁、云與智慧產業事業群 CEO 湯道生表示:“以大模型生成技術為核心,人工智能正在成為下一輪數字化發展的關鍵動力,也為解決產業痛點,帶來了全新的思路。騰訊產業互聯網將通過智能增強、數據增強、連接增強,持續助力產業增強。”
截至目前,國內主要大廠的大模型均已上線,而真正的競爭才剛剛開始,能否落地,能否真正產生價值,才是制勝關鍵。
關鍵詞: