騰訊混元大模型姍姍來遲 高管解說有這幾點考慮
雖然此前騰訊集團CEO馬化騰表示不急于推出半成品大模型,但在這樣的技術(shù)迭代節(jié)點,缺席不行。
9月7日,騰訊終于通過騰訊云對外開放通用大模型“騰訊混元”,由騰訊全鏈路自研,擁有超千億參數(shù)規(guī)模,預(yù)訓(xùn)練語料超2萬億tokens。token是指一段文本的最小獨立部分,大模型中,token可以是一個單詞也可以是一個字符,一般會對token數(shù)量進行限制以避免超過模型的最大處理能力。
作為“混元”的領(lǐng)隊,騰訊集團副總裁蔣杰2012年加入騰訊,2020年完成騰訊廣告投放端整合。廣告業(yè)務(wù)也是混元大模型的重要“試驗地”,除此之外,云、游戲、金融科技、騰訊會議、騰訊文檔等超過50項騰訊業(yè)務(wù)與產(chǎn)品均接入混元大模型測試。
(資料圖)
相較于國內(nèi)百度、阿里,以及人工智能創(chuàng)業(yè)公司在今年上半年的高調(diào)與迅速,騰訊在通用大模型領(lǐng)域稱得上“緩慢”。除了馬化騰所解釋的“早一個月把電燈泡拿出來不那么重要”外,采訪中騰訊集團高級執(zhí)行副總裁、云與智慧產(chǎn)業(yè)事業(yè)群CEO湯道生表示,通用大模型對計算要求非常高,數(shù)據(jù)的積累也花費漫長時間,且行業(yè)大模型的發(fā)布能夠滿足具體客戶的需求。
此次“延遲”亮相的通用大模型有哪些不同?蔣杰表示,騰訊混元重點關(guān)注中文創(chuàng)作能力,提高了模型在場景中的推理能力,讓模型能夠更好地抗拒“誘導(dǎo)”,并通過自研的“探真”技術(shù)來優(yōu)化普遍存在的幻覺問題。
OpenAI研究人員此前撰文表示,“即使是最先進的人工智能模型也很容易產(chǎn)生謊言,它們在不確定的時刻往往表現(xiàn)出捏造事實的傾向。而這些幻覺在需要多步驟推理的領(lǐng)域尤其嚴重,因為一個邏輯錯誤就足以破壞一個更大的解決方案?!監(jiān)penAI采取獎勵每個正確推理步驟取代獎勵正確結(jié)果的方式來矯正幻覺問題。
騰訊通過探真(truth forest)等技術(shù)降低大模型的幻覺,而不是“背題”等單點優(yōu)化的方式。蔣杰表示,外界會用到知識圖譜甚至搜索外掛來提高大模型的檢索支持能力,如有些開源模型廠商所發(fā)布的大模型中,搜索增強技術(shù)就占比10%甚至更多,但這會導(dǎo)致不一樣的幻覺問題。騰訊也會用到這些增強技術(shù),比例并不高,在預(yù)訓(xùn)練階段優(yōu)化目標函數(shù),“徹底解決幻覺問題是非常非常難的,只能從概率上做到更低。”蔣杰成說。
騰訊選擇全鏈路自研的路徑主要是為了技術(shù)迭代更快,也可以和內(nèi)部業(yè)務(wù)及應(yīng)用有更深度的結(jié)合。此外,騰訊有海量高并發(fā)業(yè)務(wù),開源架構(gòu)的大模型不能夠支撐騰訊的業(yè)務(wù)體量。
相較于其他大廠或創(chuàng)業(yè)公司提速開源的動作,騰訊混元目前所有能力均開放給騰訊業(yè)務(wù)部門,各業(yè)務(wù)基于混元的能力上去和更多的應(yīng)用結(jié)合,把選擇的主動權(quán)交給了集團業(yè)務(wù)部門。
優(yōu)先結(jié)合自身應(yīng)用的考量還包括了對大模型落地C端還是B端,蔣杰稱,大模型在B端產(chǎn)生大規(guī)模商業(yè)收入這件事還有待探索,目前騰訊通用大模型在成熟度與對復(fù)雜任務(wù)的處理能力方面還不夠,因此很多嚴肅專業(yè)場景還不到“解鎖”的時候。另外大模型結(jié)合自身應(yīng)用也可以在一定程度上抵消大模型研發(fā)高昂的設(shè)備、訓(xùn)練、人員成本。
目前騰訊擁有13.3億微信(合并WeChat)月活用戶數(shù),1.15億視頻付費會員,1億音樂付費會員,外界頗為關(guān)注這樣大基數(shù)的產(chǎn)品疊加大模型技術(shù)后會發(fā)生什么改變。蔣杰對第一財經(jīng)記者表示,騰訊產(chǎn)品和應(yīng)用要提供什么能力和服務(wù),以及什么時間發(fā)布,會由業(yè)務(wù)部門自己決定。
最終公布了通用大模型產(chǎn)品的騰訊殺入了戰(zhàn)局。目前行業(yè)共識一方面AIGC是大趨勢,另一方面大模型的能力邊界與呈現(xiàn)形式到底如何并無定論,判斷算力底座與大模型應(yīng)用誰會是下一個技術(shù)時代的顛覆者也為時過早。
湯道生對第一財經(jīng)記者表示,AI服務(wù)包括應(yīng)用層、模型層、基礎(chǔ)設(shè)施層。騰訊會持續(xù)投入云服務(wù)底座的角色,騰訊會將合適模型推薦給客戶,應(yīng)用場景也是如此。
如果以容錯率和任務(wù)復(fù)雜度為坐標軸制作一個2x2矩陣,蔣杰表示,當前國內(nèi)發(fā)布的大模型應(yīng)用主要集中在容錯率高、任務(wù)簡單的休閑場景。而在更具價值的嚴肅場景、工作場景和專業(yè)場景,大面積的應(yīng)用還無法勝任。
因此,蔣杰表示騰訊大模型會更關(guān)注將提效基礎(chǔ)能力做好——不胡言亂語,更安全,可靠性更強,具備更好的邏輯思維能力等,這些才是最核心的。
(文章來源:第一財經(jīng))
關(guān)鍵詞: