類ChatGPT新賽道 百度為何能率先起跑?
作為人工智能實(shí)驗(yàn)室OpenAI發(fā)布的“聊天生成預(yù)訓(xùn)練轉(zhuǎn)換器”,ChatGPT在短短數(shù)日便席卷了國內(nèi)各大社交平臺。隨著ChatGPT的“出圈”,在引發(fā)AI產(chǎn)業(yè)變革的同時(shí),也引發(fā)了科技巨頭間一場新的較量,谷歌、微軟、百度、阿里、騰訊、字節(jié)跳動(dòng)相繼宣布跟進(jìn)入局。不過目前來看,參與者眾,能迅速落地者寡。
那么此次,百度能夠迅速拔得頭籌、做出自己的大語言模型,其原因何在?
這離不開百度深耕人工智能領(lǐng)域十余年的久久之功,正是基于長期的技術(shù)投入,使得百度擁有芯片、框架、模型和應(yīng)用四層技術(shù)棧,具備率先起跑的基礎(chǔ)能力和綜合優(yōu)勢,不僅能夠?qū)崿F(xiàn)整體與ChatGPT持平,甚至還有可能做到在知識增強(qiáng)、檢索增強(qiáng)和對話增強(qiáng)等領(lǐng)域的局部超越。
在知識增強(qiáng)方面,知識圖譜是機(jī)器認(rèn)知世界的重要基礎(chǔ),能夠以結(jié)構(gòu)化的形式描述真實(shí)世界中的實(shí)體、屬性、關(guān)系等,百度文心作為全球首個(gè)知識增強(qiáng)千億大模型,擁有世界上最大規(guī)模的知識圖譜,包含50億實(shí)體和5500億級事實(shí),每天調(diào)用量超過400億次。
而檢索增強(qiáng)則是指在大模型底層方面,搜索架構(gòu)和生成式AI架構(gòu)能夠融合,在這方面,百度在真實(shí)數(shù)據(jù)和用戶需求理解上具備先發(fā)優(yōu)勢,能提升大語言模型的準(zhǔn)確性和實(shí)效性。
此外,在對話一致性、長期記憶和多輪對話豐富度上,文心一言也可能有更好的表現(xiàn)。在這方面,百度的實(shí)力不容小覷,其“知識與深度學(xué)習(xí)融合的通用對話技術(shù)及應(yīng)用”曾獲中國人工智能協(xié)會吳文俊獎(jiǎng)特等獎(jiǎng),是歷史上首個(gè)特等獎(jiǎng);“百度大腦核心技術(shù)與開放平臺”獲中國電子學(xué)會科技進(jìn)步獎(jiǎng)一等獎(jiǎng);百度超級智能助手也曾獲中國專利金獎(jiǎng)。
海量應(yīng)用或?qū)⒓ぐl(fā)更多潛能
毫無疑問,ChatGPT已經(jīng)展現(xiàn)出巨大潛力,有望打開千行百業(yè)的海量應(yīng)用場景,但我們也必須看到,類ChatGPT賽道的迅速崛起之下,大語言模型依然存在技術(shù)難度。
據(jù)了解,文心一言和ChatGPT都是基于SFT(模型微調(diào))、RLHF(強(qiáng)化學(xué)習(xí))、prompt(用戶指令)等技術(shù)。在訓(xùn)練階段,SFT和RLHF通過學(xué)習(xí)真實(shí)的用戶數(shù)據(jù),提升模型效果;部署階段,用戶的prompt能夠給預(yù)訓(xùn)練大語言模型提示,使模型能更好地理解人類問題。
百度方面表示,與其他模型通過海量無標(biāo)注數(shù)據(jù)訓(xùn)練不同,大語言模型需要有人的參與,才能更好地理解人的意圖,進(jìn)而生成符合人的價(jià)值觀和表達(dá)習(xí)慣的回復(fù)。因此,與ChatGPT的進(jìn)化史一樣,隨著文心一言逐漸開始內(nèi)測與邀測,真實(shí)的用戶、開發(fā)者調(diào)用和模型迭代之間的飛輪開始轉(zhuǎn)動(dòng),相信今后,隨著應(yīng)用人數(shù)的增多,文心一言也將以更快的速度成長、會變得越來越聰明。