類ChatGPT新賽道 百度為何能率先起跑?
作為人工智能實(shí)驗(yàn)室OpenAI發(fā)布的“聊天生成預(yù)訓(xùn)練轉(zhuǎn)換器”,ChatGPT在短短數(shù)日便席卷了國(guó)內(nèi)各大社交平臺(tái)。隨著ChatGPT的“出圈”,在引發(fā)AI產(chǎn)業(yè)變革的同時(shí),也引發(fā)了科技巨頭間一場(chǎng)新的較量,谷歌、微軟、百度、阿里、騰訊、字節(jié)跳動(dòng)相繼宣布跟進(jìn)入局。不過(guò)目前來(lái)看,參與者眾,能迅速落地者寡。
那么此次,百度能夠迅速拔得頭籌、做出自己的大語(yǔ)言模型,其原因何在?
這離不開(kāi)百度深耕人工智能領(lǐng)域十余年的久久之功,正是基于長(zhǎng)期的技術(shù)投入,使得百度擁有芯片、框架、模型和應(yīng)用四層技術(shù)棧,具備率先起跑的基礎(chǔ)能力和綜合優(yōu)勢(shì),不僅能夠?qū)崿F(xiàn)整體與ChatGPT持平,甚至還有可能做到在知識(shí)增強(qiáng)、檢索增強(qiáng)和對(duì)話增強(qiáng)等領(lǐng)域的局部超越。
在知識(shí)增強(qiáng)方面,知識(shí)圖譜是機(jī)器認(rèn)知世界的重要基礎(chǔ),能夠以結(jié)構(gòu)化的形式描述真實(shí)世界中的實(shí)體、屬性、關(guān)系等,百度文心作為全球首個(gè)知識(shí)增強(qiáng)千億大模型,擁有世界上最大規(guī)模的知識(shí)圖譜,包含50億實(shí)體和5500億級(jí)事實(shí),每天調(diào)用量超過(guò)400億次。
而檢索增強(qiáng)則是指在大模型底層方面,搜索架構(gòu)和生成式AI架構(gòu)能夠融合,在這方面,百度在真實(shí)數(shù)據(jù)和用戶需求理解上具備先發(fā)優(yōu)勢(shì),能提升大語(yǔ)言模型的準(zhǔn)確性和實(shí)效性。
此外,在對(duì)話一致性、長(zhǎng)期記憶和多輪對(duì)話豐富度上,文心一言也可能有更好的表現(xiàn)。在這方面,百度的實(shí)力不容小覷,其“知識(shí)與深度學(xué)習(xí)融合的通用對(duì)話技術(shù)及應(yīng)用”曾獲中國(guó)人工智能協(xié)會(huì)吳文俊獎(jiǎng)特等獎(jiǎng),是歷史上首個(gè)特等獎(jiǎng);“百度大腦核心技術(shù)與開(kāi)放平臺(tái)”獲中國(guó)電子學(xué)會(huì)科技進(jìn)步獎(jiǎng)一等獎(jiǎng);百度超級(jí)智能助手也曾獲中國(guó)專利金獎(jiǎng)。
海量應(yīng)用或?qū)⒓ぐl(fā)更多潛能
毫無(wú)疑問(wèn),ChatGPT已經(jīng)展現(xiàn)出巨大潛力,有望打開(kāi)千行百業(yè)的海量應(yīng)用場(chǎng)景,但我們也必須看到,類ChatGPT賽道的迅速崛起之下,大語(yǔ)言模型依然存在技術(shù)難度。
據(jù)了解,文心一言和ChatGPT都是基于SFT(模型微調(diào))、RLHF(強(qiáng)化學(xué)習(xí))、prompt(用戶指令)等技術(shù)。在訓(xùn)練階段,SFT和RLHF通過(guò)學(xué)習(xí)真實(shí)的用戶數(shù)據(jù),提升模型效果;部署階段,用戶的prompt能夠給預(yù)訓(xùn)練大語(yǔ)言模型提示,使模型能更好地理解人類問(wèn)題。
百度方面表示,與其他模型通過(guò)海量無(wú)標(biāo)注數(shù)據(jù)訓(xùn)練不同,大語(yǔ)言模型需要有人的參與,才能更好地理解人的意圖,進(jìn)而生成符合人的價(jià)值觀和表達(dá)習(xí)慣的回復(fù)。因此,與ChatGPT的進(jìn)化史一樣,隨著文心一言逐漸開(kāi)始內(nèi)測(cè)與邀測(cè),真實(shí)的用戶、開(kāi)發(fā)者調(diào)用和模型迭代之間的飛輪開(kāi)始轉(zhuǎn)動(dòng),相信今后,隨著應(yīng)用人數(shù)的增多,文心一言也將以更快的速度成長(zhǎng)、會(huì)變得越來(lái)越聰明。