預熱許久的百度版聊天機器人終於面世。
3月16日,在OpenAI推出大型多模態模型GPT-4的第二天,百度終於正式發佈類ChatGPT産品“文心一言”,百度創始人、董事長兼首席執行官李彥宏在發佈會上介紹,文心一言有五大能力——文學創作、商業文案創作、數理邏輯推算、中文理解、多模態生成。
在16日的發佈會上,李彥宏通過提前錄製好的demo視頻,文心一言圍繞上述五大能力,回復了19個問題。
“文心一言對標ChatGPT、甚至是對標GPT-4,門檻是很高的,全球大廠還沒有一個做出來的,百度是第一個,我自己測試感覺還是有很多不完美的地方。”李彥宏説道。
澎湃新聞記者隨後拿同樣19個問題,與ChatGPT(未付費版本)以及微軟必應進行“同題問答”,澎湃新聞記者發現,演示中的19個問題,百度的回答並不輸于後兩者,但如果回答這19個問題之外的“全新問題”並進行連貫對話情況下,文心一言的表現依然有不少提高空間。
值得注意的是,發佈會期間,百度股價一度跌近10%,截至收盤跌6.36%。
文學創作
百度發佈會上演示文學創作方面的問題主要圍繞劉慈欣的科幻小説《三體》系列展開。在Demo演示中,文心一言介紹了該作品的作者資訊、故事內容、電視劇演員等相關問題,還被要求提供續寫方案,並從哲學角度續寫《三體》。
澎湃新聞向必應和ChatGPT提問相同問題,發現三款生成式AI的回答各有韆鞦。
對於“《三體》的作者是哪人”,文言一心的回復較為詳細,介紹了劉慈欣的年齡、足跡、學歷以及成就等資訊,相比之下,必應和ChatGPT的回復較為簡短。
文心一言
必應
ChatGPT
對於電視劇《三體》演員的介紹,只有必應提到了《三體》有國內和國外兩版電視劇,並分別列出了兩個版本的演員名單;文心一言只介紹了國內電視劇版本的情況;而由於ChatGPT的數據庫只更新至2021年,它的回復最為“落伍”,給出的答案為電視劇《三體》的演員陣容尚未官方公佈。
文心一言
必應
ChatGPT
在進一步追問主演于和偉和張魯一誰更高時,文心一言、必應和ChatGPT分別給出了不同的答案,其中只有ChatGPT提到,“由於身高的測量方法和標準不同,以及不同的數據來源,于和偉和張魯一的具體身高可能會有所不同。”
文心一言
必應
ChatGPT
被要求從哲學的角度續寫《三體》時,三款生成式AI(人工智慧)都提到了“生命”“宇宙”等關鍵詞。不同之處是,文心一言和ChatGPT都提到了“科技”“道德”“倫理”等資訊;文心一言還提出了“價值和信仰”,必應則額外提到了“文明”。
澎湃新聞記者也“加測”了文心一言,要求介紹2022年的諾貝爾文學獎得主。此題主要想測試百度文心一言是否有實時搜索的能力,此前微軟必應可以準確回答,而ChatGPT則因為數據庫太舊,直接回答:“由於我是一個基於2021年9月的預訓練語言模型,因此我無法提供2022年諾貝爾文學獎得主的資訊。”
文心一言
必應
文心一言給出的得主實際上是2018年的諾貝爾文學獎得主,澎湃新聞隨後指出錯誤後,文心一言依然重復錯誤的回答。澎湃新聞記者還測試要求回答“95屆奧斯卡最佳電影”,文心一言“誤讀”為1995年奧斯卡最佳電影。
文心一言
商業文案創作
在商業文案創作方面,現場Demo中展示出3個要求,分別是為“一個用大模型服務中小企業數字化升級的科技服務公司”起名、編寫slogan(標語)以及為公司成立寫一篇新聞稿。
具體來看,為公司起名稱方面,三款機器每人平均提供了4-5個名稱,並給出了相應的解釋。值得注意的是,它們所起的名稱中,大部分都包含“智”“數”“科技”等字眼。
文心一言
必應
ChatGPT
選取其中一個名稱為公司名,要求對方以“共贏”為概念,為公司起一個slogan,只有必應提供了4個答案;文心一言和ChatGPT只給出了一個回復,不過它們對其進行了詳細的解釋。
從內容來看,三款機器人的設計思路相似,均將公司名稱和“共贏”放進標語,“未來”是最常被用到的詞彙。
被要求生成600字的新聞稿時,只有必應的新聞稿中包含了新聞的五要素,並在導語中明確寫出了時間和地點,此外必應還在文末附上了公司的電話、郵箱和網址;文心一言新聞稿並沒有提供標題。
文心一言
必應
ChatGPT
澎湃新聞記者測試,要求文心一言就奶茶新品在微網志上寫一段宣傳文案。文心一言給出的文案中,使用了##話題詞,之後要求縮減至80字也能順利完成。相比之下,必應和ChatGPT顯然沒有領悟到微網志這個話題詞的要求。
文心一言
必應
ChatGPT
數理邏輯推算
百度稱,文心一言具備一定的思維能力,並以“雞兔同籠”為題考查其邏輯推算能力。
當面對含有錯誤的題目時,文心一言直接表示“這個題目算出來不太對,是不是提出錯了”;必應展示了每一個計算步驟,並基於結果得出結論“這個答案顯然不符合常理……這個問題實際上是無解的。也就是説,在給定的條件下,不存在一種可能的組合方式,使得籠子裏有9個頭和40隻腳”;而ChatGPT則沒有看出題目中的錯誤,並基於題目資訊得出了自己的答案。
文心一言
必應
ChatGPT
糾正題目中的錯誤後,三款機器人得出了相同的答案,其中必應的計算過程最為詳細,文心一言與ChatGPT均省略了中間的步驟。
文心一言
必應
ChatGPT
澎湃新聞記者隨後又出了一道數學題,有一元、二元、五元的人民幣共50張,總面值為116元,已知一元的比二元的多2張,問三種面值的人民幣各多少張?
結果,ChatGPT和文心一言均答錯,文心一言把50-x-(x-2) 寫成了50-x-x-2。只有必應給出了正確答案,但必應的答案是直接搜索“知乎”。
文心一言
ChatGPT
必應
中文理解
與必應和ChatGPT不同,文心一言紮根于中國市場。百度曾在多個場合強調,文心一言具備中文領域最先進的自然語言處理能力,在中文語言和中國文化上有更好的表現。發佈會上也披露,文心一言大模型的訓練數據包括萬億級的網頁數據、數十億的搜索數據和圖片數據、百億級的語音日均調用數據,以及5500億事實的知識圖譜等。
面對需要一定中文基礎才能理解的成語,三款機器人會有何不同的解讀?
被要求解釋“洛陽紙貴”時,三款機器每人平均能準確地解釋這一成語的含義,其中文心一言和必應還特別提到了該成語的典故來源《三都賦》。
文心一言
必應
ChatGPT
進一步要求用“洛陽紙貴”四個字寫一首藏頭詩時,三款機器每人平均給出了符合要求的回答,不過以古詩的標準來評判,這三首詩似乎都只能在及格線附近徘徊。
文心一言
必應
ChatGPT
值得注意的是,記者發現,必應和ChatGPT並非每次都會給出正確的答案,再次讓它們作藏頭詩時,必應錯誤地將“用洛陽紙”作為每句話的開頭,而ChatGPT給出了完全不相干的答案。
必應
ChatGPT
澎湃新聞記者再提問,請解釋“先帝不以臣卑鄙,猥自枉屈,三顧臣于草廬之中,咨臣以當世之事,由是感激,遂許先帝以驅馳”一句的含義。從響應速度來説,文心一言的響應要遠快於ChatGPT。必應則依然是直接搜索得出了答案。
文心一言
ChatGPT
因為中文的博大精深,還存在不少腦筋急轉彎。例如:東院的花母雞在西院的雞窩裏下了一個蛋,這個蛋的“産權”應歸誰呢?在這個問題上,必應還是搜索了網路答案,文心一言和ChatGPT則“一本正經”回答。
文心一言
ChatGPT
必應
多模態生成
百度介紹,文心一言具有多模態生成能力,並在Demo演示中讓文心一言根據文字生産海報、語音及視頻。
被要求生成圖像時,ChatGPT直言“抱歉,作為語言模型,我無法創建圖像或海報”。新版必應搭載的GPT-4雖然是大型多模態模型,但必應也無法生成文字以外的內容,面對生成海報的要求,必應僅僅提供了設計思路和線上設計平臺。
文心一言
必應
ChatGPT
值得注意的是,澎湃新聞記者通過內測版要求生成海報時,發現文心一言對於詞語理解與演示時有偏差,給出的是海報文案,而非海報,再繼續要求“生成一張圖片”時,則給出了完全無關的內容,完全沒有按照上下文意思來生成內容。
文心一言
(責任編輯:王擎宇)