財經 > 産經 > 財富生活 > 正文

文心一言演示的這些問題，看看ChatGPT怎麼答！我們還加了幾道超綱題

2023年03月17日06:47 澎湃新聞

新聞爆料:finance@china.org.cn 電話:(010)82081166

微信 QQ好友新浪微網志 QQ空間

　　預熱許久的百度版聊天機器人終於面世。

　　3月16日，在OpenAI推出大型多模態模型GPT-4的第二天，百度終於正式發佈類ChatGPT産品“文心一言”，百度創始人、董事長兼首席執行官李彥宏在發佈會上介紹，文心一言有五大能力——文學創作、商業文案創作、數理邏輯推算、中文理解、多模態生成。

　　在16日的發佈會上，李彥宏通過提前錄製好的demo視頻，文心一言圍繞上述五大能力，回復了19個問題。

　　“文心一言對標ChatGPT、甚至是對標GPT-4，門檻是很高的，全球大廠還沒有一個做出來的，百度是第一個，我自己測試感覺還是有很多不完美的地方。”李彥宏説道。

　　澎湃新聞記者隨後拿同樣19個問題，與ChatGPT（未付費版本）以及微軟必應進行“同題問答”，澎湃新聞記者發現，演示中的19個問題，百度的回答並不輸于後兩者，但如果回答這19個問題之外的“全新問題”並進行連貫對話情況下，文心一言的表現依然有不少提高空間。

　　值得注意的是，發佈會期間，百度股價一度跌近10%，截至收盤跌6.36%。

　　文學創作

　　百度發佈會上演示文學創作方面的問題主要圍繞劉慈欣的科幻小説《三體》系列展開。在Demo演示中，文心一言介紹了該作品的作者資訊、故事內容、電視劇演員等相關問題，還被要求提供續寫方案，並從哲學角度續寫《三體》。

　　澎湃新聞向必應和ChatGPT提問相同問題，發現三款生成式AI的回答各有韆鞦。

　　對於“《三體》的作者是哪人”，文言一心的回復較為詳細，介紹了劉慈欣的年齡、足跡、學歷以及成就等資訊，相比之下，必應和ChatGPT的回復較為簡短。

　　文心一言

　　必應

　　ChatGPT

　　對於電視劇《三體》演員的介紹，只有必應提到了《三體》有國內和國外兩版電視劇，並分別列出了兩個版本的演員名單；文心一言只介紹了國內電視劇版本的情況；而由於ChatGPT的數據庫只更新至2021年，它的回復最為“落伍”，給出的答案為電視劇《三體》的演員陣容尚未官方公佈。

　　文心一言

　　必應

　　ChatGPT

　　在進一步追問主演于和偉和張魯一誰更高時，文心一言、必應和ChatGPT分別給出了不同的答案，其中只有ChatGPT提到，“由於身高的測量方法和標準不同，以及不同的數據來源，于和偉和張魯一的具體身高可能會有所不同。”

　　文心一言

　　必應

　　ChatGPT

　　被要求從哲學的角度續寫《三體》時，三款生成式AI（人工智慧）都提到了“生命”“宇宙”等關鍵詞。不同之處是，文心一言和ChatGPT都提到了“科技”“道德”“倫理”等資訊；文心一言還提出了“價值和信仰”，必應則額外提到了“文明”。

　　澎湃新聞記者也“加測”了文心一言，要求介紹2022年的諾貝爾文學獎得主。此題主要想測試百度文心一言是否有實時搜索的能力，此前微軟必應可以準確回答，而ChatGPT則因為數據庫太舊，直接回答：“由於我是一個基於2021年9月的預訓練語言模型，因此我無法提供2022年諾貝爾文學獎得主的資訊。”

　　文心一言

　　必應

　　文心一言給出的得主實際上是2018年的諾貝爾文學獎得主，澎湃新聞隨後指出錯誤後，文心一言依然重復錯誤的回答。澎湃新聞記者還測試要求回答“95屆奧斯卡最佳電影”，文心一言“誤讀”為1995年奧斯卡最佳電影。

　　文心一言

　　商業文案創作

　　在商業文案創作方面，現場Demo中展示出3個要求，分別是為“一個用大模型服務中小企業數字化升級的科技服務公司”起名、編寫slogan（標語）以及為公司成立寫一篇新聞稿。

　　具體來看，為公司起名稱方面，三款機器每人平均提供了4-5個名稱，並給出了相應的解釋。值得注意的是，它們所起的名稱中，大部分都包含“智”“數”“科技”等字眼。

　　文心一言

　　必應

　　ChatGPT

　　選取其中一個名稱為公司名，要求對方以“共贏”為概念，為公司起一個slogan，只有必應提供了4個答案；文心一言和ChatGPT只給出了一個回復，不過它們對其進行了詳細的解釋。

　　從內容來看，三款機器人的設計思路相似，均將公司名稱和“共贏”放進標語，“未來”是最常被用到的詞彙。

　　被要求生成600字的新聞稿時，只有必應的新聞稿中包含了新聞的五要素，並在導語中明確寫出了時間和地點，此外必應還在文末附上了公司的電話、郵箱和網址；文心一言新聞稿並沒有提供標題。

　　文心一言

　　必應

　　ChatGPT

　　澎湃新聞記者測試，要求文心一言就奶茶新品在微網志上寫一段宣傳文案。文心一言給出的文案中，使用了##話題詞，之後要求縮減至80字也能順利完成。相比之下，必應和ChatGPT顯然沒有領悟到微網志這個話題詞的要求。

　　文心一言

　　必應

　　ChatGPT

　　數理邏輯推算

　　百度稱，文心一言具備一定的思維能力，並以“雞兔同籠”為題考查其邏輯推算能力。

　　當面對含有錯誤的題目時，文心一言直接表示“這個題目算出來不太對，是不是提出錯了”；必應展示了每一個計算步驟，並基於結果得出結論“這個答案顯然不符合常理……這個問題實際上是無解的。也就是説，在給定的條件下，不存在一種可能的組合方式，使得籠子裏有9個頭和40隻腳”；而ChatGPT則沒有看出題目中的錯誤，並基於題目資訊得出了自己的答案。

　　文心一言

　　必應

　　ChatGPT

　　糾正題目中的錯誤後，三款機器人得出了相同的答案，其中必應的計算過程最為詳細，文心一言與ChatGPT均省略了中間的步驟。

　　文心一言

　　必應

　　ChatGPT

　　澎湃新聞記者隨後又出了一道數學題，有一元、二元、五元的人民幣共50張，總面值為116元，已知一元的比二元的多2張，問三種面值的人民幣各多少張?

　　結果，ChatGPT和文心一言均答錯，文心一言把50-x-(x-2) 寫成了50-x-x-2。只有必應給出了正確答案，但必應的答案是直接搜索“知乎”。

　　文心一言

　　ChatGPT

　　必應

　　中文理解

　　與必應和ChatGPT不同，文心一言紮根于中國市場。百度曾在多個場合強調，文心一言具備中文領域最先進的自然語言處理能力，在中文語言和中國文化上有更好的表現。發佈會上也披露，文心一言大模型的訓練數據包括萬億級的網頁數據、數十億的搜索數據和圖片數據、百億級的語音日均調用數據，以及5500億事實的知識圖譜等。

　　面對需要一定中文基礎才能理解的成語，三款機器人會有何不同的解讀？

　　被要求解釋“洛陽紙貴”時，三款機器每人平均能準確地解釋這一成語的含義，其中文心一言和必應還特別提到了該成語的典故來源《三都賦》。