分享縮略圖
OpenAI發佈免費新品GPT-4o:與人自然對話 功能秒殺Siri
來源:澎湃新聞2024-05-14 09:45:13
大字

【OpenAI發佈免費新品GPT-4o】·GPT-4o可以對音頻、視覺和文本進行實時推理,在232毫秒內響應音頻輸入,與人類在對話中的響應時間相似。

·GPT-4o的文本和圖像功能開始在ChatGPT中免費推出,音頻模式存在各種新風險而未公開,未來音頻輸出將僅限于選定的預設聲音,並要遵守安全政策。

5月14日,OpenAI發佈新産品,不是AI搜索引擎,也不是GPT-5,而是GPT-4o旗艦模型。OpenAI在ChatGPT中引入GPT-4o並免費提供更多功能。

GPT-4o的“o”代表“omni”,意為全能,與現有模型相比,它在視覺和音頻理解方面尤其出色。GPT-4o可以在音頻、視覺和文本中進行實時推理,接受文本、音頻和圖像的任何組合作為輸入,並生成文本、音頻和圖像的任何組合進行輸出。它可以最短在232毫秒內響應音頻輸入,平均為320毫秒,這與人類在對話中的響應時間相似。

在GPT-4o之前,用戶可以使用Voice Mode(由三個獨立模型組成)與ChatGPT通話,但平均延遲為2.8秒(GPT-3.5)和5.4秒(GPT-4)。原理是Voice Mode利用一個簡單模型將音頻轉錄為文本,GPT-3.5或GPT-4接收文本並輸出文本,第三個簡單模型將文本轉換回音頻。

但這個過程會丟失大量資訊,例如GPT-4不能直接觀察音調、多個説話者或背景噪音,也不能輸出笑聲、歌聲或情感表達。利用GPT-4o,OpenAI訓練了一個跨文本、視覺和音頻的端到端新模型,這意味著所有輸入和輸出都由同一個神經網路處理,這是OpenAI第一個結合所有這些模式的模型,OpenAI仍在探索模型的功能及其局限性。

新語音模式是一種語音聊天助手。據Business Insider(商業內幕)報道,它能夠與用戶進行自然的來回對話,能夠帶著情感説話,它可以假裝興奮、友好,甚至諷刺。這可以秒殺Siri,用戶不需要像蘋果手機那樣使用“喚醒詞”或精確的命令比如“嘿Siri!”來使用語音功能。

OpenAI首席執行官山姆·奧特曼(Sam Altman)表示,新的語音和視頻模式是他用過的最好的電腦界面,感覺就像電影裏的AI。達到人類水準的反應時間和表達能力是一個很大的變化。“對我來説,與電腦交談從來都不是一件很自然的事,現在它做到了。隨著我們增加(可選的)個性化、訪問你的資訊、代表你採取行動的能力等等,我真的可以看到一個令人興奮的未來,我們能夠使用電腦做比以往任何時候都多的事情。”

從性能來看,OpenAI表示,在傳統基準測試中,GPT-4o在文本、推理和代碼智慧方面達到了GPT-4 Turbo級的性能,同時在多語言、音頻和視覺能力方面達到了新高度。它在英文文本和代碼上的性能與GPT-4 Turbo相當,在非英文文本上有顯著改善。

通過過濾訓練數據和訓練後改進模型行為等技術,GPT-4o在設計中內置了跨模式的安全性,並創建了新的安全系統,為語音輸出提供護欄。GPT-4o還與來自社會心理學、偏見和公平、錯誤資訊等領域的70多名外部專家開展廣泛的外部紅隊合作,以識別新增加的模式引入或放大的風險,提高與GPT-4o互動的安全性。

OpenAI表示,將繼續減少新發現的風險。由於認識到GPT-4o的音頻模式存在各種新的風險,目前公開的是文本和圖像輸入以及文本輸出,在接下來的幾週和幾個月裏將圍繞技術基礎設施、訓練後的可用性、發佈其他模式所需的安全性開展工作,例如音頻輸出將僅限于選定的預設聲音,並將遵守現有安全政策。

目前,GPT-4o的文本和圖像功能開始在ChatGPT中免費推出,Plus用戶可以享受到5倍的調用額度。在接下來的幾週內,OpenAI將在ChatGPT Plus中推出Voice Mode新版本,該版本帶有GPT-4o。

分享到
037165901996 回頂部