OpenAI發佈免費新品GPT-4o：與人自然對話功能秒殺Siri

來源：澎湃新聞2024-05-14 09:45:13

大字

【OpenAI發佈免費新品GPT-4o】·GPT-4o可以對音頻、視覺和文本進行實時推理，在232毫秒內響應音頻輸入，與人類在對話中的響應時間相似。

·GPT-4o的文本和圖像功能開始在ChatGPT中免費推出，音頻模式存在各種新風險而未公開，未來音頻輸出將僅限于選定的預設聲音，並要遵守安全政策。

5月14日，OpenAI發佈新産品，不是AI搜索引擎，也不是GPT-5，而是GPT-4o旗艦模型。OpenAI在ChatGPT中引入GPT-4o並免費提供更多功能。

GPT-4o的“o”代表“omni”，意為全能，與現有模型相比，它在視覺和音頻理解方面尤其出色。GPT-4o可以在音頻、視覺和文本中進行實時推理，接受文本、音頻和圖像的任何組合作為輸入，並生成文本、音頻和圖像的任何組合進行輸出。它可以最短在232毫秒內響應音頻輸入，平均為320毫秒，這與人類在對話中的響應時間相似。

在GPT-4o之前，用戶可以使用Voice Mode（由三個獨立模型組成）與ChatGPT通話，但平均延遲為2.8秒（GPT-3.5）和5.4秒（GPT-4）。原理是Voice Mode利用一個簡單模型將音頻轉錄為文本，GPT-3.5或GPT-4接收文本並輸出文本，第三個簡單模型將文本轉換回音頻。

但這個過程會丟失大量資訊，例如GPT-4不能直接觀察音調、多個説話者或背景噪音，也不能輸出笑聲、歌聲或情感表達。利用GPT-4o，OpenAI訓練了一個跨文本、視覺和音頻的端到端新模型，這意味著所有輸入和輸出都由同一個神經網路處理，這是OpenAI第一個結合所有這些模式的模型，OpenAI仍在探索模型的功能及其局限性。

新語音模式是一種語音聊天助手。據Business Insider（商業內幕）報道，它能夠與用戶進行自然的來回對話，能夠帶著情感説話，它可以假裝興奮、友好，甚至諷刺。這可以秒殺Siri，用戶不需要像蘋果手機那樣使用“喚醒詞”或精確的命令比如“嘿Siri!”來使用語音功能。

OpenAI首席執行官山姆·奧特曼（Sam Altman）表示，新的語音和視頻模式是他用過的最好的電腦界面，感覺就像電影裏的AI。達到人類水準的反應時間和表達能力是一個很大的變化。“對我來説，與電腦交談從來都不是一件很自然的事，現在它做到了。隨著我們增加（可選的）個性化、訪問你的資訊、代表你採取行動的能力等等，我真的可以看到一個令人興奮的未來，我們能夠使用電腦做比以往任何時候都多的事情。”

從性能來看，OpenAI表示，在傳統基準測試中，GPT-4o在文本、推理和代碼智慧方面達到了GPT-4 Turbo級的性能，同時在多語言、音頻和視覺能力方面達到了新高度。它在英文文本和代碼上的性能與GPT-4 Turbo相當，在非英文文本上有顯著改善。

通過過濾訓練數據和訓練後改進模型行為等技術，GPT-4o在設計中內置了跨模式的安全性，並創建了新的安全系統，為語音輸出提供護欄。GPT-4o還與來自社會心理學、偏見和公平、錯誤資訊等領域的70多名外部專家開展廣泛的外部紅隊合作，以識別新增加的模式引入或放大的風險，提高與GPT-4o互動的安全性。

OpenAI表示，將繼續減少新發現的風險。由於認識到GPT-4o的音頻模式存在各種新的風險，目前公開的是文本和圖像輸入以及文本輸出，在接下來的幾週和幾個月裏將圍繞技術基礎設施、訓練後的可用性、發佈其他模式所需的安全性開展工作，例如音頻輸出將僅限于選定的預設聲音，並將遵守現有安全政策。

目前，GPT-4o的文本和圖像功能開始在ChatGPT中免費推出，Plus用戶可以享受到5倍的調用額度。在接下來的幾週內，OpenAI將在ChatGPT Plus中推出Voice Mode新版本，該版本帶有GPT-4o。

分享到

更多推薦

037165901996 回頂部