最新原創 專題 新經濟 曝光臺 中國訪談 中國三分鐘 沖浪特殊資産 潮評社 溫州 紹興 衢州 淳安 岱山 桐廬 文娛 元宇宙
您的位置:首頁 > 要聞 新聞詳情
訊飛星火V3.5革新知識獲取,長文本、長圖文、長語音一網打盡
發佈時間 | 2024-05-27 11:36:05    

4月26日,星火大模型V3.5春季上新,業界首次實現對長篇幅文本、複雜圖文內容及長時間語音資訊的高效處理與精準理解。該模型在眾多行業領域展現出了卓越的專業素養,能迅速吸收並應對各類資訊挑戰,提供富有情感色彩的回應,同時引入創新的情感模擬技術,賦予AI更具人性化的語音特質。此次升級還包括一鍵聲音複製功能,極大豐富了人機互動的真實感。

首發長文本、長圖文、長語音大模型

為什麼科大訊飛要做長文本、長圖文、長語音的大模型?

通過訊飛星火APP可以看到,用戶使用的最高峰不是週末,而是工作日的上午9:30和下午3:30。這意味著,大部分用戶用訊飛星火來解決和工作相關的剛需問題。而高效的知識獲取是用戶和開發者都高度關注的問題。

科大訊飛分析發現,在知識獲取和學習的過程中,廣大用戶能拿到的資料往往不僅是現成的長文本,還有隨手可見的報刊書籍內容、各種研討會的PPT內容,老師黑板上的板書、同學的筆記,以及各種會議錄音、訪談,各種網上的發佈會、培訓教育視頻等,能不能把這些文本、圖片、語音等都上傳到訊飛星火中,快速地獲取知識?

為此,科大訊飛推出頭個支援長文本、長圖文、長語音的大模型,來解決用戶真實場景中多源資訊的獲取需求。

本次訊飛星火長文本功能全新升級後,具備長文檔資訊抽取、長文檔知識問答、長文檔歸納總結、長文檔文本生成等能力,總體已經達到GPT-4 Turbo 4月最新長文本版本的97%水準,而在銀行、保險、汽車、電力等多個垂直領域的知識問答任務上,訊飛星火長文本總體水準已經超過GPT-4 Turbo。

長文本功能的落地需要解決資訊高效處理的問題:面對上百萬甚至上千萬文字,長文本大模型消耗的運算資源非常大。

為了解決大模型應用效率和準確率問題,科大訊飛董事長劉慶峰説,基於訊飛星火V3.5對長文本的理解、學習、回答能力,科大訊飛進行了重要的模型剪枝和蒸餾,從而推出業界性能最優的130億參數的大模型,在效果損失僅3%以內的情況下,使得星火在文檔上傳解析處理、知識問答的首響時間以及文字生成方面都獲得了極大的效率提升。測試顯示,在保障長文本效果的情況下,無論是10K、64K、128K token,還是更長的文本,星火大模型的性能都做到業界最優。

面向複雜的圖文場景,科大訊飛在圖文識別、公式識別大賽多年國際榜首的技術積累基礎上,首次推出星火圖文識別大模型。相比傳統小模型逐行文字識別的限制,星火圖文識別大模型能夠直接處理非常複雜的版面分析,目前已經覆蓋31個典型場景,比如書刊、學術論文、專利、報紙、海報、PPT等,同時能自動識別標注出18類不同的版面要素,比如頁眉、頁腳、標題、段落、表格、公式、印章、手寫等。

此外,面對廣泛的音視頻資訊高效獲取需求,科大訊飛也推出長語音功能,將國際領先的語音識別和翻譯技術結合起來,可以實現會議錄音、學習視頻等的一鍵研讀,實現音視頻場景的高效知識獲取。

能“情感共鳴”,還能“一句話聲音復刻”

萬物互聯時代下需要更真實的AI語音交互。年初訊飛星火V3.5發佈會上,科大訊飛推出了超擬人對話功能,AI的聲音更自然更真實,擬人度達到了83%,受到用戶的廣泛歡迎。無論是語音可懂度、流暢度還是表現力,效果均超過OpenAI、微軟。

此次科大訊飛發佈多情感超擬人合成,進一步提升了情緒表達的可感知度,對高興、抱歉、安慰、撒嬌、困惑等情緒表達的可感知度達到85%以上,AI語音的生動、真實性再度提升。

除了超擬人對話,科大訊飛還推出“一句話聲音復刻”功能,一句話就可以定制你的AI助手聲音。比如模倣小朋友的聲音,每天給爺爺奶奶讀書讀報;在我們出差的時候,模倣我們的聲音給孩子講故事。這個功能可以讓世界變得更有溫度。

科大訊飛通過其持續的創新與努力,成功打造了一個具備高度人性化交互體驗的智慧大模型,不僅滿足了用戶在長文本、長圖文、長語音處理方面的需求,更通過引入情感模擬技術,讓AI的回應更加貼近人心。未來,我們有理由期待科大訊飛在人工智慧領域繼續書寫更多輝煌篇章,讓技術真正服務於人類,讓生活因AI而更加美好。

(推廣)

來源:東方網    | 撰稿:科大訊飛    | 責編:谷晟    審核:張淵

新聞投稿:184042016@qq.com    新聞熱線:135 8189 2583