訊飛星火V3.5革新知識獲取，長文本、長圖文、長語音一網打盡-中國網

您的位置：首頁 > 要聞新聞詳情

訊飛星火V3.5革新知識獲取，長文本、長圖文、長語音一網打盡

發佈時間 | 2024-05-27 11:36:05

4月26日，星火大模型V3.5春季上新，業界首次實現對長篇幅文本、複雜圖文內容及長時間語音資訊的高效處理與精準理解。該模型在眾多行業領域展現出了卓越的專業素養，能迅速吸收並應對各類資訊挑戰，提供富有情感色彩的回應，同時引入創新的情感模擬技術，賦予AI更具人性化的語音特質。此次升級還包括一鍵聲音複製功能，極大豐富了人機互動的真實感。

首發長文本、長圖文、長語音大模型

為什麼科大訊飛要做長文本、長圖文、長語音的大模型？

通過訊飛星火APP可以看到，用戶使用的最高峰不是週末，而是工作日的上午9:30和下午3:30。這意味著，大部分用戶用訊飛星火來解決和工作相關的剛需問題。而高效的知識獲取是用戶和開發者都高度關注的問題。

科大訊飛分析發現，在知識獲取和學習的過程中，廣大用戶能拿到的資料往往不僅是現成的長文本，還有隨手可見的報刊書籍內容、各種研討會的PPT內容，老師黑板上的板書、同學的筆記，以及各種會議錄音、訪談，各種網上的發佈會、培訓教育視頻等，能不能把這些文本、圖片、語音等都上傳到訊飛星火中，快速地獲取知識？

為此，科大訊飛推出頭個支援長文本、長圖文、長語音的大模型，來解決用戶真實場景中多源資訊的獲取需求。

本次訊飛星火長文本功能全新升級後，具備長文檔資訊抽取、長文檔知識問答、長文檔歸納總結、長文檔文本生成等能力，總體已經達到GPT-4 Turbo 4月最新長文本版本的97%水準，而在銀行、保險、汽車、電力等多個垂直領域的知識問答任務上，訊飛星火長文本總體水準已經超過GPT-4 Turbo。

長文本功能的落地需要解決資訊高效處理的問題：面對上百萬甚至上千萬文字，長文本大模型消耗的運算資源非常大。

為了解決大模型應用效率和準確率問題，科大訊飛董事長劉慶峰説，基於訊飛星火V3.5對長文本的理解、學習、回答能力，科大訊飛進行了重要的模型剪枝和蒸餾，從而推出業界性能最優的130億參數的大模型，在效果損失僅3%以內的情況下，使得星火在文檔上傳解析處理、知識問答的首響時間以及文字生成方面都獲得了極大的效率提升。測試顯示，在保障長文本效果的情況下，無論是10K、64K、128K token，還是更長的文本，星火大模型的性能都做到業界最優。

面向複雜的圖文場景，科大訊飛在圖文識別、公式識別大賽多年國際榜首的技術積累基礎上，首次推出星火圖文識別大模型。相比傳統小模型逐行文字識別的限制，星火圖文識別大模型能夠直接處理非常複雜的版面分析，目前已經覆蓋31個典型場景，比如書刊、學術論文、專利、報紙、海報、PPT等，同時能自動識別標注出18類不同的版面要素，比如頁眉、頁腳、標題、段落、表格、公式、印章、手寫等。

此外，面對廣泛的音視頻資訊高效獲取需求，科大訊飛也推出長語音功能，將國際領先的語音識別和翻譯技術結合起來，可以實現會議錄音、學習視頻等的一鍵研讀，實現音視頻場景的高效知識獲取。

能“情感共鳴”，還能“一句話聲音復刻”

萬物互聯時代下需要更真實的AI語音交互。年初訊飛星火V3.5發佈會上，科大訊飛推出了超擬人對話功能，AI的聲音更自然更真實，擬人度達到了83%，受到用戶的廣泛歡迎。無論是語音可懂度、流暢度還是表現力，效果均超過OpenAI、微軟。

此次科大訊飛發佈多情感超擬人合成，進一步提升了情緒表達的可感知度，對高興、抱歉、安慰、撒嬌、困惑等情緒表達的可感知度達到85%以上，AI語音的生動、真實性再度提升。

除了超擬人對話，科大訊飛還推出“一句話聲音復刻”功能，一句話就可以定制你的AI助手聲音。比如模倣小朋友的聲音，每天給爺爺奶奶讀書讀報；在我們出差的時候，模倣我們的聲音給孩子講故事。這個功能可以讓世界變得更有溫度。

科大訊飛通過其持續的創新與努力，成功打造了一個具備高度人性化交互體驗的智慧大模型，不僅滿足了用戶在長文本、長圖文、長語音處理方面的需求，更通過引入情感模擬技術，讓AI的回應更加貼近人心。未來，我們有理由期待科大訊飛在人工智慧領域繼續書寫更多輝煌篇章，讓技術真正服務於人類，讓生活因AI而更加美好。

（推廣）

來源：東方網 | 撰稿：科大訊飛 | 責編：谷晟審核：張淵

新聞投稿：184042016@qq.com 新聞熱線：135 8189 2583

原創