“大模型的核心意義是做更好的資訊處理,大部分的資訊體現在多模態的內容裏面,而不是體現在文字上。”MiniMax創始人閆俊傑如此解釋上線視頻、音樂生成模型的初衷。
近日,在“2024 MiniMax Link夥伴日”活動上,MiniMax發佈了基於MOE(混合專家模型)+ Linear Attention(線性注意力)的新型線性模型架構,並展示了MiniMax最新音樂模型、視頻模型的研發成果。
MiniMax新型線性模型架構能在單位時間內更加高效地訓練海量數據,極大地提升了模型的實用性和響應速度。在與GPT-4o同一代模型能力對比上,MiniMax的新一代模型處理10萬token時效率可提升2-3倍,並且隨著長度越長,提升越明顯。相比于通用Transformer架構,新架構的原生線性計算複雜度大幅減少了大模型的訓練和推理成本。在128K的序列長度下,新架構成本減少90%以上。
據介紹,MiniMax視頻模型具有壓縮率高、文本響應好和風格多樣等優點,可生成原生高解析度、高幀率視頻,模型能力首屈一指。
閆俊傑分析,視頻模型與文本模型有著本質區別,前者處理量大,更具複雜性,因此無法應用文本模型所構建的底層基礎設施,用於數據處理、清洗以及標注等。視頻模型不僅需要升級基礎設施,還因為缺少開源的內容,需要投入更多耐心。
MiniMax第一款音樂模型則可以合成純音樂為製作人快速構建歌曲的基本結構,由歌手自由演繹主唱或和聲部分。沒有伴奏,音樂模型也可以是實力歌手,清唱作品同樣不在話下。值得一提的是,MiniMax語音模型已實現對粵語、日語、韓語、西班牙語等多語種支援的升級。
目前,全球領先的MiniMax音樂生成模型與視頻生成模型已經在開放平臺和海螺AI網頁版上線。此外,abab 7系列模型將於未來數周內正式發佈,並採用新一代創新技術。
MiniMax成立於2021年,是一家專注于推動通用人工智慧技術突破的科技創業公司,已經獲得阿裏、騰訊、紅杉中國、高瓴創投、IDG資本等機構投資。公司擁有自研多模態通用大模型,此前基於大模型發佈了針對企業客戶的技術開放平臺,和海螺A1、星野等多款C端AI應用産品。
MiniMax所打造的AI內容社區注重內容交互。據統計,MiniMax每日與全球用戶進行超30億次交互,處理超3萬億文本token、2000萬張圖片和7萬小時語音,大模型日處理交互量排名國內AI公司首位。
MiniMax主要通過開放平臺和在産品中植入廣告實現商業化。“目前最重要的東西還不是商業化,而是真正達到技術可廣泛可用的程度。”閆俊傑當下思考更多的還是技術如何提升,以及如何跟用戶做更好的共創。
(責任編輯:張紫祎)