喜馬拉雅出席RTE網際網路大會,展望AIGC助推音頻行業未來創作

發佈時間:2023-10-30 來源:中國網商務 作者:商聞 責任編輯:沈曄

2023年10月24日至25日,北京成功舉辦了第九屆RTE2023實時網際網路大會,這次盛會邀請到了喜馬拉雅的首席科學家盧恒和喜馬拉雅喜播教育副總經理江敏出席。兩位代表在大會的“音頻專場”和“線上教育”專場論壇中分別探討AI在音頻行業和線上教育領域的未來發展前景。

RTE2023大會聚集了來自音視頻、網際網路技術、線上教育等多個領域的專家和技術人才,共設了20余場論壇和活動,圍繞音頻AI演算法、前沿音頻技術應用等熱門話題展開深入討論。

喜馬拉雅首席科學家盧恒對AIGC技術的發展充滿信心。他認為這一技術標誌著音頻産業正邁入全新的內容創作時代。然而,他強調AIGC並非要完全取代人類創作者,而是要成為創作者和企業的有力助手。盧恒詳細介紹了喜馬拉雅珠峰實驗室在AIGC領域的多維度應用,包括多角色小説音頻AIGC技術和多模態情感識別與情感內容生成。

據盧恒透露,喜馬拉雅的AIGC技術在音色轉換和有聲書主播領域已經取得了令人矚目的進展,展現出巨大的潛力。盧恒指出,以音頻創作技術中的“多角色小説音頻AIGC技術”為例,這一技術能夠根據創作者提供的題材,自動進行角色識別、音色分配,並進行多種情感風格的語音合成、情感轉化,最後自動添加適當的後期效果等。這一應用使得通過AIGC技術進行內容創作不僅顯著提升了創作效率,還拓寬了創作的方向和內容,大幅降低了音頻創作門檻,同時也擴大了內容創作者的規模和用戶群體。

而近期,由喜馬拉雅和⻄北⼯業⼤學合作研發的語⾳⽣成式⼤模型技術,已經能夠結合預訓練大模型及大語言模型,分別提取離散的Speech token及連續的Speech Vector,該技術能夠實現style和音色的獨立控制以及transfer,同時能夠實現5秒鐘音色定制,並且該框架還能應用於VC、S2ST等不同場景。

在情感表達方面,盧恒領導的珠峰實驗室參考心理學對情感的定義和分類,進行了廣泛的研究,從而成功建立了“喜怒悲懼驚厭警讚無”等9種情感分類,以更精細地捕捉文本中的複雜情感。此外,在多模態情感識別與情感內容生成領域,喜馬拉雅已經成功開發了新一代的自動化AudioPS技術,通過美化語音信號的情感、韻律和風格,將音頻作品的品質提升至優秀大主播的水準,使音頻內容更貼近當下的情境。

在教育領域,喜播教育的副總經理江敏分享了如何借助AI技術開創新教育模式的經驗。她強調,喜播教育致力於為音頻領域的人才提供全鏈條的系統培訓和就業指導服務。江敏介紹了喜播教育的多款AI助學工具,如AI練功房和AI角色音測試,這些工具提高了學員的訓練和自我評估效率。

盧恒和江敏一致認為,AIGC技術將持續影響音頻産業和線上教育領域的未來發展。他們表示,喜馬拉雅將繼續探索AIGC技術的應用,提供更多優質、多元、智慧和便捷的産品和服務,以滿足不斷升級的用戶需求,助力音頻産業和線上教育行業不斷向前發展,幫助更多人實現美好人生。

此外,喜播教育也成立了專項研究小組,早在2018年就上線了一站式學習及教務管理系統,提前關注5G、AIGC等資訊技術的推動下涌現的智慧教育新應用和新職業。

為此,喜播教育先後上線了多款AI 教學及評測産品,並搭建AI練習場景,讓學員能夠通過系統的學習和科學有效的訓練,掌握有聲書製作及運營所需要的演播、後期製作、導演、運營等綜合能力,進而能夠通過這些能力去實現兼職就業,甚至專門從事這一行業,變成一名全職的有聲演播者。

除了有聲書主播,喜播教育還為學員提供多元化的賦能培訓機會,如音頻剪輯後期培訓和娛樂主播培訓。喜播教育通過自建MCN的方式挖掘和扶持有潛力的娛樂主播人才,幫助更多人實現多元化的職業發展和選擇。

江敏同樣表示,AIGC對教育行業的“滲透”是不可逆的,是大勢所趨。她鼓勵積極擁抱這一趨勢,並利用AIGC為學員和用戶謀福利,創造機會。

作為AIGC技術的受益者和引領者,喜馬拉雅不斷延伸和挖掘這一技術在用戶需求和體驗等層面的價值和作用。在AIGC技術的引領下,我們可以期待音頻領域的無限可能性,以及音頻教育的更多創新,去惠及音頻愛好者和創作者。(主辦方供圖)

相關資訊

中文 English Français Deutsch 日本語
Русский язык Español عربي 한국어

中國網客戶端

國家重點新聞網站,9語種權威發佈

立即下載