6月13日,由中國電影電視技術學會主辦的“菁彩視界·智享未來”2024北京國際電視技術研討會在京舉辦。來自國家廣播電視總局、中央廣播電視總臺、全國多家廣播電視臺的領導、行業專家學者以及創新技術企業的500余名代表共襄盛會,共同推進“超清化、移動化、智慧化”創新技術應用發展。在開幕式暨主旨報告會上,華為受邀參加,華為雲北京産品中心總經理楊輝發表了《盤古大模型在傳媒領域的應用探索》的主題演講,分享了華為雲盤古大模型解決方案及其在傳媒領域的諸多應用場景和實踐效果。
【2024ITTC主旨報告會】
生成式AI,正在用技術重塑藝術創作
近年來,超高清視聽與5G、人工智慧、虛擬現實等新一代資訊技術深度融合創新發展,催生大量新場景、新應用、新模式,成為千行百業數字化轉型的重要賦能力量。繪畫、雕塑、攝影、音樂、舞蹈、戲劇、文學和影視藝術等多種藝術形態的創作方式正在發生變化,生成式AI正在用技術重塑藝術創作。
在生成式AI時代,創作流程得以改變,以往需要長時間驗證和高門檻的創意過程,現在可以通過AI輔助快速生成內容。例如,使用盤古多模態大模型,就可以實現以文生圖、以圖生圖甚至文生視頻和圖生視頻的功能。這降低了藝術創作的入門難度,使得只要有創意,任何人都能創作自己的藝術作品。
更多模態,多維感知,萬物理解,開啟AIGC新範式
相較于“文本理解世界”的大模型,盤古多模態大模型的優勢在於能夠通過更多模態理解世界,如圖像、視頻、語音、3D、時序數據等。盤古多模態大模型的主要優勢,還在於模型架構穩固且支援增量擴展,能夠輕鬆融入音頻、視頻等多種模態,並通過高效的模態對齊方式持續沉澱知識。增量擴展模態的開銷大幅全量訓練,顯著降低成本。同時,模型能力多樣且不斷提升,涵蓋了基礎、高階和專家能力,支援多尺度視覺表徵提取和高解析度編碼器,滿足客戶各種模型開發需求。與此同時,還提供零代碼模型開發全流程工具,讓使用更加便捷。在訓練和推理方面,追求持續降本增效,全棧AI自主創新,可確保模型量化效果降幅微小。
楊輝在主題演講中指出,盤古多模態大模型具有多個典型應用場景,例如在內容審核方面,如文本、圖片、音頻、視頻的全棧式審核,保障資訊安全;在內容創作上,輔助文案生成,提升創作效率;在知識問答和文檔助理場景下,提供準確的資訊查詢和文檔處理服務;在城市治理和智慧醫療領域,發揮著數據分析和決策支援作用;在視覺問答、常識推理和色彩感知等視覺任務中表現優秀;並能進行關係推理、數量感知以及空間推理等複雜的認知任務。此外,模型在遙感、視頻分析、行為識別、場景識別、實體識別以及OCR等方面均有涉及,顯示了其廣泛的應用潛力。
在圖像生成方面,人工智慧在藝術創作中展現出強大的創新力,包括概念注入、以圖生圖和以文生圖等多種形式。圖像理解是多模態全棧式內容審核的關鍵部分,利用先進的電腦視覺(CV)技術和自然語言處理(NLP)技術,對文本、圖片、音頻、視頻和直播內容進行全面審核。在影視工業生産中,AI世界模型正助力高真實感、低成本的虛擬拍攝,逐步替代綠幕和3D引擎技術,通過AI生成的虛擬內容與實拍鏡頭融合,提供更加自然的演員表演環境。此外,視頻生成技術也在自動駕駛場景數據生成和具身智慧機械臂操作視頻生成中發揮作用,提高了數據生成的效率和品質。
科技賦能發展,創新決勝未來。盤古多模態大模型以其強大的能力,展現了多模態理解世界的廣闊前景。通過更多模態的感知,模型能夠更好地理解世界,實現更高效、更準確地創作和審核。展望未來,華為將繼續攜手夥伴共同推進“超清化、移動化、智慧化”創新技術應用的落地,華為盤古大模型將為AIGC可信高效發展注入強勁動力,為智慧世界帶來更多可能。