語音、手勢、觸控、人臉等,思必馳多模態交互開啟智慧經濟時代

發佈時間:2021-07-08 11:22:41 | 來源:中國網 | 作者:辛文 | 責任編輯:李媛

人類的交互通道有眼耳鼻舌口等器官,他們充當著外在世界信號的“接收器”,將範圍內的信號接收並傳遞給“大腦”。在機器世界裏,從過去滑鼠鍵盤轉變成當下的觸控、語音、手勢、視覺等,多模態人機交互技術正在彼此融合。

目前智慧語音具備兼顧老人、兒童以及地方方言的能力,語音與視覺,觸屏,LCD反饋顯示結合的交互體驗,令交互門檻的不斷降低。國內專業的對話式AI企業思必馳,結合全鏈路語音交互技術及自研電腦視覺技術推出多模態交互技術方案,落地白電、黑電智慧終端,滿足用戶智慧化需求。

機器的“眼耳鼻舌口”

機器能夠聽懂人類説話,産生對話並提供服務,大大增強了物聯網設備實際使用價值。越來越多搭載語音交互平臺,能夠實現對話的物聯網設備,從電視、冰箱到家居設備,各種終端不勝枚舉。

在實踐過程中發現,語音交互的物聯網設備缺乏主動服務的能力,只是換了操作方式,用戶體驗沒有本質提升。這種缺乏主動服務的人機關係怎麼改變呢?答案也許是讓機器除了能聽和説之外,還要能看,能感覺,能將五感聯繫到一起進行思考。

在智慧語音交互發展的過程中,多模態交互是一個必經階段。擁有各種感測器的智慧設備,除了能聽(耳)會説(嘴),同時還利用攝像頭(眼)觀察、底盤雲臺(腳)移動等,從而全面的理解用戶、與用戶進行溝通,從而滿足用戶的需求。

這個交互過程模擬了人與人之間的交互方式,使交互更自然、更切合用戶意圖。這一交互方式打破了傳統的鍵盤輸入和智慧手機的點觸式交互方式,符合“機器人”類産品的形態特點和用戶期待,定義了下一代智慧産品和人的專屬交互模式。

三方面加持,深化多模態交互

智慧經濟時代,人機交互將全面智慧化並帶來一系列的深度變革。需要不斷升級産品、內容、服務,才能更好地適應用戶在未來智慧化終端上的需求和習慣。

思必馳作為國內專業的對話式人工智慧平臺公司,從信號處理、識別到理解到交互,思必馳擁有全面的智慧語音語言技術。思必馳多模態交互技術的應用,主要為以下三個方面:

多模態VAD

根據視覺和音頻特徵,通過多模態融合的方式識別出説話人的語音內容,拒識其他説話人的聲音,從而實現輔助降噪、拒識

人臉識別&人臉對比

人臉識別:人臉關鍵點、頭部姿態角、人臉與攝像頭距離角度、性別、年齡、口罩等;

人臉對比:首先進行人臉註冊,提取註冊人臉的特徵;對需要對比的人臉提取特徵,並與註冊的人臉特徵進行對比,識別出該人臉是否註冊及其FaceID;

手勢識別

當用戶説了一天的話,坐在沙發上想看個電視卻找不到遙控器換臺,他抬手在面板前,用手勢切換臺;

用戶在聽音樂,此時電話來了,他用手勢示意面板將音樂暫停;

從智慧家居,到“多模態”開花

依託智慧語音行業深耕多年的經驗及關鍵技術優勢,結合全鏈路語音交互技術及自研電腦視覺技術,思必馳的多模態交互技術方案已經落地眾多智慧終端産品,滿足用戶智慧化需求。

智慧家居領域,針對空調、冰箱、爐灶等白電産品,思必馳推出智慧白電 AI交互解決方案。根據智慧白電的不同組網模式(中控/分佈式/單機),思必馳提供正面喚醒、就近喚醒、語義喚醒以及多模態綜合喚醒方案。

黑電領域,智慧電視作為「客廳經濟」中的核心代表産品,佔據客廳場景最大的流量入口。思必馳為智慧電視打造流暢自然的語音入口+輸出,同時背靠DUI平臺,打通了超過300家第三方資源介面,為用戶提供全屋家居控制、交通出行、新聞資訊、生活娛樂等各領域內容服務。

針對周邊嘈雜干擾大、多人密集同時交互的情況,比如多位用戶在激烈的玩電子遊戲、親朋好友聚會等。思必馳多模態交互技術方案,根據視覺和音頻特徵,通過多模態融合VAD分離出説話人的目標語音,拒識其他説話人的聲音,實現輔助降噪、提高聲源定位的精準度,即使説話人在移動狀態下也不受影響。

另外,思必馳多模態交互技術方案還可以應用在會議大屏、商場顯示大屏、地鐵購票機等商用帶屏顯示設備中,目前此技術已在全國多個地區地鐵的購票設備中落地。

隨著思必馳旗下深聰智慧第二代AI晶片發佈,思必馳在多模態方面的演進路線更加明朗。語音、圖像、手勢等交互方式的交融能夠極大程度降低用戶的AI體驗門檻,未來,思必馳將繼續發揮優勢並持續打造更多滿足AI應用場景的産品,為智慧經濟時代提供向上引擎。