金山云高級技術(shù)總監(jiān)韓博：多模態(tài)理解視頻，5G時代AI的認知進階

5G寬帶 dvbcn編輯 2019-05-30 16:40 閱讀 5,137 來源：DVBCN 　

5月28日，第七屆中國網(wǎng)絡(luò)視聽大會由金山云承辦的以“5G釋能超清視界”為主題的“5G視頻應(yīng)用創(chuàng)新技術(shù)論壇”上，金山云高級技術(shù)總監(jiān)韓博發(fā)表了題為《多模態(tài)理解視頻，5G時代的AI認知進階》的主題演講。韓博表示，5G時代，AI也要跟上，金山云將運用自身相關(guān)的輸出和能力真正的解決行業(yè)當中遇到的各種問題。

金山云高級技術(shù)總監(jiān)韓博：多模態(tài)理解視頻，5G時代AI的認知進階-DVBCN

圖：金山云高級技術(shù)總監(jiān)韓博

首先，韓博講到通信技術(shù)的發(fā)展和內(nèi)容傳播的關(guān)系。每一次通信技術(shù)的變革對消費者來說感觸最大的是信息載體，也就是內(nèi)容形式上的變化。2G時代使用短信和QQ文字的溝通方式。3G時代是圖片時代。人們開始使用圖片記錄分享生活中的精彩瞬間。進入4G時代，短視頻和直播蓬勃發(fā)展。14年被稱為移動互聯(lián)網(wǎng)的元年，依托技術(shù)涌現(xiàn)了很多非常知名的公司，頭條系、快手系、抖魚、龍珠等等。

5G是一個新時代，首先一定是一個視頻時代。5G帶來的高帶寬、低延時、低成本，大并發(fā)的等優(yōu)勢給新的視頻形態(tài)的產(chǎn)生和傳播帶來了新的機遇。還有一個方面是物聯(lián)網(wǎng)。一個單一的基站可以接入上千、上百萬的小型的IOT設(shè)備，給物聯(lián)網(wǎng)帶來新的繁榮的機會。另外，從內(nèi)容傳輸?shù)慕嵌龋?G的到來也會真正的把VR/AR代入蓬勃發(fā)展期。

5G技術(shù)帶領(lǐng)視頻進入生活智能化時代

回到命題，5G帶我們?nèi)孢M入了視頻時代，生活智能化從幾個方面體現(xiàn)，一個是5G推動了IOT技術(shù)的發(fā)展讓傳播和制作更加方便。再之后是AI賦能生產(chǎn)，人工智能技術(shù)已經(jīng)貫穿了內(nèi)容生產(chǎn)的全過程，使過程更加高效。最后是內(nèi)容分發(fā)，做高質(zhì)量的真正的個性化推薦，讓內(nèi)容直接觸達用戶，這就是AI感知賦能內(nèi)容生產(chǎn)的全過程。

韓博接下來談到了用戶感知升級。金山云在AI賦能生產(chǎn)方面已經(jīng)嘗試了兩年多的時間，從兩年前的圖片層面到如今感知升級到語義的層面，這是一個視頻理解的過程。5G的一個重要的方面是記錄生活，生活到底是什么，生活并不僅僅是一系列的快照，而是隨著時間變化在現(xiàn)實世界中發(fā)生的事情，是一個動詞，而不是名詞。

隨后，韓博談到單模態(tài)理解的局限性，相似的圖像會造成誤判，韓博舉例到一個人拿著一根棒棒糖，單純看圖難以分辨他是在抽煙還是吃糖。如何解決這個問題呢？在多模態(tài)的情況下，有前后文，多模態(tài)的場景可以很好的解決這個問題。另外脫離場景判斷內(nèi)容，判斷是跟場景、其他的信息相關(guān)時會更加客觀。最后結(jié)合文本識別。韓博強調(diào)，真正的多模態(tài)融合，最終要輸出一個跟場景和具體命題相關(guān)的整體視頻結(jié)論。

多模態(tài)融合理解助力讀懂視頻

韓博介紹到在讀懂視頻這件事情上金山云具體的實現(xiàn)方案分為兩個階段：第一個是感知階段，第二個是推理階段?，F(xiàn)有的絕大多數(shù)技術(shù)更多的是局限于前一個階段，一些低層語義的信息感知上，而且感知的手段是多方面的，可以有音頻、視頻圖像，還可以有字幕，一系列的基礎(chǔ)模型，OCR識別、音頻識別，人臉識別，可以處理一堆結(jié)果，這是相關(guān)標簽，但是這些標簽并不足以支撐最終讀懂視頻，缺一個推理的過程，最終我們需要一個決策引擎把所有的信息融合在一起。

韓博以內(nèi)容審核為例，如果你在前面一系列的視頻得出的標簽，有一女生穿著校服，還有一個場景是封閉的賓館，那么以現(xiàn)有的知識圖譜講是有一定的危險度場景，需要進一步的判斷或者進一步分析。

韓博介紹到多模態(tài)的概念，模態(tài)是一個生物學(xué)的概念，是一個生物通過自己的感覺器官，通過自己的新知識從自然界或者外界的信息中獲取信息的一個通道。從計算機科學(xué)的角度講，其實是一個感官或者是信息的通道，從不同的感官上搜集信息，最終做綜合的決策。

隨后韓博談到內(nèi)容生產(chǎn)的幾個場景：語音字幕You Tube已經(jīng)有這樣的場景，自動的進行語音的轉(zhuǎn)寫。還有智能的BGM，根據(jù)視頻的內(nèi)容自動的推薦音樂，可以分析整個視頻中的節(jié)奏和韻律推薦最合適的音樂。還有視頻特效，識別出對應(yīng)的場景和動作，可以自動添加視頻特效，相當于把5G內(nèi)容生產(chǎn)的門檻進一步降低。多模態(tài)融合也存在許多技術(shù)難點，主要體現(xiàn)在兩個方面：第一個還是特征，第二個是融合。

相對于 AI 目前所展示出在圖像和語音領(lǐng)域的單一感知能力，視頻理解更加復(fù)雜，也更加困難，這體現(xiàn)在理解視頻是二者的疊加，是圖像到視頻的變化。對于一個視頻來講目前的模態(tài)區(qū)分成以下幾個方面，首先是視頻截禎，有可能封面或者代表性的圖片，還有音頻提取或者視頻本身。對于音頻，一方面用ASR轉(zhuǎn)化成文本，還有一種經(jīng)過聲文的特征，謾罵等等敏感詞，會經(jīng)過聲文特征的模型。還有一個文本分析的過程，最終這幾類的信息會進入決策引擎，產(chǎn)生AI認知，這是全過程。

最后，韓博介紹了多模態(tài)視頻理解帶來的展望，首先是人機交互的升級，無論是物聯(lián)網(wǎng)、智能家居，其實都是一個典型的多模態(tài)過程?，F(xiàn)在用戶家中都有智能音箱入口，還有各種各樣的傳感器感知到周圍環(huán)境的變化，某種意義上這就是多模態(tài)的過程，而且多模態(tài)交互最終的訴求是想人機交互會更加自然，使用戶感到溫度，所以多模態(tài)一定是未來5G的大趨勢。最終帶來的算法技術(shù)的革新，新的技術(shù)場景一定會推動技術(shù)的演進，AI的技術(shù)會跟著5G的技術(shù)一起成長，一起賦能人類美好生活。