德州惩缀会展服务有限公司|午夜喷潮精品|无码不卡在线视频|国产黄A三级三级看三级|综合AV第一页|午夜福利在线播放|四虎黄片|免费国产91网站|日韩足交|国产愉拍91九色国产愉拍|高清无码免费不卡

金山云高級技術(shù)總監(jiān)韓博:多模態(tài)理解視頻,5G時代AI的認知進階

5月28日,第七屆中國網(wǎng)絡(luò)視聽大會由金山云承辦的以“5G釋能 超清視界”為主題的“5G視頻應(yīng)用創(chuàng)新技術(shù)論壇”上,金山云高級技術(shù)總監(jiān)韓博發(fā)表了題為《多模態(tài)理解視頻,5G時代的AI認知進階》的主題演講。韓博表示,5G時代,AI也要跟上,金山云將運用自身相關(guān)的輸出和能力真正的解決行業(yè)當中遇到的各種問題。
 
金山云高級技術(shù)總監(jiān)韓博:多模態(tài)理解視頻,5G時代AI的認知進階-DVBCN

圖:金山云高級技術(shù)總監(jiān)韓博

 
首先,韓博講到通信技術(shù)的發(fā)展和內(nèi)容傳播的關(guān)系。每一次通信技術(shù)的變革對消費者來說感觸最大的是信息載體,也就是內(nèi)容形式上的變化。2G時代使用短信和QQ文字的溝通方式。3G時代是圖片時代。人們開始使用圖片記錄分享生活中的精彩瞬間。進入4G時代,短視頻和直播蓬勃發(fā)展。14年被稱為移動互聯(lián)網(wǎng)的元年,依托技術(shù)涌現(xiàn)了很多非常知名的公司,頭條系、快手系、抖魚、龍珠等等。
 
5G是一個新時代,首先一定是一個視頻時代。5G帶來的高帶寬、低延時、低成本,大并發(fā)的等優(yōu)勢給新的視頻形態(tài)的產(chǎn)生和傳播帶來了新的機遇。還有一個方面是物聯(lián)網(wǎng)。一個單一的基站可以接入上千、上百萬的小型的IOT設(shè)備,給物聯(lián)網(wǎng)帶來新的繁榮的機會。另外,從內(nèi)容傳輸?shù)慕嵌龋?G的到來也會真正的把VR/AR代入蓬勃發(fā)展期。
 
5G技術(shù)帶領(lǐng)視頻進入生活智能化時代
 
回到命題,5G帶我們?nèi)孢M入了視頻時代,生活智能化從幾個方面體現(xiàn),一個是5G推動了IOT技術(shù)的發(fā)展讓傳播和制作更加方便。再之后是AI賦能生產(chǎn),人工智能技術(shù)已經(jīng)貫穿了內(nèi)容生產(chǎn)的全過程,使過程更加高效。最后是內(nèi)容分發(fā),做高質(zhì)量的真正的個性化推薦,讓內(nèi)容直接觸達用戶,這就是AI感知賦能內(nèi)容生產(chǎn)的全過程。
 
韓博接下來談到了用戶感知升級。金山云在AI賦能生產(chǎn)方面已經(jīng)嘗試了兩年多的時間,從兩年前的圖片層面到如今感知升級到語義的層面,這是一個視頻理解的過程。5G的一個重要的方面是記錄生活,生活到底是什么,生活并不僅僅是一系列的快照,而是隨著時間變化在現(xiàn)實世界中發(fā)生的事情,是一個動詞,而不是名詞。
 
隨后,韓博談到單模態(tài)理解的局限性,相似的圖像會造成誤判,韓博舉例到一個人拿著一根棒棒糖,單純看圖難以分辨他是在抽煙還是吃糖。如何解決這個問題呢?在多模態(tài)的情況下,有前后文,多模態(tài)的場景可以很好的解決這個問題。另外脫離場景判斷內(nèi)容,判斷是跟場景、其他的信息相關(guān)時會更加客觀。最后結(jié)合文本識別。韓博強調(diào),真正的多模態(tài)融合,最終要輸出一個跟場景和具體命題相關(guān)的整體視頻結(jié)論。
 
多模態(tài)融合理解助力讀懂視頻
 
韓博介紹到在讀懂視頻這件事情上金山云具體的實現(xiàn)方案分為兩個階段:第一個是感知階段,第二個是推理階段?,F(xiàn)有的絕大多數(shù)技術(shù)更多的是局限于前一個階段,一些低層語義的信息感知上,而且感知的手段是多方面的,可以有音頻、視頻圖像,還可以有字幕,一系列的基礎(chǔ)模型,OCR識別、音頻識別,人臉識別,可以處理一堆結(jié)果,這是相關(guān)標簽,但是這些標簽并不足以支撐最終讀懂視頻,缺一個推理的過程,最終我們需要一個決策引擎把所有的信息融合在一起。
   
韓博以內(nèi)容審核為例,如果你在前面一系列的視頻得出的標簽,有一女生穿著校服,還有一個場景是封閉的賓館,那么以現(xiàn)有的知識圖譜講是有一定的危險度場景,需要進一步的判斷或者進一步分析。
 
韓博介紹到多模態(tài)的概念,模態(tài)是一個生物學(xué)的概念,是一個生物通過自己的感覺器官,通過自己的新知識從自然界或者外界的信息中獲取信息的一個通道。從計算機科學(xué)的角度講,其實是一個感官或者是信息的通道,從不同的感官上搜集信息,最終做綜合的決策。
 
隨后韓博談到內(nèi)容生產(chǎn)的幾個場景:語音字幕You Tube已經(jīng)有這樣的場景,自動的進行語音的轉(zhuǎn)寫。還有智能的BGM,根據(jù)視頻的內(nèi)容自動的推薦音樂,可以分析整個視頻中的節(jié)奏和韻律推薦最合適的音樂。還有視頻特效,識別出對應(yīng)的場景和動作,可以自動添加視頻特效,相當于把5G內(nèi)容生產(chǎn)的門檻進一步降低。多模態(tài)融合也存在許多技術(shù)難點,主要體現(xiàn)在兩個方面:第一個還是特征,第二個是融合。   
 
相對于 AI 目前所展示出在圖像和語音領(lǐng)域的單一感知能力,視頻理解更加復(fù)雜,也更加困難,這體現(xiàn)在理解視頻是二者的疊加,是圖像到視頻的變化。對于一個視頻來講目前的模態(tài)區(qū)分成以下幾個方面,首先是視頻截禎,有可能封面或者代表性的圖片,還有音頻提取或者視頻本身。對于音頻,一方面用ASR轉(zhuǎn)化成文本,還有一種經(jīng)過聲文的特征,謾罵等等敏感詞,會經(jīng)過聲文特征的模型。還有一個文本分析的過程,最終這幾類的信息會進入決策引擎,產(chǎn)生AI認知,這是全過程。
   
最后,韓博介紹了多模態(tài)視頻理解帶來的展望,首先是人機交互的升級,無論是物聯(lián)網(wǎng)、智能家居,其實都是一個典型的多模態(tài)過程?,F(xiàn)在用戶家中都有智能音箱入口,還有各種各樣的傳感器感知到周圍環(huán)境的變化,某種意義上這就是多模態(tài)的過程,而且多模態(tài)交互最終的訴求是想人機交互會更加自然,使用戶感到溫度,所以多模態(tài)一定是未來5G的大趨勢。最終帶來的算法技術(shù)的革新,新的技術(shù)場景一定會推動技術(shù)的演進,AI的技術(shù)會跟著5G的技術(shù)一起成長,一起賦能人類美好生活。

相關(guān)文章
『金山云』李希源:邊緣云發(fā)展實踐分享
『金山云』李希源:邊緣云發(fā)展實踐分享
福建省舉行座談研究推進福建IPTV天翼高清發(fā)展
福建省舉行座談研究推進福建IPTV天翼高…
金山視頻云推出QUIC+ ,暢快直播再升級
金山視頻云推出QUIC+ ,暢快直播再升級
AI應(yīng)用再升級 金山云金睛率先推出涉政圖像識別服務(wù)
AI應(yīng)用再升級 金山云金睛率先推出涉政圖…
擁抱5G,CDN管道化發(fā)展:向上AI、向下邊緣
擁抱5G,CDN管道化發(fā)展:向上AI、向下邊緣
金山云順應(yīng)邊緣計算三大趨勢 構(gòu)建5G時代增長引擎
金山云順應(yīng)邊緣計算三大趨勢 構(gòu)建5G時代…
我還沒有學(xué)會寫個人說明!

24小時排行

  • 暫無文章