圖為 聲網(wǎng)首席產(chǎn)品架構師侯希明
聲網(wǎng)Agora是一家做實時音視頻云服務的公司,在2014年成立,創(chuàng)始團隊來自YY,11月份剛剛拿了7000萬美元的C輪融資。其產(chǎn)品形態(tài)主要是在移動端、PC端和網(wǎng)頁端的SDK以及配套的云服務,用戶通過集成SDK就可以實現(xiàn)終端之間音視頻通話的能力。主要應用行業(yè)包括在線教育,直播社交,在線游戲,廣電OTT,遠程醫(yī)療,智能硬件等等,到目前為止在全球擁有200個數(shù)據(jù)中心,累積連接二十億終端,日通話在3億分鐘。
侯希明本人在實時音視頻領域工作超過了16年,經(jīng)歷了從傳統(tǒng)的光碟格式VCD到DVD到藍光,再到online視頻,到CDN單向視頻云點播直播再到實時音視頻。對于他而言,明顯地體會到隨著音視頻技術的廣泛應用,AI技術對于音視頻來講越來越不可或缺,AI的加入使得實時音視頻在各個行業(yè)的各個場景下的應用更加智能和完善。
這些應用主要體現(xiàn)在以下三點:
第一AI助力RTC提升音視頻端到端的質(zhì)量
眾所周知,在視聽的角度,一個永恒的主題就是質(zhì)量,質(zhì)量的背后是各種高精尖的AI算法。比如在視頻領域,視頻經(jīng)歷從發(fā)出到編碼、經(jīng)過傳輸再到解碼、最后到顯示的過程。在視頻編碼的階段,通過窄帶高清的算法可以把碼率降低節(jié)省帶寬,這是比較常見的智能應用,那在實時音視頻有一個條件,全球的網(wǎng)絡環(huán)境和硬件設備不對等,比如印度網(wǎng)絡條件比較差,歐美比較好,國內(nèi)有不同網(wǎng)絡運營商的差異,各種硬件設備能力之間也有差異,發(fā)送端有很大的概率發(fā)送出非常低清的視頻。
那接收端怎么享受高清體驗呢?侯希明表示:“通過在解碼后,顯示之前,插入AI算法,通過識別視頻里邊的內(nèi)容進行視頻超分,最終在設備端來顯示高清的視頻效果。
同樣AI算法還在提升語音質(zhì)量上方面也有非常大的幫助,目前聲網(wǎng)Agora比較典型的兩個應用:一個是場景識別,另外一個是3A算法。場景識別在實時互動分成兩個模式,一個是通話模式,一個是音樂模式。侯希明介紹到:“通話模式比如我們常見的會議,要求通話過程語音清晰不卡頓。而音樂模式則更多的是主播在唱歌時,后面有背景音樂放出的場景;在不同的場景下適配不同的音頻算法已達到適配場景的最佳質(zhì)量”。3A算法的應用主要是在智能降噪的處理上,侯希明介紹到:“我們知道現(xiàn)實場景面對面的溝通,即使周圍有嘈雜的背景噪聲,我們也會忽略這些噪聲,專注在溝通本身。但是實時通話的時候,麥克風會把所有噪音收進去了,這時候就要識別把無意義的噪音消除掉,把有效的聲音傳過去。”
那除了音視頻算法本身,實時通話離不開云服務的傳輸能力,在跨洲跨運營商的多方通話中,如何動態(tài)的智能的找到數(shù)據(jù)傳輸?shù)淖罴崖窂?,也是提供最佳音視頻服務的有力保障。
AI除了提升質(zhì)量之外,聲網(wǎng)還可以借助其做質(zhì)量分析,聲網(wǎng)目前推出了“水晶球”產(chǎn)品,可以對云上所有實時通話進行質(zhì)量分析,實時的檢測整條通話鏈路上的各個模塊的運行狀況以及對于有問題的質(zhì)量給出最精確的原因分析,幫助客戶在運營側更好的處理業(yè)務邏輯。
第二AI增強RTC實時互動體驗
實時音視頻傳輸把線下的場景完整的搬到線上,使得人與人之間在任何時間和地點都可以隨意溝通,除了用先進的技術提供最佳的質(zhì)量體驗的同時,AI還增強了交互上的體驗。最具代表性的就是人臉識別互動和擬人變聲,侯希明介紹到:“人臉識別在實時音視頻領域主要體現(xiàn)在三個方面:一是美顏,二是面具變臉,三是情緒識別。”美顏在社交直播領域已經(jīng)非常的成熟,坊間的說法美顏已經(jīng)成為亞洲三大邪術之一;再有趣一點的應用就是加上面具表情等;再高階一點的應用是關于情緒的識別,比如在視頻客服的應用上,通過情緒識別來監(jiān)測客戶滿意度等。在語音方面,通過聲音客制化和擬人化達到各種各樣的效果,比如在語音陪聊或者游戲對戰(zhàn)組隊聊天的場景下,每個游戲玩家都可以是一個萌妹子,跟你談戀愛的可能是個機器人。
第三AI+RTC可以實現(xiàn)更好的業(yè)務閉環(huán)
最后,侯希明還談到了AI如何在實時音視頻領域如何實現(xiàn)更好的業(yè)務閉環(huán)。在廣電領域,內(nèi)容監(jiān)管尤為重要,這一點在實時音視頻領域同樣重要。目前最火的監(jiān)管應用是視頻鑒黃和語音鑒黃,假定每5秒鐘采取一個樣本點進行鑒黃,一億視頻分鐘數(shù)就會產(chǎn)生12億張圖片,數(shù)據(jù)量非常龐大,通過機器識別進行快速的分析判斷,把有潛在問題的圖片再傳到人工那里進行二次審核是目前比較成熟的方案。
除了監(jiān)管,另外一塊是業(yè)務增值,典型的應用主要是語音轉文字和實時語音翻譯等自然語言處理功能。應用場景包括視頻會議和全球同服的在線游戲等,比如跨國會議和游戲無國界組隊等,實時語音翻譯和轉文字等功能使得溝通無障礙。
侯希明總結到,AI與實時音視頻相互融合,緊密相連,是視頻發(fā)展的大勢所驅。在演講的最后,侯希明表示:“聲網(wǎng)主要專注在實時音視頻的領域,希望在這樣的領域跟更多合作伙伴一起打造生態(tài),把最佳的終端體驗提供給最終用戶。”