主持人:請您簡單介紹一下七牛AI實驗室的情況。
彭垚:這個實驗室是2016年年初的時候建立的,因為七牛云上有廣大富媒體互聯(lián)網(wǎng)用戶的UGC內(nèi)容,所以我們以內(nèi)容安全審核為需求建立了AI實驗室。后來已經(jīng)接入了更多創(chuàng)新型的應(yīng)用和擴展到傳統(tǒng)行業(yè),包括公安、政府運營城市規(guī)劃管理和電視臺內(nèi)容的媒資管理。我們的實驗室成長速度非??欤芯繄F隊已超過100人。
主持人:七牛云AI團隊在ACM國際多媒體會議的LSVC競賽中取得第二名的成績,這個成績對七牛云來說有什么樣的收獲?
彭垚:這個競賽是我們實驗室第一次參加學術(shù)性的會議,之所以參加是因為我們發(fā)布了一篇大規(guī)模短視頻分類的大規(guī)模學習平臺的論文,內(nèi)容包括我們用自己的一套算法框架解決大規(guī)模的視頻分類的需求問題。這個競賽我們最后拿了第二名,和第一名差零點幾分,但第一名的方法耗費資源非常大,我們的方法相對更輕量一些,我認為這算是中國計算機識別在國際學術(shù)方面比較大的突破。今年我們還會在視頻分類基礎(chǔ)上再投入更多的研究。
主持人:您剛才提到您對大規(guī)模視頻分類有所研究,您還可以再具體談?wù)剢幔?/strong>
彭垚:關(guān)于大規(guī)模視頻分類,大家可以理解為一個圖像更多是空間信息,它可能有三通道的圖像在空間上表示的信息,但視頻內(nèi)涵內(nèi)容非常多。首先它有圖像空間上的內(nèi)容,第二,還有時間上的積累和時間序列的內(nèi)容??臻g圖像加時間序列,本身就是一個能夠得出更多信息的方法。當然兩個圖片之間有一個變化,就是會計算光流,類似于光走向的方向,這也是非常重要的信息。我們常常用這種信息再通過時間上的變化抓整個光流的變化,以此知道整個行為。
此外,如果視頻里因為有背景音樂或者說話聲音,我想識別視頻到底是聚會還是婚禮,看畫面中的人是很難區(qū)別的,還需要更多的信息才能識別出來。在這個區(qū)別上聚會是非常嘈雜的音樂背景,婚禮則會聽到比較正規(guī)的結(jié)婚進行曲的音樂,通過這樣的信息就可以識別出來。當然視頻里還有很多信息,比如通過文本的一些識別,看到這個視頻里寫了“生日快樂”就是在過生日。
視頻識別是AI認知整體能力的體現(xiàn),不是傳統(tǒng)的計算機視覺、而是把視覺,語音識別,文字文本的理解都放進去,從而融合起來的識別。
主持人:您如何看待視頻分類在實際業(yè)務(wù)中的應(yīng)用呢?
彭垚:視頻分類在實際業(yè)務(wù)應(yīng)用場景還是相對比較多的,比如在互聯(lián)網(wǎng)的短視頻平臺上,每天有上萬或者幾十萬的視頻,通過這些方法做分類,標注所有視頻內(nèi)容的時候就會知道每個用戶喜歡什么,或者每天在拍什么。媒體發(fā)展到最后一定是個性化的過程,我看到的東西都是我相對比較喜歡看的,我的平臺推給他的內(nèi)容也是我認為比較好的,所以對視頻的理解和分類是非常重要的環(huán)節(jié)。