騰訊云王琰：騰訊云AI Cloud的技術(shù)、應(yīng)用布局和趨勢(shì)

智慧廣電 dvbcn編輯 2017-04-21 17:26 閱讀 4,379 來源：DVBCN 　

4月21日，TEF科技娛樂季（上海站）之2017亞太人工智能峰會(huì)在上交會(huì)期間隆重舉行。大會(huì)由AI科學(xué)創(chuàng)新與未來、AI深度學(xué)習(xí)專場(chǎng)、AI語音與視覺識(shí)別技術(shù)、AI無人駕駛引領(lǐng)汽車、AI與教育、AI與家庭娛樂、AI與計(jì)算機(jī)視覺、AI與VR、AI與物聯(lián)網(wǎng)等板塊組成。會(huì)上，騰訊云AI產(chǎn)品副總監(jiān)王琰做了題為《騰訊云AI Cloud》的精彩演講。

騰訊云王琰：騰訊云AI Cloud的技術(shù)、應(yīng)用布局和趨勢(shì)-DVBCN

圖為：騰訊云AI產(chǎn)品副總監(jiān)王琰

AI發(fā)展史：是什么造就了今天的人工智能

王琰在演講開頭提到，人工智能是近年來非常熱門的話題，高密度的討論足以說明人工智能人氣之旺，也反映了其市場(chǎng)熱度。人工智能的概念從上世紀(jì)60年代就已產(chǎn)生，經(jīng)過起步階段、專家系統(tǒng)推廣、再到如今深度學(xué)習(xí)階段。2006年開始由于深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)的出現(xiàn)，AI進(jìn)入了高速發(fā)展期。進(jìn)入2016年，在圖象視覺、語音技術(shù)上面的重大算法突破加快了AI的市場(chǎng)化進(jìn)程。

演講中，王琰提出了她自己思考，為什么人工智能的飛躍會(huì)出現(xiàn)在今天？究其原因，王琰認(rèn)為主要體現(xiàn)在三個(gè)方面：第一是計(jì)算能力增強(qiáng)。使用GPU并行計(jì)算神經(jīng)網(wǎng)絡(luò)，更大的硬件存儲(chǔ)能力使得創(chuàng)造出更大的神經(jīng)網(wǎng)絡(luò)變成可能。第二是大數(shù)據(jù)出現(xiàn)?；ヂ?lián)網(wǎng)時(shí)代的到來產(chǎn)生大量數(shù)據(jù)，訓(xùn)練數(shù)據(jù)量的增大可以讓神經(jīng)網(wǎng)絡(luò)更好的學(xué)習(xí)，提升算法性能。第三是新算法推出。新算法可以提前訓(xùn)練網(wǎng)絡(luò)，避免網(wǎng)絡(luò)受層數(shù)的限制；更好的方法用來估算參數(shù)，可以使網(wǎng)絡(luò)在更短時(shí)間內(nèi)做得更精準(zhǔn)。王琰說，人工智能就像我們的另一個(gè)大腦。

騰訊公司AI初探

騰訊作為一個(gè)互聯(lián)網(wǎng)公司，在AI領(lǐng)域一直都有非常深入的探索。過去騰訊公司會(huì)結(jié)合已有的應(yīng)用場(chǎng)景，包括騰訊自己的社交軟件、游戲、搜索引擎、廣告等實(shí)現(xiàn)在AI領(lǐng)域的探索，隨著AI概念的更新，騰訊也不斷進(jìn)行新場(chǎng)景的應(yīng)用探索。

1、騰訊人工智能業(yè)務(wù)應(yīng)用

第一是微信。語音輸入是騰訊在微信AI的大膽嘗試。通過在輸入框輸入語音，語音就可以轉(zhuǎn)化為文字?？此剖且粋€(gè)非常簡(jiǎn)單的AI應(yīng)用，背后卻隱藏著復(fù)雜的語音識(shí)別算法。其次是在QQ音樂里的嘗試。當(dāng)我們聽到一首歌但卻不知道歌的作曲和演唱者的時(shí)候，就可以通過簡(jiǎn)單的哼唱將這首歌在曲庫(kù)里面找出來。第三是騰訊優(yōu)圖。騰訊優(yōu)圖是基于圖象和人臉深入研究的人工智能研發(fā)團(tuán)隊(duì)。它的應(yīng)用場(chǎng)景主要是社交中的智能鑒黃，基于過去建立的龐大黃色圖庫(kù)，優(yōu)圖團(tuán)隊(duì)研發(fā)的智能鑒黃機(jī)器人可以達(dá)到99.95%的識(shí)別率。第四是騰訊的濱海大廈，主要應(yīng)用技術(shù)是刷臉門禁。進(jìn)門不需要刷卡，只需要小機(jī)器人做刷臉，甚至不需要正面，側(cè)面都可以識(shí)別出來。

2、騰訊AI LAB與騰訊云

2016年開始騰訊公司也開始了AI戰(zhàn)略布局，其目標(biāo)是讓騰訊的AI LAB成為全世界頂尖的AI研究機(jī)構(gòu)。成立不到一年，騰訊AI LAB就推出了圍棋機(jī)器人，在3月18日舉辦的第10屆UEC杯世界計(jì)算機(jī)圍棋大賽上，首次亮相的“絕藝”11戰(zhàn)全勝奪得冠軍，充分體現(xiàn)了騰訊在AI技術(shù)研究方面的實(shí)力。騰迅云一直以來擁抱開放，主要做連接和生態(tài)，把騰迅過去海量的互聯(lián)網(wǎng)經(jīng)驗(yàn)、先進(jìn)的技術(shù)通過這個(gè)平臺(tái)開放出來，連接更多的行業(yè)和應(yīng)用。在云上擁有了資源、數(shù)據(jù)和算法之后，除了應(yīng)用在騰訊自身的應(yīng)用上，也通過AI cloud把這些能力分享給客戶，以產(chǎn)生更多的市場(chǎng)價(jià)值。

3、騰訊云AI Cloud 服務(wù)矩陣

簡(jiǎn)單來說，騰迅云AI Cloud服務(wù)矩陣服務(wù)三類目標(biāo)群體，一個(gè)是基礎(chǔ)研究?；A(chǔ)研究員可以通過云服務(wù)器以及深度學(xué)習(xí)平臺(tái)快速搭建一個(gè)學(xué)習(xí)環(huán)境，以加速技術(shù)研究。其二是對(duì)應(yīng)用開發(fā)者，通過對(duì)外開放圖象識(shí)別、語音識(shí)別接口，可以讓開發(fā)者在應(yīng)用中使用一些具有一定實(shí)力的人工智能能力。第三是與行業(yè)融合，結(jié)合云計(jì)算本身的資源優(yōu)勢(shì)以及在AI上的技術(shù)實(shí)力，給大家提供垂直的行業(yè)解決方案。

4、DI-X深度學(xué)習(xí)平臺(tái)

DI-X深度學(xué)習(xí)平臺(tái)是基于騰訊云強(qiáng)大計(jì)算能力的一站式深度學(xué)習(xí)平臺(tái)。通過可視化的拖拽布局，組合各種數(shù)據(jù)源、組件、算法、模型和評(píng)估模塊，讓算法工程師和數(shù)據(jù)科學(xué)家在其之上，方便地進(jìn)行模型訓(xùn)練、評(píng)估及預(yù)測(cè)。目前支持 TensorFlow、Caffe、Torch 三大深度學(xué)習(xí)框架，并提供相應(yīng)的常用深度學(xué)習(xí)算法和模型。

騰訊AI戰(zhàn)略布局：打造全方位技術(shù)包圍

優(yōu)圖計(jì)算機(jī)視覺

優(yōu)圖計(jì)算機(jī)視覺在ICDAR 2015比賽中刷新Focused Scene Text挑戰(zhàn)的Text Localization項(xiàng)目世界紀(jì)錄；在LFW無限制條件下人臉驗(yàn)證測(cè)試中，優(yōu)圖提交的最新成績(jī)?yōu)?9.80%，再次在這一測(cè)試中刷新紀(jì)錄；在國(guó)際權(quán)威海量人臉識(shí)別數(shù)據(jù)庫(kù)MegaFace中，以83.290%的最新成績(jī)?cè)?00萬級(jí)別人臉識(shí)別測(cè)試中拔得頭籌。

智能語音識(shí)別

智能語音識(shí)別由四部分組成，分別是語音識(shí)別、語音合成、語音喚醒和聲紋識(shí)別。除此之外，騰訊還在一些垂直領(lǐng)域做了深耕，除了標(biāo)準(zhǔn)的一些社交場(chǎng)景之外，也在法院、安全、醫(yī)療等場(chǎng)景有了語音方面的垂直引擎。

人臉核身解決方案

今年央視的“三一五”晚會(huì)上介紹的人臉核身方案，已經(jīng)被黑產(chǎn)突破防護(hù)，并可以偽造身份。優(yōu)圖團(tuán)隊(duì)獨(dú)創(chuàng)的語音+唇動(dòng)活體檢測(cè)技術(shù)，可以抵抗照片、視頻、靜態(tài)3D模型的攻擊，不受方言甚至語種的影響。它的流程主要是身份證掃描出身份證號(hào)，同時(shí)錄一段視頻，產(chǎn)生一段隨機(jī)的驗(yàn)證碼，再和身份證圖像對(duì)比。其實(shí)，在優(yōu)圖實(shí)驗(yàn)室已經(jīng)組成了一個(gè)專門進(jìn)行黑產(chǎn)對(duì)抗的團(tuán)隊(duì)，增強(qiáng)安全能力。除了常用的工程上的隨機(jī)性，實(shí)時(shí)的自然交互，同時(shí)還在算法上捕捉一些人眼看不到的偽造和差距。目前騰訊的“人臉核身”解決方案已經(jīng)在互聯(lián)網(wǎng)上有所應(yīng)用，比如金融領(lǐng)域、滴滴租車等。

手寫運(yùn)單OCR識(shí)別解決方案

在手寫體識(shí)別和通用印刷體識(shí)別實(shí)驗(yàn)中，手寫體手機(jī)/電話識(shí)別準(zhǔn)確率可達(dá)99%以上，在業(yè)界突破復(fù)雜手寫體識(shí)別的難題；通用場(chǎng)景單字準(zhǔn)確率超過90%，在國(guó)際ICDAR 2015文本檢測(cè)項(xiàng)目中刷新世界紀(jì)錄；可應(yīng)用在各類印刷體識(shí)別，如廣告、菜單、駕照等，以及定制化手寫識(shí)別場(chǎng)景。

智能相冊(cè)解決方案

智能相冊(cè)解決方案主要是用在社交場(chǎng)景，從QQ相冊(cè)和微云相冊(cè)演化而來。當(dāng)在手機(jī)上上傳照片的時(shí)候可以馬上歸類到某個(gè)文件夾，分辨其是小貓、小狗還是一個(gè)小孩，即通俗的智能分類技術(shù)。目前騰訊可以提供面向社交場(chǎng)景的超過200種的熱詞分類。同時(shí)基于特殊行業(yè)的定制化標(biāo)簽，也可以通過快速學(xué)習(xí)的方式實(shí)現(xiàn)很快地支持這個(gè)標(biāo)簽。

智慧法庭語音解決方案

隨著人民法律意識(shí)的提高人民法院的案件審理數(shù)日益增加，庭審效率亟待提高，而庭審現(xiàn)場(chǎng)記錄的百分百還原一直以來都無法實(shí)現(xiàn)。通過在法庭現(xiàn)場(chǎng)應(yīng)用語音識(shí)別，可以將法官、原告、被告等各角色的現(xiàn)場(chǎng)發(fā)言實(shí)時(shí)轉(zhuǎn)寫成文字筆錄，并對(duì)錄音及文本進(jìn)行存儲(chǔ)，減輕書記員工作負(fù)擔(dān)的同時(shí)實(shí)現(xiàn)了庭審現(xiàn)場(chǎng)的百分百還原。專業(yè)法務(wù)領(lǐng)域定制化引擎，有效應(yīng)對(duì)法律專業(yè)術(shù)語。支持自定義熱詞，提升人名、機(jī)構(gòu)名、公司名等詞匯識(shí)別準(zhǔn)確率。個(gè)案定制話模型，滿足物理、化學(xué)等專業(yè)領(lǐng)域司法案件的高準(zhǔn)確率需求。私有化部署，保證人民法院的數(shù)據(jù)安全性。目前該系統(tǒng)識(shí)別準(zhǔn)確率已經(jīng)達(dá)到95%以上，在北京知識(shí)產(chǎn)權(quán)法院、河北高級(jí)人民法院、珠海中級(jí)人民法院等20余家法院部署應(yīng)用。

除了上述方案，騰訊云還提供安防監(jiān)控解決方案、智能直播審核解決方案等，真正實(shí)現(xiàn)技術(shù)上的全包圍，為當(dāng)前國(guó)內(nèi)的人工智能發(fā)展開出一條血路。

演講的最后王琰提到，現(xiàn)在的人工智能應(yīng)用已經(jīng)趨于成熟，但主要集中在商業(yè)領(lǐng)域里，未來將更多的在公共領(lǐng)域進(jìn)行開發(fā)，比如教育、醫(yī)療、智慧城市、智能家居等。