專訪百度美國(guó)研究院總監(jiān):語(yǔ)音和人工智能的交互是大趨勢(shì)
專訪百度美國(guó)研究院總監(jiān):語(yǔ)音和人工智能的交互是大趨勢(shì)
(百度硅谷人工智能研究院總監(jiān)Adam Coates在EmTech Digital大會(huì)上發(fā)表演講)
騰訊科技 紀(jì)振宇 發(fā)自硅谷
“百度硅谷人工智能研究院的目標(biāo)是創(chuàng)建我們認(rèn)為至少能夠影響1億人的人工智能技術(shù)?!卑俣裙韫热斯ぶ悄苎芯吭嚎偙O(jiān)Adam Coates在本周舉辦的Emtech Digital大會(huì)上這樣表示,在會(huì)后接受騰訊科技專訪時(shí),他表示,百度美國(guó)研究院的部分人工智能技術(shù)成果,實(shí)際上已經(jīng)應(yīng)用在了很多產(chǎn)品中。
此外,他還證實(shí)了百度即將擴(kuò)大硅谷研究院規(guī)模的消息,新的辦公區(qū)就在距離目前百度美國(guó)研究院不到一英里的位置。
“人數(shù)會(huì)在目前的基礎(chǔ)上再擴(kuò)大約一倍左右?!盋oates說(shuō)。目前,百度在美國(guó)研究院共有約200名員工。
上周,百度首席科學(xué)家吳恩達(dá)的突然離職,令外界對(duì)百度人工智能研究的未來(lái)發(fā)展產(chǎn)生新的疑問(wèn)。百度方面宣布,總裁張亞勤(微博)將任百度美國(guó)研究院董事長(zhǎng),負(fù)責(zé)百度在美國(guó)研發(fā)中心的關(guān)鍵人才吸引、品牌建設(shè)、以及美研同國(guó)內(nèi)業(yè)務(wù)的戰(zhàn)略協(xié)同等方面的事務(wù)。
Adam Coates表示,自己在百度的工作性質(zhì)并不會(huì)發(fā)生變化,依然會(huì)繼續(xù)此前的人工智能研究工作。在加入百度之前,他曾跟隨吳恩達(dá)在斯坦福大學(xué)從事人工智能方面的博士后研究。
“在出差到中國(guó)時(shí),給我最大的感受是所有事情的變化都非???,”Coates說(shuō),“和硅谷的節(jié)奏完全不同。”
他表示,百度從事人工智能研究的大背景時(shí),對(duì)于很多發(fā)展中國(guó)家來(lái)說(shuō),移動(dòng)互聯(lián)網(wǎng)的發(fā)展為人工智能時(shí)代鋪平了道路。
“如果你在2017年第一次連接上互聯(lián)網(wǎng),那么你很可能是從移動(dòng)設(shè)備上進(jìn)行連接的?!盋oates說(shuō)。
他認(rèn)為,正是基于人們互聯(lián)網(wǎng)連接方式的改變,將使得人機(jī)交互的方式也在同時(shí)發(fā)生變化。移動(dòng)和物聯(lián)網(wǎng)將變成語(yǔ)音和人工智能的交互。
“在移動(dòng)互聯(lián)網(wǎng)時(shí)代,我們需要全新的人機(jī)交互界面,”Coates說(shuō),“而語(yǔ)音就是我們所認(rèn)為的能夠影響1億人的方式?!?/p>
百度硅谷研究院在過(guò)去幾年開(kāi)發(fā)了Deep Speech技術(shù),不同于傳統(tǒng)的語(yǔ)音識(shí)別系統(tǒng),Deep Speech完全運(yùn)用了深度學(xué)習(xí)技術(shù),通過(guò)成百上千小時(shí)的語(yǔ)音數(shù)據(jù)訓(xùn)練后,實(shí)現(xiàn)對(duì)語(yǔ)音的識(shí)別。
此前,吳恩達(dá)在擔(dān)任百度首席科學(xué)家時(shí)曾經(jīng)介紹過(guò)Deep Speech系統(tǒng),他表示,過(guò)去對(duì)于識(shí)別不同的語(yǔ)言,需要做相應(yīng)的針對(duì)不同語(yǔ)言的系統(tǒng),而運(yùn)用了深度學(xué)習(xí)技術(shù)的Deep Speech系統(tǒng)則完全不需要對(duì)不同語(yǔ)言進(jìn)行區(qū)別對(duì)待。“學(xué)習(xí)算法的通用性已經(jīng)可以不用區(qū)分不同的語(yǔ)言。”
目前,Deep Speech已經(jīng)推出第二代,Adam Coates表示,這套系統(tǒng)最初全是用英語(yǔ)語(yǔ)音數(shù)據(jù)進(jìn)行訓(xùn)練,后來(lái)才引入了中文語(yǔ)音數(shù)據(jù)的訓(xùn)練。
“因?yàn)檫@套系統(tǒng)完全是基于深度學(xué)習(xí),完全取決于訓(xùn)練數(shù)據(jù),所以我們可以很快地用中文語(yǔ)音數(shù)據(jù)來(lái)替換,并使其成為非常強(qiáng)的中文語(yǔ)音識(shí)別引擎?!盋oates說(shuō)。
他介紹說(shuō),這套系統(tǒng)的訓(xùn)練數(shù)據(jù)很龐大,加入了非常多的口音很重的中國(guó)方言數(shù)據(jù),而這些數(shù)據(jù)的訓(xùn)練效果也很好,以至于很多人耳都難以聽(tīng)清的方言語(yǔ)音,系統(tǒng)都能夠成功識(shí)別出來(lái)。
如今,百度的這套主要由美國(guó)人工智能研究院所開(kāi)發(fā)的系統(tǒng),已經(jīng)成功實(shí)現(xiàn)了產(chǎn)品化。去年10月,一款名為TalkType的手機(jī)應(yīng)用登陸安卓商店,這一應(yīng)用便是基于Deep Speech的技術(shù),是被百度稱為第一款真正意義上的“語(yǔ)音優(yōu)先”的輸入方式,而非鍵盤(pán)輸入之外的“語(yǔ)音輔助”的輸入選擇。
Coates認(rèn)為,百度以及其他在中國(guó)從事人工智能研究的公司的最大優(yōu)勢(shì)在于,中國(guó)互聯(lián)網(wǎng)用戶很快地接受了移動(dòng)終端這樣的上網(wǎng)方式,無(wú)論是普通的收發(fā)郵件、瀏覽網(wǎng)頁(yè),甚至是到餐館就餐,全部能夠用移動(dòng)設(shè)備來(lái)完成,這些使用習(xí)慣與美國(guó)用戶完全不同,而這些給了例如語(yǔ)音識(shí)別等人工智能應(yīng)用的廣泛的應(yīng)用基礎(chǔ)。(編輯:chunwzhang)
繼續(xù)閱讀與本文標(biāo)簽相同的文章