你所在的位置:管理文庫 > 運(yùn)營管理
主講老師:鄧艷芳(Tina)
主講老師:許乃威
主講老師:陳知一
作者/ 許乃威??
這是許乃威科普教室「從那場(chǎng)華山論劍講起」這系列文章的最終篇,有興趣讀者可以回頭看這系列文章的上和中篇。這系列文章在講人工智能過去50多年的發(fā)展,但有讀者問:干嘛花時(shí)間去了解這些過去的歷史呢?這系列文章其實(shí)背后有一個(gè)很實(shí)用的目的,就是:教大家簡(jiǎn)單的方法,識(shí)別你所用的智能系統(tǒng),到底是不是現(xiàn)在最新最熱門的人工智能技術(shù)。
自從谷歌的AlphaGo打敗了世界圍棋冠軍,震動(dòng)了世界,AlphaGo背后的技術(shù):深度學(xué)習(xí),一下成為報(bào)紙的頭版頭條,所有人都宣稱自己在搞深度學(xué)習(xí),深度學(xué)習(xí)最成功的應(yīng)用,就是解決了以往人工智能解決不了的問題:聲音、文字和圖像的識(shí)別處理,我們所在的客戶服務(wù)領(lǐng)域,不正好就是其中的聲音和文字嗎?
因此我過去這幾年,很常被問到一個(gè)問題:老師,我們要買智能系統(tǒng),各家廠商都講得很好,但這實(shí)在太專業(yè)了,而且這可是大投資,一買錯(cuò),這可就全慘了,是啊,這還真的就很慘,我就遇到有企業(yè)買到的,連第一代的智能系統(tǒng)都不算,只是利用關(guān)鍵詞比對(duì)的技術(shù)而已,真沒用到人工智能的技術(shù),花了錢花了時(shí)間不說,還跟公司的核心系統(tǒng)接上了,要換都不知道該怎么換。
我最近被牙齒弄得真的很煩,也不知道是年紀(jì)大了還是怎么著,反正就是有幾顆牙掉了,要做植牙。其中有2顆是左下方后面的兩個(gè)大牙,10年前就做了植牙,結(jié)果其中一顆掉了下來,牙醫(yī)說,失敗的那顆沒法再植了,但還好還有一個(gè)是成功的,他說那這樣吧,我們就在沒牙的地方做個(gè)牙套,然后做個(gè)神奇的勾子,跟前面那顆牙勾起來,也把牙套跟后面那個(gè)植牙連起來,團(tuán)結(jié)力量大,前后兩個(gè)牙齒的力量,就能讓沒牙的那個(gè)牙套給固定住了,我聽了,連忙點(diǎn)頭如搗蒜,頻頻稱好,因?yàn)槲乙膊欢。它c(diǎn)頭,我還能干嗎?十年后的今天。那個(gè)神奇的勾子斷了,那個(gè)牙套站不住了,脫落了,連帶影響到我另外那個(gè)還在的植牙,也就是兩個(gè)植牙都不行了,這次我找了真正的專家(過程就不說了),專長就是失敗植牙的重建。他看了我的情況,一句話:那個(gè)神奇的勾子,是上一代的技術(shù)啊,現(xiàn)在都沒人用了,我說,那現(xiàn)在的技術(shù)是什么?他說,即使植牙失敗,都是可以補(bǔ)骨補(bǔ)肉,重新來過,只是要看那個(gè)牙醫(yī)有沒有這樣的技術(shù)而已,然后,我就開始了我現(xiàn)在長達(dá)6個(gè)月漫長的補(bǔ)骨補(bǔ)肉、重新來過的過程。
大家買的智能系統(tǒng),就跟我的植牙是一樣的,如果你買的是那個(gè)「神奇的勾子」,表面聽起來再怎么神奇,總歸是上一代技術(shù),是被淘汰的,是用不久的,真要換,不是版本更新,而是馬車要換火車,但建置智能客服系統(tǒng),就跟我植牙一樣,我們做客服的,一般都不懂技術(shù)啊,智能客服系統(tǒng)太專業(yè)了,廠商現(xiàn)在這么多,都說是最新最熱門的,我們到底要怎么判斷?就算是企業(yè)的科技部門,也沒有多少人懂深度學(xué)習(xí),因?yàn)樯疃葘W(xué)習(xí)的理論,是2006年深度學(xué)習(xí)之父Hinton提出,2012年才爆火廣泛被接受的,也就是說離現(xiàn)在才10年的時(shí)間,你說能有多少人懂深度學(xué)習(xí)是什么?
現(xiàn)在的智能系統(tǒng),存在著太多混雜第一代智能、第二代智能和第三代智能的概念,全部夾雜在一起,我們做運(yùn)營的,因?yàn)閷?duì)技術(shù)也不懂,廠商說這樣做,我們就這樣做,也沒有真明白背后的原理是什么,浪費(fèi)了時(shí)間不說,系統(tǒng)的效能越搞越糟,舉幾個(gè)例子。
智能客服系統(tǒng)的核心,不是智能知識(shí)庫嗎?智能知識(shí)庫不是會(huì)有標(biāo)準(zhǔn)問和相似問嗎?客戶問:我銀行卡里還有多少錢?這是標(biāo)準(zhǔn)問,但客戶說法有太多種變化,我們要把變化寫下來,放到相似問里面,我有次在一個(gè)銀行客戶現(xiàn)場(chǎng),看到做運(yùn)營的標(biāo)注同事,在標(biāo)準(zhǔn)問底下,拼命的添加相似問,有的標(biāo)準(zhǔn)問,竟然放進(jìn)去了800多條的相似問,這根本就不對(duì)了啊,深度學(xué)習(xí)的確要用到海量訓(xùn)練,但這海量訓(xùn)練是用在學(xué)習(xí)中文上面,因?yàn)橹形牡恼f法變化太多,而跟銀行這領(lǐng)域的說法變化,應(yīng)該就少多了,客戶的說法的確有很多種,但那是中文的范圍,那是你買這套系統(tǒng)之前,廠商應(yīng)該早就訓(xùn)練好的,你要加的相似問,應(yīng)該是跟銀行知識(shí)有關(guān)的,例如「賬戶余額」這個(gè)說法,客戶可能會(huì)說成「戶頭有多少錢」,只有這種需要加入相似問,而這種相似問的量,根本就不多。
如果這說法變化是跟中文有關(guān)的,例如「我賬戶還有多少錢」,客戶講成「我賬戶上的錢還有多少」,這是中文的問題,這是主詞、動(dòng)詞、受詞、副詞位置變化的問題,對(duì)深度學(xué)習(xí)系統(tǒng)來說,這是不需要加入相似問的,因?yàn)閺S商應(yīng)該已經(jīng)幫你訓(xùn)練好了,在換個(gè)角度想:你的團(tuán)隊(duì)就幾十號(hào)人,用的相似問最多也就是幾萬條,就能讓你的智能系統(tǒng)懂中文,那真是太小瞧深度學(xué)習(xí)對(duì)于訓(xùn)練數(shù)據(jù)的數(shù)量要求了,簡(jiǎn)單講,你買到的系統(tǒng),應(yīng)該是懂中文的,你要做的事情,只是把你行業(yè)的專業(yè)知識(shí)放進(jìn)去而已,所以,在每個(gè)標(biāo)準(zhǔn)問底下,要添加這么多相似問,看起來就像是第一代的智能技術(shù),根本不是深度學(xué)習(xí)(或者是廠商沒有跟企業(yè)運(yùn)營團(tuán)隊(duì)講清楚)。
什么是第一代技術(shù),我后面會(huì)說清楚,再舉個(gè)例子,我到一個(gè)企業(yè)現(xiàn)場(chǎng),看到現(xiàn)場(chǎng)做語料標(biāo)注的人員有幾十號(hào)人,我嚇了一大跳,我說只是做標(biāo)注,干么要這么多人?客戶說,因?yàn)橐芽蛻舻脑掃M(jìn)行詞語切割和詞性切割,例如「我的賬戶余額還有多少錢」,要把這句話的主詞、動(dòng)詞、受詞給標(biāo)注出來,然后把這句話按照詞性給切割開來,我嚇了一大跳。確定你用的是深度學(xué)習(xí)的系統(tǒng)嗎?客戶跟我當(dāng)時(shí)作植牙一樣,點(diǎn)頭如搗蒜,后來我發(fā)現(xiàn),其實(shí)只要問一個(gè)問題,就能簡(jiǎn)單分辨我眼前的系統(tǒng),到底是不是第三代的技術(shù),也就是深度學(xué)習(xí),如果不是,那我至少知道為何需要這么多標(biāo)注人員,為何需要做這么多額外工作,這就是我這一系列科普文章的目的:教大家一招,快速識(shí)別你眼前的智能系統(tǒng),到底是不是真的深度學(xué)習(xí),但揭曉之前,我還是要在科普一下深度學(xué)習(xí)到底是什么,用最簡(jiǎn)單易懂的方式來講。
話題回到我們上一篇說的,1956年,4位絕世高手,決定來場(chǎng)華山論劍,人工智能元年于是開始,華山論劍之后,三派鼎立:符號(hào)派,連接派,和行為派。行為派的研究一直都沒有進(jìn)展,我們略過不談。
符號(hào)派又稱為規(guī)則派,稱霸武林40年,觀念也很容易理解:你跟機(jī)器說,把紅色的球放右邊,藍(lán)色的球放左邊,只要把規(guī)則講清楚了,機(jī)器就能執(zhí)行,這就是規(guī)則派。
規(guī)則派在智能客服領(lǐng)域,也被稱為第一代智能。為何是第一代?因?yàn)楹髞聿恍辛税?,在聲音、文字和圖像的領(lǐng)域,規(guī)則變化實(shí)在太多,根本沒法窮盡說完,規(guī)則派需要把所有可能的變化都放進(jìn)去,你沒說,機(jī)器就不會(huì),這樣嚴(yán)格的限制,在商業(yè)的應(yīng)用上,一點(diǎn)都不實(shí)際,1990年代,第一代人工智能宣告崩盤,3個(gè)門派倒了兩個(gè),那只有剩下連接派了。
現(xiàn)在大家最熟知的連接派,自然就是深度學(xué)習(xí),但連接派其實(shí)包含一個(gè)更大的范圍,叫做:機(jī)器學(xué)習(xí),機(jī)器學(xué)習(xí)主要就是在解決「尋找規(guī)則、預(yù)測(cè)未來」這個(gè)核心問題之上。它起先建立的基礎(chǔ)在統(tǒng)計(jì)學(xué),一聽到這名詞,大家馬上就嚇到了,但我換個(gè)方式講,你可能一下就明白:其實(shí)你每天大量的學(xué)習(xí),很多都是基于統(tǒng)計(jì)后的結(jié)果,問你個(gè)問題:動(dòng)物有幾條腿?我講一個(gè)動(dòng)物名字,你是否能預(yù)測(cè)它是幾條腿?不必大人來教,小朋友在接觸大量的動(dòng)物圖片之后,也就是經(jīng)過大量數(shù)據(jù)的訓(xùn)練,很容易就能進(jìn)行「尋找規(guī)則、預(yù)測(cè)未來」這個(gè)統(tǒng)計(jì)工作,哦,很多是兩條腿的,但也很多是四條腿的。我看了一百張圖片,我發(fā)現(xiàn)有翅膀的是兩條腿,沒翅膀的是四條腿,所以,如果你給我一個(gè)動(dòng)物名字,我只要想想它有沒有翅膀,我就能預(yù)測(cè)答案了,感受到了沒有?人類的學(xué)習(xí),很多靠的是經(jīng)驗(yàn),所謂的經(jīng)驗(yàn),就是把過往的數(shù)據(jù)進(jìn)行總結(jié)歸納,找出規(guī)律,然后預(yù)測(cè)未來。(講到這,你有沒有想到,其實(shí)兩條腿和四條腿的分法,不是簡(jiǎn)單靠翅膀的,能想到有什么動(dòng)物沒有翅膀,但只有兩條腿嗎?聰明智慧如此的你?)
機(jī)器學(xué)習(xí)一開始,利用的就是統(tǒng)計(jì)學(xué)的辦法,尋找特征,加以分類,然后預(yù)測(cè)未來。為何你的郵箱能夠很聰明的識(shí)別是垃圾信,然后直接丟到垃圾桶?垃圾郵件的分類檢測(cè),主要用到的SVM方法,就是最典型的統(tǒng)計(jì)學(xué)例子。SVM到今天都廣泛被使用,原理也很好懂,你有一堆紅色的球,一堆藍(lán)色的球,你要找到方法把他們分開,你做了很多嘗試,后來發(fā)現(xiàn)他們重量不同,紅色比較重,藍(lán)色比較輕,用「重量」很容易就能分開,「重量」就是所謂的特征值,SVM在做的,就是找到有哪些特征值能夠把這兩堆球給分開,SVM為何廣泛運(yùn)用在垃圾郵件的分類檢測(cè),這也很好理解了吧,你只要把「重量」這個(gè)特征值想象成垃圾郵件的特征,只要是垃圾郵件,就會(huì)有一些特征,只要找到這些特征,就能把垃圾郵件給分類出來。
故事講到這,怎么還不講「一招識(shí)別深度學(xué)習(xí)」這個(gè)主題呢?馬上來了,因?yàn)榻K于要講深度學(xué)習(xí)了,機(jī)器學(xué)習(xí)在1980年代崛起,而且取得相當(dāng)?shù)倪M(jìn)展,但在聲音、文字和影像這些領(lǐng)域,還是遇到巨大困難,使用統(tǒng)計(jì)學(xué)的辦法,有個(gè)前提:這個(gè)復(fù)雜的世界,是可以用少數(shù)可以理解的特征值來進(jìn)行描述的,例如剛剛講的紅球和藍(lán)球的分類,是可以用「重量」這個(gè)少數(shù)可以理解的特征值來進(jìn)行描述的。講個(gè)大家更好理解的例子:
你在一個(gè)大公司,公司有一萬名員工,員工的績(jī)效工資,公司只有給最終的計(jì)算結(jié)果,但沒有跟大家說明績(jī)效的計(jì)算方法是什么,你是一個(gè)學(xué)過統(tǒng)計(jì)學(xué)的聰明員工,你拿到所有員工的績(jī)效工資,你也知道績(jī)效可能的指標(biāo)包括接電話數(shù)量、客戶滿意度、一解率、質(zhì)檢分?jǐn)?shù)、出勤、月考、客戶表揚(yáng)、客戶投訴等等,可能被納入的指標(biāo)太多了,你不確定哪些指標(biāo)被納入最終的績(jī)效當(dāng)中,但你有大家每個(gè)指標(biāo)的原始分?jǐn)?shù)。透過統(tǒng)計(jì)學(xué)的技術(shù),你很容易就能找到哪些指標(biāo)被納入了績(jī)效考核當(dāng)中,這就是特征值,有了特征值,用簡(jiǎn)單的數(shù)學(xué),你很容易就能算出最終的績(jī)效公式是什么,但問題是,在聲音、文字和影像這些領(lǐng)域,各種努力都找不到用少數(shù)可以理解的特征值來進(jìn)行描述,傳統(tǒng)統(tǒng)計(jì)學(xué)的方法也行不通。
一直到深度學(xué)習(xí)出現(xiàn)。深度學(xué)習(xí)的技術(shù),實(shí)在難懂難講,我后面在找機(jī)會(huì)看能否用簡(jiǎn)單易懂的方式來說明,大家先這樣簡(jiǎn)單理解:只要先想成剛剛那個(gè)績(jī)效工資的例子,有一萬名員工的績(jī)效資料,公司用了一個(gè)宇宙無敵超級(jí)難懂的計(jì)算方法來算工資(就是不想讓你懂,怎樣?),你有原始資料和最終的績(jī)效工資,你要猜出公司這個(gè)宇宙無敵的公式到底是什么,其實(shí)你為何要去算這個(gè)公式?你真正的目的是要做預(yù)測(cè),你有員工的原始指標(biāo)數(shù)據(jù),你要猜到他可能拿到多少錢,你只要能達(dá)到這個(gè)目的就行,你不必真猜出這個(gè)公式,對(duì)吧,就算這個(gè)公式對(duì)你還是一個(gè)黑盒子,只要能夠從原始數(shù)據(jù)猜到最終結(jié)果,你目的還是達(dá)到了啊。
統(tǒng)計(jì)學(xué)還是希望能猜到這個(gè)績(jī)效公式,而深度學(xué)習(xí)來了一個(gè)大轉(zhuǎn)彎:我干脆不去猜這個(gè)公式了,我只要能從原始數(shù)據(jù)這里,猜到結(jié)果就行,大家有沒有聽過這個(gè)故事:AlphaGo打敗了世界圍棋冠軍,它下棋的策略,讓人類都無法理解,哇,聽起來有沒有夠玄幻了?其實(shí)深度學(xué)習(xí)本來就沒有打算去了解機(jī)器如何去猜到這個(gè)結(jié)果的,因?yàn)檫@就是深度學(xué)習(xí)的核心思想:我只要把一堆原始數(shù)據(jù)丟到機(jī)器,機(jī)器有一堆開關(guān),這些開關(guān)有各種組合,就讓機(jī)器去組合吧,不管機(jī)器怎么組合,只要能把結(jié)果猜出來就行。(我盡力了,對(duì)深度學(xué)習(xí)的技術(shù),你應(yīng)該還是一頭懵,相信我,這太正常了)除非你是打算寫代碼的,如果你只是做運(yùn)營的,其實(shí)懂到這里也就夠了?;蚴倾碌竭@里也就夠了。因?yàn)槲覀冏畲蟮闹攸c(diǎn)要來了。
2006年深度學(xué)習(xí)之父Hinton找到了一個(gè)辦法,在復(fù)雜的聲音文字影像世界當(dāng)中,不必去費(fèi)神分析剛剛講的特征值(例如接電話數(shù)量、接電話質(zhì)量),就能從原始數(shù)據(jù)猜到結(jié)果,但他的理論出來,仍舊沒有引起什么反響,一直到2012年,發(fā)生了人工智能使用真正最有意義的一場(chǎng)重大事件,深度學(xué)習(xí)一夕爆火,3年后,才有了AlphaGo,這個(gè)事件,終于來到了我們這篇文章的主要標(biāo)題:一招分辨深度學(xué)習(xí)。
2012 年 Hinton 的兩個(gè)學(xué)生參加了一場(chǎng)比賽ImageNet,由史丹佛大學(xué)舉辦,是個(gè)圖像識(shí)別競(jìng)賽,可以簡(jiǎn)單理解為人工智能界的奧林匹克,這比賽從2007年創(chuàng)辦以來,每年的比賽結(jié)果、每家都差不多,錯(cuò)誤率大致落在 30%、29%、28%... 瓶頸一直無法突破,這種錯(cuò)誤率,根本不具備商業(yè)應(yīng)用的價(jià)值,這也清楚的說明,在2010年以前,就算機(jī)器學(xué)習(xí)用統(tǒng)計(jì)學(xué)的方法,仍然沒法讓人工智能具有商業(yè)價(jià)值,Hinton 團(tuán)隊(duì)上場(chǎng)了,Hinton在這領(lǐng)域堅(jiān)持了30年,組了一個(gè)公司,公司就3個(gè)人,無人看好,沒人,沒錢,而對(duì)手是谷歌、微軟這種巨頭公司。
就好像少年隊(duì)對(duì)上了國家隊(duì)。(這種故事聽起來真的就很勵(lì)志)結(jié)果,Hinton 團(tuán)隊(duì)不只完勝對(duì)手,而且將世界記錄一下往前推進(jìn)到空前的程度。以 16.42% 的錯(cuò)誤率遠(yuǎn)勝第二名的 26.22%,用的正是深度學(xué)習(xí)技術(shù),深度學(xué)習(xí)終于引起各大巨頭企業(yè)的關(guān)注,真的是一夕爆火,谷歌后來立刻投資Hinton的三人公司,2015 年的冠軍微軟,以 3.5%,正式超越?類的 5%錯(cuò)誤率,大家看到這里,難道心中沒有個(gè)疑問:2006年Hinton就解決了深度學(xué)習(xí)的理論障礙,為何還要等到2012年才揚(yáng)眉吐氣?因?yàn)镠inton缺一樣?xùn)|西,而這樣?xùn)|西一直到2007年才逐漸開始成熟:GPU!這就是我們文章的重點(diǎn)了!
以前人工智能用CPU來運(yùn)算,CPU如同電腦的通才,能扛起各種運(yùn)算任務(wù),但對(duì)于海量數(shù)據(jù)的計(jì)算,就是不夠力啊,GPU是干啥?本來是用在繪制熒幕上呈現(xiàn)的影像,后來發(fā)現(xiàn)GPU是個(gè)專才,它當(dāng)時(shí)設(shè)計(jì)的思路是并行運(yùn)算,特別適合海量運(yùn)算,例如:深度學(xué)習(xí),2007年以前就有GPU了,但沒有簡(jiǎn)單能在GPU上面寫代碼的編輯器,一直到2007年,而Hinton團(tuán)隊(duì),就是利用深度學(xué)習(xí),加上GPU,終于一舉突破影像識(shí)別20%錯(cuò)誤識(shí)別率的關(guān)卡。
好了,鋪墊了這么長,該做結(jié)論了:智能系統(tǒng)有3代,第一代是規(guī)則派的,第二代是機(jī)器學(xué)習(xí)型的,只有第三代才是現(xiàn)在我們熟知的深度學(xué)習(xí)的,第三代的技術(shù),不需要你提供特征值,換一個(gè)簡(jiǎn)單的說法,什么詞語切割、詞性切割,主詞、動(dòng)詞、受詞、副詞,這些都是特征值,第三代技術(shù),是看整個(gè)句子的,我們根本不知道深度學(xué)習(xí)到底是怎么切割的。
我們傳統(tǒng)認(rèn)為語料標(biāo)注的工作,其實(shí)更多是第一代和第二代技術(shù)用到的,到了第三代技術(shù),對(duì)于語料標(biāo)注的依賴度,除了要定義一些行業(yè)的專有術(shù)語和說法之外,依賴度已經(jīng)降到很低了,一招教你識(shí)別你用的系統(tǒng),是第一代還是第三代:你只要問一下,這套智能系統(tǒng)有沒有用到GPU?沒用到GPU的,幾乎不可能是第三代技術(shù),跟深度學(xué)習(xí)應(yīng)該是沒有關(guān)系的。
當(dāng)然,這是一個(gè)快速檢驗(yàn)法,仍然不夠完美,在后面的科普文章當(dāng)中,我會(huì)再繼續(xù)介紹深度學(xué)習(xí)到底需要做什么,不需要做什么,怎樣能夠搞明白,我到底用的是哪一代的技術(shù),有了這些了解,你也才能更好的掌握深度學(xué)習(xí)現(xiàn)在這個(gè)當(dāng)紅的人工智能發(fā)展。
電話:010-82794120
郵箱:郵箱:ciig@ciiglobal.cn
地址:北京市海淀區(qū)上地三街9號(hào)B座
關(guān)注我們
關(guān)注公眾號(hào)
官方微博
版權(quán)所有:北京易訓(xùn)天下咨詢服務(wù)有限公司 @ 2024 京ICP備11026241號(hào)-5
北京易訓(xùn)天下咨詢服務(wù)有限公司