欧美亚洲中文,在线国自产视频,欧洲一区在线观看视频,亚洲综合中文字幕在线观看

      1. <dfn id="rfwes"></dfn>
          <object id="rfwes"></object>
        1. 站長(zhǎng)資訊網(wǎng)
          最全最豐富的資訊網(wǎng)站

          專(zhuān)訪 | 螞蟻金服 MISA:比用戶更懂自己的自然語(yǔ)言客服系統(tǒng)

            作者:邱陸陸

            當(dāng)手機(jī)取代了錢(qián)包,支付寶甚至比現(xiàn)金更常用,與螞蟻金服的產(chǎn)品端一同忙碌起來(lái)的還有公司的服務(wù)端。95188 服務(wù)熱線就是其中之一。

            然而當(dāng)我們談起客服電話,想到的仍然是傳統(tǒng)的按鍵菜單(「普通話服務(wù)請(qǐng)按 1,for English service please press 2」)和在機(jī)械而漫長(zhǎng)的語(yǔ)音播報(bào)里等待的焦躁?!冈谶^(guò)去的統(tǒng)計(jì)里,只要用戶沒(méi)轉(zhuǎn)接人工,就算作『?jiǎn)栴}被自助解決了』,其實(shí)在我們看來(lái)那不叫『解決』,叫『損耗』。」 螞蟻金服的產(chǎn)品運(yùn)營(yíng)專(zhuān)家弈客說(shuō)。秉承著這樣的理念,團(tuán)隊(duì)開(kāi)發(fā)了 MISA(Machine Intelligence Service Assistant),一個(gè)能夠通過(guò)識(shí)別用戶的語(yǔ)音中包含的業(yè)務(wù)需求來(lái)直接進(jìn)行回應(yīng)的客服系統(tǒng),他們稱(chēng)之為「37攝氏度的自助語(yǔ)音交互」。

            在金融業(yè)務(wù)領(lǐng)域,客戶服務(wù)涉及許多環(huán)節(jié),通過(guò)人工智能的技術(shù)解決客服問(wèn)題,為廣大用戶提供高效、個(gè)性化的普惠金融服務(wù),成為金融科技領(lǐng)域非?;A(chǔ)、非常具有挑戰(zhàn)性的課題。

            最近,在螞蟻金服發(fā)起的「ATEC螞蟻開(kāi)發(fā)者大賽——人工智能大賽」上,這支團(tuán)隊(duì)在初賽就拿出了來(lái)自實(shí)際應(yīng)用場(chǎng)景的 10 萬(wàn)對(duì)標(biāo)注問(wèn)題集,并開(kāi)放相關(guān)資源與專(zhuān)家指導(dǎo),邀請(qǐng)人工智能開(kāi)發(fā)者來(lái)挑戰(zhàn)「問(wèn)題相似度計(jì)算」這一客服領(lǐng)域最基礎(chǔ)也最核心的任務(wù)。

            如今,賽事已經(jīng)集結(jié)了來(lái)自全球超過(guò)兩千支隊(duì)伍報(bào)名,并開(kāi)啟了激烈的準(zhǔn)確率打榜競(jìng)賽。近日機(jī)器之心也有幸探訪螞蟻金服,采訪了 MISA 團(tuán)隊(duì)中的三位核心成員:人工智能部資深算法專(zhuān)家深空(張家興 )、客戶服務(wù)及權(quán)益保障事業(yè)部產(chǎn)品運(yùn)營(yíng)專(zhuān)家弈客 (于浩淼 ) 以及人工智能部算法專(zhuān)家千瞳(崔恒斌 ),聊了聊如何利用深度學(xué)習(xí)算法構(gòu)建能夠「未卜先知」的客服系統(tǒng)。以下內(nèi)容根據(jù)采訪實(shí)錄整理,機(jī)器之心對(duì)內(nèi)容作了不改變?cè)獾恼{(diào)整。

            MISA 的「成長(zhǎng)故事」與「近照」

            機(jī)器之心:開(kāi)發(fā) MISA 系統(tǒng)的初衷是什么?

            弈客:95188 支付寶服務(wù)熱線是一個(gè)典型的 IVR 場(chǎng)景(Interactive Voice Response,互動(dòng)式語(yǔ)音應(yīng)答),作為一個(gè)語(yǔ)音渠道,它的業(yè)務(wù)目標(biāo)很簡(jiǎn)單,就是「定位用戶的問(wèn)題,匹配相應(yīng)解答方案」。一開(kāi)始,它就是一個(gè)傳統(tǒng)的按鍵菜單,后來(lái)隨著螞蟻金服業(yè)務(wù)線的日益增長(zhǎng),按鍵菜單無(wú)法滿足業(yè)務(wù)需求,同時(shí)語(yǔ)音識(shí)別技術(shù)也進(jìn)入了一個(gè)基本可以投入應(yīng)用的階段,所以從 16 年初開(kāi)始,我們和算法工程師一起,嘗試找新的解決方法。

            最初的想法是讓用戶描述自己的問(wèn)題與場(chǎng)景,然后將描述與我們的業(yè)務(wù)與知識(shí)進(jìn)行一次匹配。后來(lái),我們發(fā)現(xiàn)單次匹配也很難做到特別精準(zhǔn),因?yàn)橛脩艉茈y在單次描述里給出全部所需要素,所以就嘗試以多輪交互的形式,用一個(gè)對(duì)話系統(tǒng)來(lái)幫助用戶補(bǔ)全其描述中缺失的部分。

            再后來(lái),我們發(fā)現(xiàn)與其讓用戶完全清楚地描述自己的問(wèn)題,不如我們率先發(fā)問(wèn)。我們做了大量的市場(chǎng)調(diào)研,發(fā)現(xiàn)如今市面上的客服系統(tǒng)也基本上以「描述與匹配」模式為主,涉及多輪交互的本身就很少,在多輪基礎(chǔ)上發(fā)展方向也沒(méi)有那么明確。因此我們就回到了螞蟻?zhàn)陨?。我們就想,能不能基于用戶在提?wèn)時(shí)所積累的行為特征,以「猜問(wèn)題」的形式讓系統(tǒng)率先發(fā)起對(duì)話,降低用戶的使用難度。相比于「你有什么問(wèn)題?」,「你是不是想問(wèn)XXX 問(wèn)題?」就要容易回答得多,即使用戶回答「不是」,我們的問(wèn)題也會(huì)為他接下來(lái)的描述提供一個(gè)示例。

          專(zhuān)訪 | 螞蟻金服 MISA:比用戶更懂自己的自然語(yǔ)言客服系統(tǒng)

          圖:如今的 95188 語(yǔ)音服務(wù)流程

            機(jī)器之心:現(xiàn)在 MISA 的系統(tǒng)由哪些部分組成?分別完成什么任務(wù)?

            深空:MISA 的主要模塊有猜問(wèn)題、問(wèn)題識(shí)別、反問(wèn)交互三個(gè)?!覆聠?wèn)題」是螞蟻金服在客服領(lǐng)域的首創(chuàng),是一個(gè)利用用戶可能與本次致電相關(guān)的信息,基于深度學(xué)習(xí)算法框架構(gòu)建的問(wèn)題識(shí)別模型?!竼?wèn)題識(shí)別」是根據(jù)用戶的描述定位他可能遇到的問(wèn)題?!阜磫?wèn)交互」是在用戶給出的信息不全時(shí),利用「要素拆解和補(bǔ)全」的方式幫助問(wèn)題識(shí)別模塊圈定范圍,降低問(wèn)題識(shí)別的難度,以反問(wèn)的形式與用戶進(jìn)行交互。

            機(jī)器之心: 除了用戶轉(zhuǎn)為文本的語(yǔ)音輸入外,MISA 的系統(tǒng)還會(huì)接收哪些輸入?如何分類(lèi)?

            深空:我們將輸入分為因子、軌跡、文本三類(lèi)。因子是由業(yè)務(wù)方定義的、具有明確含義的特征,例如:過(guò)去24小時(shí)是否有還款行為、過(guò)去24小時(shí)是否發(fā)生過(guò)轉(zhuǎn)賬行為等。因子大約有數(shù)百個(gè)。軌跡是用戶最近的 120 個(gè)「行為」組成的時(shí)間序列,其中一個(gè)行為指對(duì)遠(yuǎn)程服務(wù)器發(fā)生一次請(qǐng)求。行為的種類(lèi)超過(guò)一萬(wàn)種。文本是用戶的描述以文本形式表達(dá);在「猜問(wèn)題」環(huán)節(jié),文本指用戶的歷史描述,在正常的「問(wèn)題識(shí)別」環(huán)節(jié),文本即把本次電話里用戶對(duì)問(wèn)題的語(yǔ)音描述轉(zhuǎn)換成文本。文本是一個(gè)長(zhǎng)度各不相同,甚至可能空缺的輸入。

            機(jī)器之心:作為一個(gè)以識(shí)別為主要目的的系統(tǒng),MISA 會(huì)將用戶的問(wèn)題匹配到多少種類(lèi)型里?如何給出應(yīng)答?

            弈客:需要匹配的問(wèn)題類(lèi)型的具體數(shù)字隨著業(yè)務(wù)上線與下線會(huì)有浮動(dòng),規(guī)模大約在「數(shù)千」這個(gè)量級(jí)。

            大框架上,應(yīng)答可以分為三類(lèi)。第一類(lèi),如果用戶的問(wèn)題很簡(jiǎn)單,能用一兩句話說(shuō)清楚,我們就以播報(bào)的形式輸出。比如之前余額寶一個(gè)業(yè)務(wù)的產(chǎn)品方案進(jìn)行了調(diào)整,從不限轉(zhuǎn)入金額到每天最多只能轉(zhuǎn)入兩萬(wàn)。這時(shí)候當(dāng)用戶轉(zhuǎn)入出錯(cuò)前來(lái)咨詢(xún),我們就會(huì)以播報(bào)形式把業(yè)務(wù)調(diào)整通知給用戶。第二類(lèi),如果方案需要用戶在某一個(gè)產(chǎn)品頁(yè)面進(jìn)行操作與交互,我們就會(huì)把相應(yīng)頁(yè)面在用戶的 app 里拉起來(lái)。用戶掛掉電話打開(kāi) app,就能看到解決方案頁(yè)面的推送,點(diǎn)開(kāi)就可以完成操作了。最后一類(lèi),我們判斷相對(duì)復(fù)雜的問(wèn)題,就轉(zhuǎn)接人工小二處理。

            機(jī)器之心:一位用戶平均需要與系統(tǒng)進(jìn)行多少輪對(duì)話能夠定位到自己的問(wèn)題呢?

            弈客:一開(kāi)始系統(tǒng)能力還沒(méi)有那么強(qiáng)的時(shí)候,我們把最多對(duì)話輪數(shù)設(shè)置為 4 輪,如果 4 輪對(duì)話之后用戶的問(wèn)題仍然沒(méi)有得到解決,就轉(zhuǎn)交人工客服。通過(guò)不斷的優(yōu)化,現(xiàn)在用戶的平均對(duì)話輪數(shù)不超過(guò)兩輪,大概在 1.8-1.9 左右。

            客服系統(tǒng)是怎樣煉成的:模型選擇、評(píng)估與優(yōu)化

            機(jī)器之心:在處理自然語(yǔ)言文本時(shí),用到了哪些深度學(xué)習(xí)模型?

            千瞳:我們首先用自己預(yù)訓(xùn)練的詞向量對(duì)文本進(jìn)行表示,然后分別用到了卷積神經(jīng)網(wǎng)絡(luò)(CNN)和以 LSTM 為基本單位的循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)對(duì)文本進(jìn)行處理。

            卷積神經(jīng)網(wǎng)絡(luò)中,模型對(duì)由詞向量組成的文本做一維單層卷積與池化,形成一個(gè)向量,RNN 則把文本視為一個(gè)序列,處理后也得到一個(gè)向量,最后,將兩個(gè)向量相加,得到一個(gè)代表本段文本的新向量,然后與代表因子和軌跡的向量加在一起,進(jìn)行分類(lèi)。

            機(jī)器之心:為什么同時(shí)采用 CNN 和 RNN?

            千瞳:兩種模型提取特征的能力不同。CNN 的能力在于提取關(guān)鍵詞。RNN更善于捕捉序列關(guān)系。

            機(jī)器之心:分類(lèi)模型與問(wèn)題識(shí)別模塊的關(guān)系是?

            千瞳:?jiǎn)栴}識(shí)別模型是由多個(gè)子模型+融合模型的形式組織的。分類(lèi)模型只是其中一種子模型,除此之外,還有搜索、意圖樹(shù)等多個(gè)結(jié)構(gòu)化子模型。不同模型的輸出格式也各不相同,分類(lèi)模型返回不同類(lèi)別的可能性打分,而意圖樹(shù)可能只返回某一個(gè)最可能的類(lèi)別。在子模型各自進(jìn)行問(wèn)題識(shí)別后,我們會(huì)通過(guò)一個(gè)GBDT的模型,對(duì)前四個(gè)模型的結(jié)果進(jìn)行融合。在融合模型階段,我們?nèi)∶恳粋€(gè)模型的 top1 輸出,根據(jù)標(biāo)注數(shù)據(jù)來(lái)選擇輸出可能性最高的那個(gè)模型的結(jié)果。

          專(zhuān)訪 | 螞蟻金服 MISA:比用戶更懂自己的自然語(yǔ)言客服系統(tǒng)

            機(jī)器之心:反問(wèn)交互是如何實(shí)現(xiàn)的?

            弈客:如今一百通電話里,有三十通會(huì)率先通過(guò)猜問(wèn)題的形式對(duì)用戶進(jìn)行發(fā)問(wèn)。如果沒(méi)有猜中,就要思考如何在較短的輪數(shù)內(nèi)摸清用戶的需求。用戶的大多數(shù)問(wèn)題都能夠以「業(yè)務(wù)、框架、類(lèi)型」三要素方式進(jìn)行拆分。例如「花唄不能還款」,「花唄」就是涉及的業(yè)務(wù),問(wèn)題的核心動(dòng)詞「還款」就是框架,「失敗」是導(dǎo)致用戶提問(wèn)的訴求類(lèi)型。有超過(guò)一千個(gè)用戶問(wèn)題都可以被拆解成三要素的形式,其中包括一百多類(lèi)業(yè)務(wù)、不到一百類(lèi)框架和不超過(guò)十種問(wèn)題類(lèi)型。

            三要素拆分方式的方式能夠幫助快速縮小識(shí)別范圍。用戶在描述中,可能不能一次把三要素都描述清楚,但是如果給出了某部分要素,比如用戶說(shuō)「我要還款」,就給出了框架「還款」和類(lèi)型「如何」,這時(shí)我們就可以就缺失的「業(yè)務(wù)」要素進(jìn)行反問(wèn),比如,「您是要進(jìn)行花唄還款、借唄還款還是信用卡還款?」

          專(zhuān)訪 | 螞蟻金服 MISA:比用戶更懂自己的自然語(yǔ)言客服系統(tǒng)

            千瞳:從技術(shù)的角度上來(lái)講,我們?cè)跇?gòu)建了語(yǔ)義要素庫(kù)之后,是可以實(shí)現(xiàn) zero-shot 的問(wèn)題識(shí)別的。即,不需要見(jiàn)到特定的要素組合的訓(xùn)練樣本,只要在其他訓(xùn)練樣本中見(jiàn)過(guò)單獨(dú)的要素在其他場(chǎng)景下出現(xiàn),一樣可以識(shí)別這個(gè)要素組合,對(duì)應(yīng)到相應(yīng)問(wèn)題。

            另外,我們也構(gòu)建了多任務(wù)學(xué)習(xí)的框架。三要素識(shí)別任務(wù)的目標(biāo)是非常類(lèi)似的,都可以看做是多分類(lèi)問(wèn)題。多任務(wù)學(xué)習(xí)讓不同任務(wù)間的數(shù)據(jù)可以共享。雖然每一個(gè)單獨(dú)的任務(wù)都有足夠的數(shù)據(jù),但是不同任務(wù)間目標(biāo)會(huì)讓特征提取各有側(cè)重,提高模型效果。相比單模型,識(shí)別準(zhǔn)確率可以提升7個(gè)百分點(diǎn)。

            機(jī)器之心:如何評(píng)估匹配的精確程度?這些評(píng)估是否會(huì)反過(guò)來(lái)影響模型的優(yōu)化?

            千瞳:匹配的評(píng)估指標(biāo)有多個(gè)層級(jí),第一個(gè)是CTR(Click Through Rate),比如在「猜問(wèn)題」階段,用戶會(huì)確認(rèn)系統(tǒng)猜的是不是他的問(wèn)題。第二個(gè)是分流的準(zhǔn)確率,如果分配到人工還有小二派單準(zhǔn)確率,最后是問(wèn)題解決率。

            至于用戶的評(píng)估如何影響模型優(yōu)化,一言以蔽之,用戶的反饋就是模型的訓(xùn)練數(shù)據(jù),系統(tǒng)自己能形成一個(gè)閉環(huán)迭代體系。 MISA 的大部分模型一周迭代兩次。

            關(guān)于比賽:客服領(lǐng)域里的相似度計(jì)算

            機(jī)器之心:比賽中的「判斷兩句話是否為同義句」任務(wù)和利用分類(lèi)法進(jìn)行問(wèn)題識(shí)別任務(wù)之間的關(guān)系是什么?

            深空:當(dāng)我們拿到一個(gè)用戶的自然語(yǔ)言問(wèn)句,想判斷它是知識(shí)庫(kù)里的哪一類(lèi)問(wèn)題時(shí),通常有兩種做法:一是做分類(lèi),也就是上面講到的問(wèn)題識(shí)別;還有一種做法就是判斷同義句,給出每一類(lèi)問(wèn)題的幾條例句后,當(dāng)一個(gè)新的問(wèn)句出現(xiàn),就計(jì)算新問(wèn)句與每一條例句之間的相似度。

            相比于識(shí)別,同義句是一類(lèi)相對(duì)昂貴但具有重大意義的做法。對(duì)于許多拿不到豐富數(shù)據(jù)的場(chǎng)景來(lái)說(shuō),訓(xùn)練分類(lèi)器變得不可能,而搜集例句、計(jì)算相似度相較之下更為可行和合適。

            基于相似度計(jì)算的分類(lèi)算法對(duì)于數(shù)據(jù)的需求要靈活得多,可以根據(jù)數(shù)據(jù)的情況分層次安排:有的方法可以不需要訓(xùn)練數(shù)據(jù),基于規(guī)則來(lái)做;有的方法可以基于領(lǐng)域無(wú)關(guān)的、有公開(kāi)語(yǔ)料的通用數(shù)據(jù)進(jìn)行訓(xùn)練;當(dāng)然,如果提供領(lǐng)域相關(guān)的數(shù)據(jù),可以讓相似度計(jì)算得更好,就像我們這次提供的數(shù)據(jù)這樣。

            從工程的角度來(lái)講,這種一開(kāi)始對(duì)訓(xùn)練數(shù)據(jù)依賴(lài)較小的辦法,有利于工程師按部就班把一個(gè)問(wèn)題解決掉。

            機(jī)器之心:選擇判斷同義句作為本次大賽賽題的原因都有哪些?

            深空:第一,在將用戶的問(wèn)句分類(lèi)的場(chǎng)景下,相似度計(jì)算是一種基礎(chǔ)而實(shí)用的做法。在客服領(lǐng)域里,大多數(shù)應(yīng)用場(chǎng)景仍然是缺少數(shù)據(jù)的。第二,問(wèn)題的相似度計(jì)算在其他場(chǎng)景下也有廣泛的應(yīng)用,例如,在「挖掘用戶常見(jiàn)問(wèn)題」任務(wù)里,就要對(duì)用戶問(wèn)句進(jìn)行聚類(lèi),將每一類(lèi)常見(jiàn)問(wèn)題歸為一類(lèi)。聚類(lèi)的基礎(chǔ)就是計(jì)算每?jī)蓚€(gè)問(wèn)句之間的相似度。還有許多其他類(lèi)似的應(yīng)用??偠灾?,相似度計(jì)算是客服大領(lǐng)域中非?;A(chǔ)、非常核心的一個(gè)問(wèn)題。

            這次比賽的重點(diǎn)就是鼓勵(lì)選手找到好的相似度計(jì)算方法。本次我們?cè)诔踬惥吞峁┝?10 萬(wàn)條數(shù)據(jù)。作為對(duì)比,現(xiàn)在的相似度計(jì)算比賽中最大的公開(kāi)數(shù)據(jù)集大概在 1 萬(wàn)條左右。但是我們不強(qiáng)制選手使用提供的數(shù)據(jù),完全不基于數(shù)據(jù)或者引入外部數(shù)據(jù)的做法都是被允許的,希望選手們不拘一格,找到最好的相似度計(jì)算方法。

            機(jī)器之心:是否會(huì)考慮將比賽中出現(xiàn)的做法投入到實(shí)際生產(chǎn)中?

            千瞳:這是肯定的。螞蟻的業(yè)務(wù)發(fā)展非常快,因此在設(shè)計(jì)算法的過(guò)程中會(huì)遇到很多現(xiàn)實(shí)的問(wèn)題:比如用戶描述口語(yǔ)化、描述多樣性、糾錯(cuò)以長(zhǎng)句問(wèn)題等等,都需要相似度計(jì)算方法去解決,我們自己也在進(jìn)行大量相似度計(jì)算方面的探索,希望能夠和選手們一起,找到最合適的方法。

          特別提醒:本網(wǎng)內(nèi)容轉(zhuǎn)載自其他媒體,目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點(diǎn)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實(shí),對(duì)本文以及其中全部或者部分內(nèi)容、文字的真實(shí)性、完整性、及時(shí)性本站不作任何保證或承諾,并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。本站不承擔(dān)此類(lèi)作品侵權(quán)行為的直接責(zé)任及連帶責(zé)任。如若本網(wǎng)有任何內(nèi)容侵犯您的權(quán)益,請(qǐng)及時(shí)聯(lián)系我們,本站將會(huì)在24小時(shí)內(nèi)處理完畢。

          贊(0)
          分享到: 更多 (0)
          網(wǎng)站地圖   滬ICP備18035694號(hào)-2    滬公網(wǎng)安備31011702889846號(hào)