国产精品久久久久久久免费看,国产成人麻豆亚洲综合无码精品,国产精品白丝av嫩草影院,国产成人亚洲精品无码h在线 ,大又大又粗又硬又爽少妇毛片

  1. 首頁
  2. 資訊
  3. 人物
  4. 愛數智慧張晴晴:對話式AI數據推動智能座艙語音交互發(fā)展

愛數智慧張晴晴:對話式AI數據推動智能座艙語音交互發(fā)展

第一電動王鳴幽

2021年6月17日-19日,由中國汽車工業(yè)協會主辦的第11屆中國汽車論壇在上海嘉定舉辦。站在新五年起點上,本屆論壇以“新起點 新戰(zhàn)略 新格局——推動汽車產業(yè)高質量發(fā)展”為主題,設置“1場閉門峰會+1個大會論壇+2個中外論壇+12個主題論壇”,全面集聚政府主管領導、全球汽車企業(yè)領袖、汽車行業(yè)精英,共商汽車強國大計,落實國家提出的“碳達峰、碳中和”戰(zhàn)略目標要求,助力構建“雙循環(huán)”新發(fā)展格局。其中,在6月19日上午舉辦的主題論壇“智能座艙創(chuàng)新技術論壇”上,愛數智慧創(chuàng)始人兼CEO、中科院聲學所研究員張晴晴發(fā)表了主題演講。以下內容為現場演講實錄:

圖片 58.png

各位好!

我是來自北京愛數智慧科技有限公司的創(chuàng)始人CEO張晴晴,今天之前大家講的報告更多都是圍繞算法智能化,包括產品在車行業(yè)的應用。

我也聽到這段時間有很多車客戶和企業(yè)都在提到數據。今天講的報告是圍繞數據,講對話式AI數據推動智能座艙語音交互。

第一,公司簡介

第二,智能座艙發(fā)展。

第三,智能座艙數據解決方案。

一、公司簡介。

愛數智慧為行業(yè)希望做智能化轉型的車企提供相應底層數據解決方案。圍繞人機交互的場景,圍繞場景里的核心三個點:語音識別、語音合成、自然語言理解,這三部分所需要的數據都有相應的提供和解決方案。

核心服務有相應標準訓練數據產品,以及針對車廠在智能化轉型過程中圍繞智能座艙、智能客服、短視頻營銷等其他方面做的方案咨詢,同時會圍繞相應落地場景體迥數據定制采集和標簽化服務。

最后為車廠提供可以進行私有化部署的數據處理系統(tǒng)。

公司成立到現在五年的時間,已經為頭部車企、車行業(yè)提供解決方案的算法公司、造車新勢力提供相應數據解決方案。

這是我們公司的核心人員,我自己在人機交互領域有17年的相應經驗,曾經是中科院聲學所博士,法國國家實驗室博士后,也在語音、語言、對話式AI里參與到很多車企解決方案的落地當中。

二、智能座艙發(fā)展。

智能座艙已經發(fā)展了很多年,最早時候主要是對硬件、打開空調或者車窗調低調高的命令控制的運用,現在希望人和機器有更多類型的交互,包括對話式自然的溝通,比如說調高溫度的時候,可以說我感覺很熱很冷等自然式對話式的交互。

除了語音交互外,現在也開始進入到多模態(tài)狀態(tài),包括視覺、圖像等都可以圍繞多維度對用戶行為進行分析,是智能座艙很重要的發(fā)展方向。

其中,語音的交互方式本身是信息的主要載體,是座艙里非常重要的落地點。同時由于在開車行進過程中,最早的方式還是用語音交互的方式保證安全。

在座艙語音交互里,能夠用到語音的點是非常多的。一些比較常見的導航、電臺、內容搜索都會用到語音,包括對車里硬件設備進行交互可以用到語音。如果出現異常狀況,比如需要緊急呼救求助的狀況也需要涉及到語音的需求。

有三個主要會用到的核心算法:語音識別、語音合成、自然語言理解。

簡單來講,語音識別就是我們說一句話,比如說“幫我調低溫度”,機器需要識別我說這句話的聲音,把它轉換成文字,對機器來講要聽得清我在說什么,“聽得清”。

聽清了之后會對已經識別出來的文字理解意圖是什么,意圖是調節(jié)溫度的情況。這種情況需要把意圖識別理解出來,“聽得懂”。

下一個環(huán)節(jié),機器需要給我相應的回饋,用語音合成播報音的方式告訴我機器已經完成了相應的動作,“說得好”。

這三個點都在應用,同時也有和明顯的痛點和問題。比如站在語音識別角度,最大的點是人在說話的時候是有口音的,很多人說我說普通話不是很標準,甚至有的人普通話都說的不是很好有方言說話。

這種情況下機器不一定能聽得清在說什么,所以識別率會很差,口音是很重要的點。同時因為座艙里的噪音會帶來識別率進一步下降。

在語音合成里,希望機器播報出來的聲音是很自然的,甚至可以千人千面由我來挑選的。但目前我們所看到的情況是機器的合成聲音很機械不自然,不像人在說話,代入感不好。

自然語言理解是最大的難點,如何理解人在表述同一個意圖的時候用句的方式千差萬別。像我想調節(jié)溫度的時候,有可能我根本沒在說調節(jié)溫度,我在說我感覺我很熱,這是對意圖很重要的理解點。

對異常表達的理解是座艙過程中對語料擴充要盡可能豐富,通常來說這部分做的不夠好,也可能會導致機器完全無法理解。

目前這三部分在落地的時候都會有痛點,通常來講大家本能的第一反應是解決方案沒有做好是算法不夠好。而事實上過程中會發(fā)現人工智能智能化的過程核心是三個基礎部分構成,由算力、算法、數據構成。

在其中,相較于算法來說,數據的影響力才是根本的地方,我們有對比分析過,基本上不同的孫發(fā),但是用的是同一個數據,你的算法差異度不會很大。但如果你是同一個算法,數據的清洗和選擇不一樣,結果是截然不同的。所以系統(tǒng)的增益主要來自于數據部分。

數據并不是大家所想的那樣,從人發(fā)聲的時刻收集到語音后,可以把語音送到智能化系統(tǒng)里去了。其實不然,過程中需要經過數據結構化清洗的過程,數據有點像原油,原油被真正加到汽油里的過程需要經過很多工序,最后才能得到真正可以用的型號。

數據也是一樣的,從最開始左側的原始音頻走到右側送到系統(tǒng)里迭代的數據會經過很多專業(yè)步驟,每一個步驟的處理好壞與否都會影響到最后模型的性能。

對數據來講,結構化的“質”決定了智能系統(tǒng)的性能。除了“質”以外,很重要的點是“量”。

藍圖的這條線是大家在智能化過程中主要用到的深度學習的算法,而紅色的這條線是過去比較傳統(tǒng)的淺層學習的方法。大家看藍色的這條線會發(fā)現兩個點,首先看到趨勢,橫坐標是送到模型里的訓練數據量,縱坐標是識別的性能,送進去的數據量越多,識別的性能越好。

在過程中,最上面的點是目前屬于互聯網的頭部公司每年在AI上所投入的結構化數據量。而下面的點是行業(yè)客戶目前所投入的量級。

基本上會看到量級的差異比較大,像互聯網型公司,每年增量在結構化數據上投入的小時數在10萬小時量級的增量數據量。所以,做人機交互的互聯網型公司的識別性能會更好。數據量對模型性能影響也是非常關鍵的?!百|”和“量”都是需要考慮的點。

大家會想到數據只要往里加就可以得到更好的性能,是不是要投入很多成本才有可能獲得相應的收益?其實并不見得大家要投入這么多才能獲得相應的收益,在數據行業(yè)里提出了“數據配比二八原則”,在車企車的行業(yè)里,80%的數據是共性數據,這些數據可以由標準化的數據集構成為大家搭建,而這部分數據可以理解為完全的一次性投入,一次性投入之后可以用在很多功能點上的迭代優(yōu)化里。真正需要定制的數據只在總量里占有20%就夠了。

真正投入的總量從時間富力來看,投入成本并不高,獲得的收益也是不錯的。

給大家一個比較形象的數據來呈現,左邊這張圖體現的是車的座艙里有4個場景和功能點,每個功能點為了迭代模型的性能,現在不遵循二八原則完全來定制的話,現在有的車企也還在用這樣的方法,相對來說比較安全。

但用這樣的方式會導致每個功能點都要投入1000小時,總量投入了4000小時的成本,但單一看每個功能點只享有1000小時的訓練數據量,量是有限的。

反觀右邊的這張圖,一個是導航,一個是音樂控制,一個是硬件控制,都可以。但這會伴隨對話式,會涉及有帶口音的,有方言的,這些數據作為底層數據可以共享,如果拿出80%的數據進行共享(1600小時),在每個功能點上僅投入400小時定制數據量的時候,最后會發(fā)現總投入成本只有3200小時。但是在每一個功能點所享有的訓練數據量卻是2000小時。投入的ROI會比左邊的純定制高很多。

使用標準數據集在于立木等于可取,數據的合規(guī)性、安全性會得到更好的保障,整體幫助車企更快速地進行智能化迭代優(yōu)化過程起到很好的推波助瀾作用。

三、智能出行數據解決方案。

目前愛數智慧擁有全球第一大對話式訓練數據集,手上一共有15萬小時全部標簽化好的數據。什么叫標簽化好的?數據都是進行多維度標簽,除了有語音對應的文字外,還會有性別、年齡區(qū)間、口音地域等多維度標簽幫助大家從更多維度對模型進行優(yōu)化。會含有對話式、命令控制朗讀式的數據。

特別把語種分別情況列出來,在中國境內有很多方言數據,現在車企在落地過程中方言是很頭痛的問題,大家可以考慮使用標準數據集,幫助大家快速進行初始迭代過程。特別提到中英文混合的數據,這種數據在車的座艙里非常容易出現,經常做電臺、音樂交互時會涉及到中英混合的現場,比如說FM199.2,像“FM”就是英文部分。這種現象在很多物聯網范疇里都會出現,很好的解決方案是通過標準訓練數據集幫大家快速補齊能力。

車企有在出海,“一帶一路”、歐盟等地區(qū)都有。特別呈現外語的數據基礎能力,比較熱點的大語種都有覆蓋。

針對目前在車行業(yè)里涉及到的幾個主要場景給大家做的訓練數據產品推薦,有詳細地列出來包括應用和涉及到的技術,包括會有哪些關鍵的問題,比如說有方言識別、口音識別、數字識別、喚醒詞等等,對應的數據推薦。有詳細的產品列表,大家感興趣隨后可以到展臺上進行交流。

智能客服和營銷是車行業(yè)比較關注的,現在有的車企跟我們問詢除了線上營銷外,還涉及到店面線下營銷的需求,在這部分給大家分類做了相應數據產品推薦。在線上主要是用到電話信道數據,在線下是通過面對面對話數據幫大家進行定制優(yōu)化。

(3)會議場景部分也會有車企應用感興趣。核心是對話數據的解決,所以有做相應的推薦。

對數據服務企業(yè)來講,數據安全和合規(guī)性是立命之本。在這方面不斷投入,愛數智慧是國內第一批拿到ISO27701認證的數據服務商,27701是全球最新的個人隱私認證,一直跟隨國外的GDPR以及國內的數據安全法,在數據處理上遵循國際國內的最高標準。

各位都有自己的私域數據,從安全角度來講數據最好能握在各位手上,最好不要離開自己的服務器。針對這種場景提供相應數據處理系統(tǒng)的私有化部署能力,展現了三個數據處理平臺:

(1)語音標注審核平臺。主要針對交互、電臺等聲音處理,可以提供私有化部署及相應服務。

(2)文本標注審核平臺。主要涉及到句式的擴充,這部分會做意圖標簽化,用文本來解決。

(3)音頻/視頻多模態(tài)標注審核平臺。今年開發(fā)了新的多模態(tài)標注審核平臺,可以在平臺上同步處理音頻及對應視頻,做很多高維內容選擇,目前處理的最高維度接近1000倍維度的數據。

將部分數據,特別是車行業(yè)里把車的噪聲數據及車內語音交互式數據放到了今年發(fā)布的數據開源社區(qū)MagicHub.io,大家感興趣可以到開源社區(qū)里進行相應數據下載和試用,如果有更多感興趣的歡迎咨詢我們。

今天我的報告就到這里,謝謝大家!

來源:第一電動網

作者:王鳴幽

本文地址:http://ewshbmdt.cn/news/renwu/149548

返回第一電動網首頁 >

收藏
32
  • 分享到:
發(fā)表評論
新聞推薦
第一電動網官方微信

反饋和建議 在線回復

您的詢價信息
已經成功提交我們稍后會聯系您進行報價!

第一電動網
Hello world!
-->