国产精品久久久久久久免费看,国产成人麻豆亚洲综合无码精品,国产精品白丝av嫩草影院,国产成人亚洲精品无码h在线 ,大又大又粗又硬又爽少妇毛片

  1. 首頁
  2. 大牛說
  3. MorningStar,成為AI時(shí)代的數(shù)據(jù)煉“金”術(shù)師

MorningStar,成為AI時(shí)代的數(shù)據(jù)煉“金”術(shù)師

在此前的《數(shù)據(jù)閉環(huán)工具鏈,智駕領(lǐng)域的下一個(gè)競爭點(diǎn)?》中,我們?cè)劦剑S著大模型以及AI生態(tài)的發(fā)展,企業(yè)處理大規(guī)模數(shù)據(jù)和運(yùn)用的能力開始成為關(guān)鍵。

尤其當(dāng)ChatGPT出現(xiàn)后,大家發(fā)現(xiàn),從GPT-2到GPT-3,模型結(jié)構(gòu)上的改變微乎其微,更多的精力放在了清洗高質(zhì)量、大規(guī)模訓(xùn)練數(shù)據(jù)上,數(shù)據(jù)集的量從40GB增加到45TB。而從GPT-3到GPT-4,不再是單純數(shù)據(jù)量的增加,而是全網(wǎng)數(shù)據(jù)的利用,包括數(shù)據(jù)訓(xùn)練策略、數(shù)據(jù)清洗、數(shù)據(jù)整理、數(shù)據(jù)分布以及人類反饋等等。

圖片

吳恩達(dá)在2021年提出的Data-centric AI(以數(shù)據(jù)為中心的人工智能)主張,正在被越來越多地實(shí)踐。

過程中,隨著數(shù)據(jù)量的不斷增長和模型復(fù)雜度的提升,“數(shù)據(jù)債”——正在成為算法工程師們面臨的隱秘又難解的挑戰(zhàn)。

為了解決數(shù)據(jù)債問題,AI數(shù)據(jù)技術(shù)公司星塵數(shù)據(jù)帶來了面向AI的數(shù)據(jù)閉環(huán)產(chǎn)品——MorningStar。

1

為解決數(shù)據(jù)債而生

數(shù)據(jù)債一詞源于技術(shù)債,是一種新型的技術(shù)債務(wù),指的是由于對(duì)數(shù)據(jù)資產(chǎn)的維護(hù)不足導(dǎo)致的數(shù)據(jù)質(zhì)量問題。

一個(gè)算法的上線部署需要經(jīng)歷需求定義、方案制定、數(shù)據(jù)采集、數(shù)據(jù)標(biāo)注、模型設(shè)計(jì)、訓(xùn)練、指標(biāo)測試、推理優(yōu)化等等。在各個(gè)環(huán)節(jié)中,各個(gè)角色跨組織協(xié)同會(huì)導(dǎo)致企業(yè)數(shù)據(jù)債的產(chǎn)生。

簡單來說,數(shù)據(jù)債指的是企業(yè)當(dāng)前狀態(tài)與最大化數(shù)據(jù)價(jià)值之間的差距。數(shù)據(jù)債包含算法和其他部門的認(rèn)知差別、項(xiàng)目時(shí)間上的認(rèn)知差別、文檔和數(shù)據(jù)語義的差距、不同數(shù)據(jù)集定義之間的差距等。數(shù)據(jù)債不僅會(huì)導(dǎo)致數(shù)據(jù)價(jià)值無法釋放,運(yùn)營成本不斷增加,還會(huì)影響模型的上線和迭代效率。

據(jù)OpenAI內(nèi)部工程師透露,由于數(shù)據(jù)歷史語義丟失,ChatGPT之前曾一度面臨模型無法復(fù)現(xiàn)的問題。

“MorningStar專注于發(fā)現(xiàn)數(shù)據(jù)價(jià)值,加速模型迭代,為AI2.0打造以數(shù)據(jù)為中心的協(xié)作環(huán)境,消除數(shù)據(jù)債?!毙菈m數(shù)據(jù)創(chuàng)始人&CEO章磊表示?!癕orningStar全面覆蓋AI全生命周期的數(shù)據(jù)閉環(huán),不僅能確保數(shù)據(jù)的統(tǒng)一管理和快速迭代,還集成了主流難例數(shù)據(jù)的發(fā)現(xiàn)策略,支持AI算法的高效迭代,為企業(yè)提供一個(gè)全面的數(shù)據(jù)維護(hù)工具,以滿足其對(duì)數(shù)據(jù)管理和價(jià)值挖掘的需求?!?/span>

圖片

星塵數(shù)據(jù)創(chuàng)始人&CEO章磊

在章磊看來,未來算法的發(fā)展將類似于互聯(lián)網(wǎng)時(shí)代的快速迭代,不是改變模型架構(gòu),而是優(yōu)化數(shù)據(jù)?!巴ㄟ^AI可以打造企業(yè)的超級(jí)員工,使企業(yè)生產(chǎn)力提升10倍。這將使企業(yè)成為一個(gè)24小時(shí)不停運(yùn)轉(zhuǎn)的超級(jí)大腦,所有員工圍繞這個(gè)大腦不斷沉淀數(shù)據(jù)和大模型,將大模型的能力賦能給企業(yè)?!?章磊說道。

超級(jí)員工可以幫助企業(yè)完成研發(fā)、代理、銷售產(chǎn)品、財(cái)務(wù)等任務(wù)。但關(guān)鍵在于什么樣的數(shù)據(jù)能夠打造出超級(jí)員工。

“只有‘黃金數(shù)據(jù)集’才能有效幫助模型迭代。如何準(zhǔn)備和管理這些數(shù)據(jù)集已成為自動(dòng)駕駛公司和車廠的核心競爭力?!?/span>

2

發(fā)現(xiàn)數(shù)據(jù)價(jià)值

從“數(shù)據(jù)管理”這個(gè)關(guān)鍵詞,我們很容易想到這一領(lǐng)域的獨(dú)角獸公司Databricks,其主要業(yè)務(wù)是幫助企業(yè)準(zhǔn)備用于分析的數(shù)據(jù),支持采用機(jī)器學(xué)習(xí)和數(shù)據(jù)驅(qū)動(dòng)的決策,還使數(shù)據(jù)科學(xué)能夠與數(shù)據(jù)工程和其他業(yè)務(wù)部門協(xié)作來構(gòu)建數(shù)據(jù)產(chǎn)品。

從描述來看,Databricks與MorningStar的功能類似,但實(shí)際上,兩者有著本質(zhì)的區(qū)別。

“首先,MorningStar是一個(gè)AI數(shù)據(jù)管理系統(tǒng),服務(wù)于機(jī)器和算法,而Databricks則是為人類管理和分析數(shù)據(jù)而設(shè)計(jì)的。其次,Databricks解決的是海量數(shù)據(jù)的快速查詢和分析檢索能力,而MorningStar的定位在于數(shù)據(jù)價(jià)值的發(fā)現(xiàn)和迭代,以支持模型訓(xùn)練。”章磊解釋道。

圖片

△MorningStar生態(tài)定位

據(jù)介紹,MorningStar的功能包括數(shù)據(jù)價(jià)值發(fā)現(xiàn)、數(shù)據(jù)迭代優(yōu)化、數(shù)據(jù)可視化、數(shù)據(jù)生命周期管理、數(shù)據(jù)探索能力、數(shù)據(jù)反饋、數(shù)據(jù)合成、算法指標(biāo)跟蹤和數(shù)據(jù)連接等(上圖藍(lán)色部分)。

如果以模塊來劃分,則是以下三大功能模塊:

一、以數(shù)據(jù)為中心的協(xié)作。目標(biāo)是促進(jìn)企業(yè)內(nèi)部數(shù)據(jù)的精確認(rèn)知,包括多維度、細(xì)顆粒度的語義信息,以提高跨部門的協(xié)同效率。其中可視化工具可以幫助用戶更好地理解數(shù)據(jù)分布,而多模態(tài)場景標(biāo)簽和語義檢索工具則增強(qiáng)了數(shù)據(jù)的可發(fā)現(xiàn)性。

圖片

二、人類反饋。在模型生產(chǎn)、開發(fā)和使用過程中,需要人類的信息和認(rèn)知來提高大模型的性能。這包括對(duì)難例數(shù)據(jù)進(jìn)行確認(rèn)反饋、合成數(shù)據(jù)的質(zhì)量反饋,以及大模型的反饋。星塵數(shù)據(jù)的自動(dòng)化標(biāo)注平臺(tái)Rosetta已嵌入該模塊。

圖片

通過數(shù)據(jù)分布發(fā)現(xiàn)難例

三、指標(biāo)追蹤和模型分析。星塵數(shù)據(jù)聯(lián)合國內(nèi)外知名機(jī)構(gòu)和學(xué)者打造的CIF-Bench已經(jīng)正式發(fā)表,同時(shí)也將上線MorningStar。這是一套對(duì)大模型能力進(jìn)行完整評(píng)估的benchmark系統(tǒng),重點(diǎn)評(píng)價(jià)了20個(gè)基礎(chǔ)維度,考察模型在150個(gè)任務(wù)上的指令遵循能力,能系統(tǒng)幫助用戶評(píng)估模型能力,從而知道哪些數(shù)據(jù)能夠提升模型價(jià)值。

從MorningStar生態(tài)定位圖中也能看到,每個(gè)單一功能都有相應(yīng)的開源工具可以替代。但MorningStar的核心在于數(shù)據(jù)閉環(huán)與迭代,而不僅僅是單一功能的實(shí)現(xiàn)。

“我們希望與生態(tài)合作伙伴一起合作,整合整體價(jià)值,而不僅僅是單一模塊。從數(shù)據(jù)集成到ETL(提取、轉(zhuǎn)換、加載),再到數(shù)據(jù)訓(xùn)練和模型訓(xùn)練,模型和數(shù)據(jù)之間有著密切的互動(dòng)。在此之前,很少看到有一家公司能夠把所有的模塊都整合起來?!?章磊說道。

3

多元化布局

當(dāng)前這個(gè)階段,算力和基座模型都可以直接購買,公域數(shù)據(jù)也逐漸成為標(biāo)品,私域數(shù)據(jù)正在成為企業(yè)最核心的競爭力。

“但數(shù)據(jù)量并不等于數(shù)據(jù)質(zhì)量,企業(yè)只有自身具備沉淀私域高質(zhì)量數(shù)據(jù)的能力、即可直接用于生成超級(jí)員工的數(shù)據(jù),才能獲得市場競爭的核心優(yōu)勢。” 章磊說道

從這個(gè)角度上看,具有數(shù)據(jù)價(jià)值發(fā)現(xiàn)的數(shù)據(jù)管理平臺(tái),成為了必然的趨勢和全新挑戰(zhàn)。

MorningStar 的推出,正是因?yàn)椴蹲降搅诉@樣的需求,不僅能夠支持企業(yè)高效迭代AI數(shù)據(jù)的關(guān)鍵環(huán)節(jié),避免數(shù)據(jù)債風(fēng)險(xiǎn)的積累,還能減少低價(jià)值數(shù)據(jù)成本的浪費(fèi),解決模型訓(xùn)練和應(yīng)用效果反饋鏈條過長等問題。

據(jù)悉,針對(duì)機(jī)器學(xué)習(xí)算法工程師、業(yè)務(wù)人員、技術(shù)管理人員等不同的用戶,MorningStar也推出了不同的服務(wù)形式,包括私有化部署、SaaS化在線服務(wù)和開源版本。旨在降低數(shù)據(jù)門檻,特別是對(duì)高校和科研機(jī)構(gòu)的支持。目前,軟件版本已經(jīng)準(zhǔn)備就緒,SaaS版本預(yù)計(jì)將在下個(gè)季度推出。

來源:第一電動(dòng)網(wǎng)

作者:智車星球

本文地址:http://ewshbmdt.cn/kol/222572

返回第一電動(dòng)網(wǎng)首頁 >

收藏
26
  • 分享到:
發(fā)表評(píng)論
新聞推薦
大牛作者

智車星球

服務(wù)智能汽車創(chuàng)業(yè)者,提供媒體報(bào)道、品牌公關(guān)、會(huì)議活動(dòng)、投融資對(duì)接等其他定制服務(wù)。

  • 178
    文章
  • 7552
    獲贊
閱讀更多文章
熱文榜
日排行
周排行
第一電動(dòng)網(wǎng)官方微信

反饋和建議 在線回復(fù)

您的詢價(jià)信息
已經(jīng)成功提交我們稍后會(huì)聯(lián)系您進(jìn)行報(bào)價(jià)!

第一電動(dòng)網(wǎng)
Hello world!
-->