機(jī)器人,正在成為很多離開自動駕駛賽道玩家的下一站。
這倒不太令人意外。畢竟,環(huán)境感知、規(guī)劃決策、執(zhí)行控制,這些我們在自動駕駛領(lǐng)域耳熟能詳?shù)年P(guān)鍵技術(shù),在機(jī)器人領(lǐng)域同樣需要。
而另一個更關(guān)鍵的原因,是資本開始對機(jī)器人展現(xiàn)出了遠(yuǎn)超自動駕駛的熱情。
“最近和不少從自動駕駛賽道出來的人聊過,他們都在咨詢我機(jī)器人創(chuàng)業(yè)的事?!眲嬖V智車星球。
劍寒是清華大學(xué)一名年輕的助理教授,主要研究領(lǐng)域是機(jī)器人相關(guān)的計算機(jī)視覺,尤其是三維場景理解和自動駕駛領(lǐng)域。
在劍寒提到的聊天名單中,有好幾個是前不久從干線自動駕駛賽道中退出的創(chuàng)業(yè)者。
“還有不少投資人也在問我要不要出來自己做,我身邊也有不少青年科學(xué)家開始在這個賽道創(chuàng)業(yè)了。”
資本的熱情很高,熱錢很多,對于身處學(xué)術(shù)界的劍寒來說,這是對目前機(jī)器人賽道的最直觀感受。
而產(chǎn)業(yè)界的人,這樣的體會會更早。
“從資本的視角來看,L4級自動駕駛似乎已經(jīng)進(jìn)入了其資本生命周期的末期。海外公司Nuro進(jìn)行了大量的裁員,但尚未實現(xiàn)盈利;阿里巴巴也關(guān)閉了達(dá)摩院的自動駕駛項目,更早之前,亞馬遜已經(jīng)放棄了其低速自動駕駛配送服務(wù)——Amazon Scout。這些事件都被視為市場正在釋放的警報信號,而資本市場對這類信號極為敏感。然而目前來看,機(jī)器人領(lǐng)域仍然保持著較為積極的市場態(tài)勢。”
今年5月,在與優(yōu)時科技的CEO林锫森交流時,他也提及了資本市場對L4級自動駕駛的生命周期看法?!半S著ChatGPT的來臨,資本市場的注意力似乎開始轉(zhuǎn)向AIGC領(lǐng)域,與此同時,L4級自動駕駛的實際應(yīng)用和成效卻顯得更為長遠(yuǎn)和不確定?!?/span>
而隨著“華為天才少年”稚暉君帶著大模型AI機(jī)器人“遠(yuǎn)征 A1”實機(jī)登臺、原阿里達(dá)摩院自動駕駛負(fù)責(zé)人陳俊波明確了有鹿機(jī)器人在“具身智能”領(lǐng)域的創(chuàng)業(yè)方向,這場關(guān)于大模型+機(jī)器人的創(chuàng)業(yè)風(fēng)暴,正在愈刮愈烈。
1
—
這件事為何迷人?
關(guān)于原子彈,最有價值的情報就是它可以被造出來。
這句話最近一次的代表性印證,就是ChatGPT出現(xiàn)后,國內(nèi)各種大模型就如雨后春筍般冒了出來。
同樣的情況也出現(xiàn)在機(jī)器人賽道, “尤其是在看到谷歌DeepMind發(fā)布的機(jī)器人大模型RT-2和李飛飛團(tuán)隊帶來的VoxPoser展示后,來找我聊機(jī)器人創(chuàng)業(yè)的投資人更多了?!眲f道。
谷歌的RT-2是基于Transformer架構(gòu)來做的,但卻是一種全新的“視覺-語言-行動”(VLA)模型。它是根據(jù)互聯(lián)網(wǎng)上的文本和圖像進(jìn)行訓(xùn)練,讓機(jī)器人學(xué)習(xí)“知識”,從而完成創(chuàng)造性任務(wù)。
用大白話說,通過RT-2模型的訓(xùn)練,機(jī)器人能像人一樣,將學(xué)到的概念應(yīng)用于全新的情境中。
舉個例子,如果我們希望機(jī)器人去廚房的冰箱中拿一個蘋果,普通機(jī)器人的執(zhí)行過程一般包括以下幾個環(huán)節(jié):
1、任務(wù)定義與描述(去接一杯水);
2、把任務(wù)拆解成一個一個細(xì)小動作(進(jìn)入廚房、打開冰箱、拿出蘋果、關(guān)閉冰箱等);
3、工程師根據(jù)分解動作對機(jī)器人進(jìn)行編程,生成代碼;
4、控制-執(zhí)行-反饋。
這些都是傳統(tǒng)意義上機(jī)器人控制的主要功能,在大模型之前,通常只有第四步的控制和反饋環(huán)節(jié)由計算機(jī)自動完成,之前的任務(wù)定義、拆解和機(jī)器人運(yùn)動代碼生成等主要由工程師完成。
之所以需要工程師進(jìn)行大量的任務(wù)拆解和編程工作,是因為普通機(jī)器人控制系統(tǒng)不具備通識理解能力和某些專業(yè)技能,無法把任務(wù)目標(biāo)和需要執(zhí)行的動作聯(lián)系起來。
比如在人類看來很簡單的打開冰箱,對機(jī)器人來講就有很多挑戰(zhàn),冰箱的大小款式不盡相同,機(jī)器人首先要理解面對的是一個怎樣的冰箱,該如何開啟,開啟冷藏還是冷凍層才能找到蘋果。這些對于人類來講是常識的事,都需要工程師通過代碼一行行寫出來。
但對于RT-2、Voxposer這類機(jī)器人,你只需將互聯(lián)網(wǎng)數(shù)據(jù)中有關(guān)冰箱、蘋果的概念和知識(圖片、視頻、文本等)直接傳遞給機(jī)器人,讓機(jī)器人通過“學(xué)習(xí)”這些概念和知識,逐步構(gòu)建相關(guān)的概念框架,就能讓從未受過拿蘋果訓(xùn)練的機(jī)器人,知道怎么打開冰箱拿蘋果。
這就是所謂的零樣本或小樣本學(xué)習(xí),通過應(yīng)用大模型的理解能力,這種路徑規(guī)劃任務(wù)的學(xué)習(xí)過程不需要大量的訓(xùn)練數(shù)據(jù)就能完成。
比如下圖,當(dāng)人類用自然語言給Voxposer下達(dá)“打開上面的抽屜,小心花瓶!”的指令時, 大語言模型+視覺語言模型就能從3D空間中分析出目標(biāo)和需要繞過的障礙,幫助機(jī)器人做行動規(guī)劃。
一旦大模型的通識理解能有效賦能機(jī)器人,讓機(jī)器人能聽懂任務(wù)描述、自動進(jìn)行任務(wù)分解和程序生成,并最終完成任務(wù)交互,一個能幫你跑腿、打掃房間、照顧老人的機(jī)器人就將成為現(xiàn)實,其商業(yè)價值也將成倍增長。
2
—
變數(shù)是大模型?
當(dāng)然,在達(dá)到這些對機(jī)器人未來應(yīng)用的美好幻想前,要做的工作、要明確的問題還有很多。因此,對于入局,劍寒很謹(jǐn)慎,
“現(xiàn)階段是一個技術(shù)和發(fā)展方向非常不明朗的階段,比如要不要端對端,要不要依靠大模型,到底是通用還是垂直,可選路徑太多?!?/span>
對此,林锫森也表達(dá)了相似的觀點,特別是關(guān)于這場變革的核心——大模型,“大模型的變化實在是太快了,而且 Google 和 OpenAI 對比開源社群的開源方案,并沒有堅不可摧的壁壘?!?林锫森說道。
今年7月Meta開源了LLama2大模型。一個月后,OpenAI正式開放GPT-3.5微調(diào)API,所有開發(fā)者都可以對GPT-3.5 Turbo進(jìn)行微調(diào)。有開發(fā)者在微調(diào)GPT-3.5 Turbo后,在具體任務(wù)中,性能與GPT-4實力相當(dāng),甚至反超GPT-4。
“如果基于GPT-3.5進(jìn)行優(yōu)化,當(dāng)你經(jīng)過艱苦努力,優(yōu)化到一定程度后,GPT-5很可能又已經(jīng)發(fā)布了?!绷诛律忉尩???赡苁袌鲞€要等多一些數(shù)據(jù)點后,會有較明朗的發(fā)展思路。
這不禁人讓人想到那家2020年底誕生,花費18個月成為獨角獸的AIGC企業(yè)——Jasper。
憑借讓AI幫人寫文案這個賣點,Jasper在截至2022年底共完成了3輪融資,籌集到1.31億美元,估值超過15億美元。
但2023年初,ChatGPT風(fēng)靡全球,金主們掀起Jasper的“頭蓋骨”,發(fā)現(xiàn)其內(nèi)容生產(chǎn)軟件Jasper.ai就是基于GPT-3構(gòu)建的。這意味著,Jasper毫無技術(shù)護(hù)城河,產(chǎn)品極易被復(fù)制,無法在競爭中保持領(lǐng)先地位。
很快,Jasper就開啟了裁員,業(yè)內(nèi)一片嘩然。
因此,當(dāng)產(chǎn)品的核心模塊中包含大模型,如何保持領(lǐng)先性,是一個大問題。
金沙江創(chuàng)投董事總經(jīng)理朱嘯虎就曾在朋友圈表示,“不要迷信通用大模型,明年3.5就成commodity,3年后4也將是commodity。對于大部分創(chuàng)業(yè)者,場景優(yōu)先,數(shù)據(jù)為王?!?/span>
3
—
10倍好的解決方案
但一旦落地到某一垂直場景中,效率和成本這兩個“緊箍咒”,又會是讓不少科技公司拔掉一層皮的存在。
比如,一個傳菜機(jī)器人,并不能完全替代一個服務(wù)員。一個人服務(wù)員的工作除了傳菜,還可能有清潔、點單、結(jié)賬等。一個普通機(jī)器人,往往只能解決某一個高頻簡單問題。且在餐廳場景中,無法通過增加機(jī)器人工作時長來平衡效率不如人類的問題。
這些一直存在的問題,即便疊上大模型的buff,也很難快速得到有效解決。
目前,有不少人形機(jī)器人創(chuàng)業(yè)公司不約而同地選擇了倉庫搬箱子場景。
原因很好理解,倉庫場景封閉、需要足夠多的搬運(yùn)工具且可以通過夜間作業(yè)或低頻長時搬運(yùn)等方式彌補(bǔ)同時間效率不如人工的問題。這些理由,與選擇叉車作為落地自動駕駛技術(shù)的企業(yè)并無二致。
只是相比于已經(jīng)初步證明自己商業(yè)化價值的自動駕駛叉車,這些“人形高達(dá)”要證明自己的難度會更大。
“AI應(yīng)用最難的就是PMF(Product Market Fit的簡寫,是指產(chǎn)品和市場達(dá)到最佳的契合點),什么是合格的PMF,見到客戶就能簽單或者至少PoC(Proof of Concept,即概念驗證。通常是企業(yè)進(jìn)行產(chǎn)品選型時或開展外部實施項目前,進(jìn)行的一種產(chǎn)品或供應(yīng)商能力驗證工作)。為什么要求這么嚴(yán)格?因為中國投資人對中國軟件企業(yè)收入緩慢的增長速度傷透心了,只有見面就能簽單才能實現(xiàn)AI應(yīng)用收入像消費公司一樣的增長速度。怎么做到見面就能簽單?至少為客戶創(chuàng)造10倍以上的價值?!敝靽[虎的這個結(jié)論不僅適用于AI應(yīng)用,套了一層物理外科的機(jī)器人也是同樣。
這里的10倍以上的價值并不是隨口而來的數(shù),它最早出自彼得·蒂爾的《從0到1》。里面談到一個新創(chuàng)企業(yè)要想獲得快速成長,其提供的解決方案要比現(xiàn)有方案好10倍以上??梢允浅杀镜?0倍,效能強(qiáng)10倍或易用性優(yōu)10倍。為什么3倍5倍不行,因為消費者會高估已有解決方案3倍以上,創(chuàng)業(yè)者會高估自己方案3倍以上。
4
—
新的競技場
除此之外,安全也是不容易跨越的大坎。
在不久前,馬斯克進(jìn)行45分鐘關(guān)于FSD 12測試版的直播。過程中,馬斯克多次強(qiáng)調(diào),FSD 12中沒有任何一行相應(yīng)代碼,也沒有被訓(xùn)練過如何讀取路標(biāo),也不知道什么是滑板車,F(xiàn)SD 12的所有行為(自行在減速帶減速、避開滑板車騎行者等)完全是大量視頻訓(xùn)練的結(jié)果。通過視頻訓(xùn)練數(shù)據(jù),AI可以自己學(xué)習(xí)駕駛,像人類一樣做事。
馬斯克的思路就像人們在搜索時完全拋棄了Google,只用ChatGPT。雖然很好,但依然會犯不少低級錯誤。
同樣的,在直播過程中,出現(xiàn)了一次意外接管。當(dāng)時Model S需要直行,正停下等待紅燈。但當(dāng)左轉(zhuǎn)信號燈轉(zhuǎn)綠時,車輛竟然也緊跟啟動。
要解決這個問題,就需要給FSD“投喂”更多左轉(zhuǎn)紅綠燈的視頻。
但投喂視頻真的能“喂”出安全的“AI代駕”嗎?這件事依然需要打個問號。同時,法律法規(guī)的問題也得考慮其中,比如美國法律為了避免發(fā)生意外無法探究原因的問題出現(xiàn),就不允許黑盒子AI。
這些,都是大模型機(jī)器人會遇到的問題。每一個都需要系統(tǒng)化解決,每一個都不簡單。
所以說,要看到“大模型+機(jī)器人”真正枝繁葉茂,所要的時間可能還有很多。
歷史經(jīng)驗告訴我們,當(dāng)一個大浪潮到來時,出現(xiàn)成果的機(jī)會往往并不在前幾年。IPhone誕生于2007年,但Uber是2010年出現(xiàn)的,抖音是2012年出來的,美團(tuán)外賣則是2013年才上線的。
這個目前看起來熱火朝天的賽道,它一定需要時間的沉淀。
而對于那些從自動駕駛轉(zhuǎn)投機(jī)器人的玩家,這絕不是一處避風(fēng)港,相反,更像來到了一個新的殘酷競技場。
(劍寒為化名)
來源:第一電動網(wǎng)
作者:智車星球
本文地址:http://ewshbmdt.cn/kol/210785
文中圖片源自互聯(lián)網(wǎng),如有侵權(quán)請聯(lián)系admin#d1ev.com(#替換成@)刪除。