中文岛国精品亚洲一区,国产尤物Aⅴ尤物在线观看

微信咨詢(xún)

咨詢(xún)QQ

咨詢(xún)電話(huà)

公眾號(hào)

TOP

首頁(yè) > 知識(shí) > 科技前沿

請(qǐng)數(shù)據(jù)到人類(lèi)世界“做客”？機(jī)器人大腦將數(shù)字內(nèi)容帶入現(xiàn)實(shí)！

來(lái)源：學(xué)術(shù)頭條

發(fā)布時(shí)間：2024-03-18

瀏覽次數(shù)：1445

版權(quán)歸原作者所有，如有侵權(quán)，請(qǐng)聯(lián)系我們

ChatGPT、Midjourney 和 Sora 等人工智能（AI）工具將人類(lèi)天馬行空的想法轉(zhuǎn)化為了海量的數(shù)字內(nèi)容。

然而，由于訓(xùn)練數(shù)據(jù)等限制，這些模型仍難以掌握現(xiàn)實(shí)世界的真正物理規(guī)律，也難以達(dá)到機(jī)器人在現(xiàn)實(shí)世界中有效自主交互所需的準(zhǔn)確性、精確性和可靠性。

今天，強(qiáng)化學(xué)習(xí)大牛 Pieter Abbeel 團(tuán)隊(duì)研發(fā)的“機(jī)器人大腦”，則將數(shù)字?jǐn)?shù)據(jù)中的內(nèi)容成功帶入了現(xiàn)實(shí)世界——

由 Abbeel 和他的學(xué)生創(chuàng)建的強(qiáng)化學(xué)習(xí)機(jī)器人平臺(tái)公司 Covariant，基于自己的真實(shí)、復(fù)雜機(jī)器人數(shù)據(jù)集與海量的互聯(lián)網(wǎng)數(shù)據(jù)，推出了一個(gè)機(jī)器人基礎(chǔ)模型（RFM-1）。

據(jù)介紹，在識(shí)別了圖像、感官數(shù)據(jù)和文本的模式后，該技術(shù)讓機(jī)器人有能力處理物理世界中的突發(fā)狀況。即使機(jī)器人從未見(jiàn)過(guò)香蕉，它也知道如何拿起香蕉。

它還能用簡(jiǎn)單的英語(yǔ)做出反應(yīng)，就像聊天機(jī)器人一樣。如果你告訴它“拿起香蕉”，它就知道是什么意思。如果你告訴它“拿起一個(gè)黃色的水果”，它也能理解。

它甚至還能生成視頻，預(yù)測(cè)當(dāng)它試圖拿起香蕉時(shí)可能會(huì)發(fā)生什么。這些視頻在倉(cāng)庫(kù)中沒(méi)有實(shí)際用途，但它們顯示了機(jī)器人對(duì)周?chē)挛锏睦斫狻?/p>

此外，該模型不僅可以通過(guò)一般的互聯(lián)網(wǎng)數(shù)據(jù)進(jìn)行訓(xùn)練，還可以通過(guò)豐富的物理現(xiàn)實(shí)世界交互數(shù)據(jù)進(jìn)行訓(xùn)練。

對(duì)此，Covariant 的首席執(zhí)行官 Peter Chen 表示：“數(shù)字?jǐn)?shù)據(jù)中的內(nèi)容可以轉(zhuǎn)移到現(xiàn)實(shí)世界中?！?/p>

模擬現(xiàn)實(shí)世界的“機(jī)器人大腦”

OpenAI、Midjourney 等公司開(kāi)發(fā)了聊天機(jī)器人、圖像生成器和其他在數(shù)字世界中運(yùn)行的人工智能工具。
在這項(xiàng)工作中，Pieter Abbeel（總裁和首席科學(xué)家）與兩位華人科學(xué)家——Rocky Duan（CTO）、Peter Chen（CEO），利用 ChatGPT 等聊天機(jī)器人背后的技術(shù)打造了可以在物理世界中導(dǎo)航的人工智能系統(tǒng)——RFM-1。

圖｜三位 Covariant 創(chuàng)始人。Rocky Duan、Pieter Abbeel 和 Peter Chen（從左到右）。

據(jù)官方博客介紹，RFM-1 可以幫助分類(lèi)機(jī)器人與物理世界交互，通過(guò)視頻或文本輸入（用戶(hù)可以像聊天機(jī)器人一樣與它們對(duì)話(huà)），機(jī)器人可以“學(xué)習(xí)”如何在工廠中行動(dòng)，而無(wú)需一長(zhǎng)串指令。

RFM-1 是一個(gè)多模態(tài)任意序列（multimodal any-to-any sequence）模型，擁有 80 億參數(shù)，可對(duì)文本、圖像、視頻、機(jī)器人動(dòng)作和一系列數(shù)字傳感器讀數(shù)進(jìn)行訓(xùn)練。

RFM-1 將所有 token 化（tokenizing）到一個(gè)共同空間，并執(zhí)行自回歸下一個(gè) token 預(yù)測(cè)，從而利用其廣泛的輸入和輸出模態(tài)實(shí)現(xiàn)多樣化應(yīng)用。

例如，它可以為場(chǎng)景分析任務(wù)（如分割和識(shí)別）執(zhí)行圖像到圖像學(xué)習(xí)；可以將文本指令與圖像觀察相結(jié)合，生成所需的抓取動(dòng)作或運(yùn)動(dòng)序列；也可以將場(chǎng)景圖像與目標(biāo)抓取圖像配對(duì)，以視頻形式預(yù)測(cè)結(jié)果，或模擬過(guò)程中可能出現(xiàn)的數(shù)字傳感器讀數(shù)。

值得關(guān)注的是，RFM-1 在物理和語(yǔ)言理解方面具有強(qiáng)大的功能。?學(xué)習(xí)世界模型是物理學(xué)模擬的未來(lái)。

RFM-1 對(duì)物理的理解來(lái)自于對(duì)視頻生成的學(xué)習(xí)：通過(guò)輸入初始圖像和機(jī)器人動(dòng)作的 token，它可以作為物理世界模型來(lái)預(yù)測(cè)未來(lái)的視頻 token。

動(dòng)作條件視頻預(yù)測(cè)任務(wù)允許 RFM-1 學(xué)習(xí)低層次的世界模型，模擬世界每幾分之一秒的變化情況。有時(shí)，預(yù)測(cè)機(jī)器人動(dòng)作的高級(jí)結(jié)果更為有效。當(dāng)然，由于使用了結(jié)構(gòu)化多模態(tài)數(shù)據(jù)集等，RFM-1 也能提供高級(jí)世界模型。

圖｜RFM-1 生成的圖像顯示，如果從起始手提箱（左圖）中挑選了特定物品（中圖），它可以預(yù)測(cè)手提箱會(huì)是什么樣子（右圖）。

以上案例表明，RFM-1 能夠理解機(jī)器人的規(guī)定動(dòng)作，并能推理出這些動(dòng)作是否會(huì)成功，以及垃圾箱的內(nèi)容將如何變化，而這完全是通過(guò)對(duì)下一個(gè) token 的預(yù)測(cè)來(lái)實(shí)現(xiàn)的。同時(shí)，從這些世界建模任務(wù)中產(chǎn)生的物理理解力還能直接增強(qiáng) RFM-1 的其他能力，如將圖像映射到機(jī)器人行動(dòng)的能力。另外一點(diǎn)，有了 RFM-1，人們可以通過(guò)語(yǔ)言與機(jī)器人協(xié)作。據(jù)介紹，RFM-1 能夠?qū)⑽谋?token 作為輸入進(jìn)行處理，并將文本 token 作為輸出進(jìn)行預(yù)測(cè)，這使得任何人都可以在數(shù)分鐘內(nèi)（而不是數(shù)周或數(shù)月內(nèi)）快速編程新的機(jī)器人行為，降低了機(jī)器人新行為編程的門(mén)檻。例如，RFM-1 允許機(jī)器人操作員和工程師使用英語(yǔ)指導(dǎo)機(jī)器人執(zhí)行特定的分揀操作。

此外，RFM-1 不僅可以通過(guò)理解自然語(yǔ)言指令讓機(jī)器人更容易完成任務(wù)，還能讓機(jī)器人向人類(lèi)尋求幫助。例如，如果機(jī)器人在拾取某個(gè)物品時(shí)遇到困難，它可以將這一情況告知機(jī)器人操作員或工程師。此外，它還能提出為何在挑選物品時(shí)遇到困難。然后，操作員可以向機(jī)器人提供新的行動(dòng)策略（如通過(guò)移動(dòng)或撞擊物體來(lái)擾動(dòng)物體），從而找到更好的抓取點(diǎn)。在這之后，機(jī)器人就可以將這種新策略應(yīng)用到未來(lái)的行動(dòng)中。

開(kāi)啟機(jī)器人基礎(chǔ)模型新紀(jì)元

盡管 RFM-1 在物理和語(yǔ)言理解方面具有強(qiáng)大的功能。然而，RFM-1 本身還具有一些局限性。

首先，盡管在真實(shí)生產(chǎn)數(shù)據(jù)上的離線(xiàn)測(cè)試結(jié)果很有希望，但 RFM-1 還沒(méi)有部署給真實(shí)客戶(hù)。Covariant 表示，他們知道如何為現(xiàn)有客戶(hù)帶來(lái)價(jià)值的第一手經(jīng)驗(yàn)，預(yù)計(jì)將在未來(lái)數(shù)月內(nèi)向他們推出 RFM-1。通過(guò)將 RFM-1 部署到生產(chǎn)中，他們希望收集到的數(shù)據(jù)能幫助發(fā)現(xiàn) RFM-1 當(dāng)前的故障模式，并加速 RFM-1 的學(xué)習(xí)。

另外，受限于模型的上下文長(zhǎng)度，RFM-1 作為一個(gè)世界模型的運(yùn)行分辨率（約 512x512 像素）和幀速率（約 5 fps）都相對(duì)較低。雖然 RFM-1 已經(jīng)可以開(kāi)始捕捉大型物體的變形，但還不能很好地模擬小型物體/快速運(yùn)動(dòng)。他們還觀察到，世界模型的預(yù)測(cè)質(zhì)量與可用數(shù)據(jù)量之間存在密切聯(lián)系。未來(lái)，他們希望通過(guò)即將投入生產(chǎn)的機(jī)器人，將數(shù)據(jù)收集速度至少提高 10 倍。

最后，雖然 RFM-1 可以開(kāi)始理解基本的語(yǔ)言命令，從而對(duì)其行為進(jìn)行局部調(diào)整，但整體協(xié)調(diào)邏輯在很大程度上仍然是用 Python 和 C++ 等傳統(tǒng)編程語(yǔ)言編寫(xiě)的。隨著通過(guò)擴(kuò)展數(shù)據(jù)來(lái)擴(kuò)大機(jī)器人控制的粒度和任務(wù)的多樣性，他們對(duì)未來(lái)人們可以使用語(yǔ)言來(lái)編寫(xiě)整個(gè)機(jī)器人程序感到興奮，這將進(jìn)一步降低部署新機(jī)器人站的門(mén)檻。

紐約大學(xué)心理學(xué)和神經(jīng)科學(xué)名譽(yù)教授 Gary Marcus 認(rèn)為，這種技術(shù)在倉(cāng)庫(kù)和其他可以接受錯(cuò)誤的情況下可能很有用。但“在制造工廠和其他潛在危險(xiǎn)的環(huán)境中部署這種技術(shù)會(huì)更加困難，風(fēng)險(xiǎn)也更大”。

盡管如此，Abbeel 團(tuán)隊(duì)依然認(rèn)為，RFM-1 是機(jī)器人基礎(chǔ)模型新紀(jì)元的開(kāi)端——

通過(guò)賦予機(jī)器人類(lèi)似人類(lèi)的快速推理能力，RFM-1 向提供所需的自主性邁出了一大步，以解決愿意從事高度重復(fù)性和危險(xiǎn)任務(wù)的工人日益短缺的問(wèn)題，最終在未來(lái)幾十年內(nèi)提高生產(chǎn)力和經(jīng)濟(jì)增長(zhǎng)。

“如果它能預(yù)測(cè)視頻中的下一幀畫(huà)面，就能確定正確的后續(xù)策略，” Abbeel 說(shuō)。

參考鏈接：

https://covariant.ai/insights/introducing-rfm-1-giving-robots-human-like-reasoning-capabilities/https://www.nytimes.com/2024/03/11/technology/ai-robots-technology.html

歡迎掃碼關(guān)注深i科普！

我們將定期推出

公益、免費(fèi)、優(yōu)惠的科普活動(dòng)和科普好物！