OpenAI 今天剛剛確認了我對 AI 的北極星論點,發布了他們的操作員代理。
這不僅是我對 $CODEC 的指導論點,也是我在 AI 瘋狂期間年初所做的每一項 AI 投資的基礎。
關於 Codec 與機器人技術的討論很多,雖然這個領域很快會有自己的敘事,但我從第一天起對 Codec 的看好,根本原因在於它的架構如何支持操作員代理。
人們仍然低估了通過構建自動運行的軟件來獲得的市場份額,這些軟件能夠超越人類工作者,而不需要不斷的提示或監督。
我看到很多人將其與 $NUIT 進行比較。首先,我想說我非常喜歡 Nuit 的建設,並祝願他們成功。如果你在我的 Telegram 中輸入 "nuit",你會看到我在四月時說過,如果我必須持有一種幣幾個月,那將是 Nuit,因為我的操作員論點。
Nuit 在紙面上是最有前途的操作項目,但經過深入研究,我發現他們的架構缺乏必要的深度,無法證明進行重大投資或將我的聲譽放在其背後的合理性。
考慮到這一點,我已經意識到現有操作員代理團隊中的架構缺口,並積極尋找能夠解決這些問題的項目。不久之後 Codec 出現了(多虧了 @0xdetweiler 堅持讓我更深入了解他們),這就是兩者之間的區別:
$CODEC 與 $NUIT
Codec 的架構分為三層;機器、系統和智能,分開基礎設施、環境介面和 AI 邏輯。Codec 中的每個操作員代理都在自己的隔離 VM 或容器中運行,實現接近本地的性能和故障隔離。這種分層設計意味著組件可以獨立擴展或演變,而不會破壞系統。
Nuit 的架構則採取不同的路徑,更加單一化。他們的堆棧圍繞一個專門的網頁瀏覽器代理,結合了解析、AI 推理和行動。這意味著他們深入解析網頁,將其轉換為 AI 可消耗的結構化數據,並依賴雲端處理來執行重型 AI 任務。
Codec 將輕量級的視覺-語言-行動 (VLA) 模型嵌入每個代理中,意味著它可以完全本地運行。這不需要不斷地回到雲端獲取指令,減少了延遲,避免了對正常運行時間和帶寬的依賴。
Nuit 的代理通過首先將網頁轉換為語義格式,然後使用 LLM 大腦來決定該做什麼,這一過程隨著強化學習而不斷改進。雖然這對於網頁自動化是有效的,但這一流程依賴於重型雲端 AI 處理和預定義的頁面結構。Codec 的本地設備智能意味著決策更接近數據,減少了開銷,使系統對意外變化更穩定(沒有脆弱的腳本或 DOM 假設)。
Codec 的操作員遵循一個持續的感知–思考–行動循環。機器層通過系統層的優化通道將環境(例如實時應用或機器人反饋)流式傳輸到智能層,為 AI 提供“眼睛”來觀察當前狀態。代理的 VLA 模型然後將視覺和指令一起解釋,以決定行動,系統層通過鍵盤/鼠標事件或機器人控制來執行。這個集成循環意味著它能夠適應實時事件,即使 UI 發生變化,你也不會打斷流程。
用一個更簡單的比喻來說,將 Codec 的操作員想像成一個能夠適應工作中驚喜的自給自足的員工。Nuit 的代理則像是一個需要暫停、向主管通過電話描述情況並等待指示的員工。
不深入技術細節,這應該能讓你對我為什麼選擇 Codec 作為我對操作員的主要押注有一個高層次的了解。
是的,Nuit 得到了 YC 的支持,擁有一支強大的團隊和 S 級的 GitHub。儘管 Codec 的架構是以水平擴展為考量,這意味著你可以並行部署數千個代理,而不會在代理之間共享內存或執行上下文。Codec 的團隊也不是普通的開發者。
他們的 VLA 架構開啟了許多以前的代理模型無法實現的用例,因為它能夠透過像素而不是截圖進行觀察。
我可以繼續說下去,但我會將這些留到未來的帖子中。
作員代理的虛擬環境:$CODEC
我圍繞 AI 爆炸式增長的核心論點始終集中在營運商代理的崛起上。
但要使這些代理成功,它們需要深入的系統訪問許可權,從而有效地授予它們對您的個人計算機和敏感數據的控制權,這帶來了嚴重的安全問題。
我們已經看到了 OpenAI 和其他科技巨頭等公司如何處理用戶數據。雖然大多數人並不關心,但從運營商代理中受益最大的人,前 1% 的人絕對關心。
就個人而言,我讓像OpenAI這樣的公司完全訪問我的機器的可能性為零,即使這意味著生產力提高了10×。
那麼為什麼選擇Codec?
編解碼器的架構以為 AI 代理啟動隔離的按需「雲桌面」 為中心。其核心是基於 Kubernetes 的編排服務(代號為 Captain),可在 Kubernetes Pod 中預置羽量級虛擬機 (VM)。
每個代理都有自己的作系統級隔離環境(完整的 Linux作系統實例),它可以在其中運行應用程式、瀏覽器或任何代碼,這些代碼完全獨立於其他代理和主機。Kubernetes 處理這些代理 Pod 的調度、自動擴展和自我修復,確保可靠性以及根據負載需求啟動/關閉許多代理實例的能力
可信執行環境 (TEE) 用於保護這些 VM,這意味著代理的計算機可以通過加密方式隔離,其記憶體和執行可以受到主機作系統或雲供應商的保護。這對於敏感任務至關重要:例如,在 Enclave 中運行的 VM 可以安全地保存 API 金鑰或加密錢包密鑰。
當 AI 代理(基於 LLM 的“大腦”)需要執行作時,它會向 Captain 服務發送 API 請求,然後 Captain 服務會啟動或管理代理的 VM Pod。工作流:代理請求一台機器,Captain(通過 Kubernetes)分配一個 Pod 並附加一個持久卷(用於 VM 的磁碟)。然後,代理可以連接到其 VM(通過安全通道或流介面)以發出命令。Captain 為代理公開端點,以執行 shell 命令、上傳/下載檔、檢索日誌,甚至對 VM 進行快照以供以後恢復。
此設計為代理提供了一個完整的作系統,但具有受控的、經過審核的訪問。因為它是基於 Kubernetes 構建的,所以 Codec 可以水平自動擴展,如果 100 個代理需要環境,它可以在集群中調度 100 個 Pod,並通過重新啟動 Pod 來處理故障。
代理的 VM 可以配備各種 MCP 伺服器(如 AI 的“USB 埠”)。例如,編解碼器的 Conductor 模組是一個容器,它運行 Chrome 瀏覽器以及用於瀏覽器控制的 Microsoft Playwright MCP 伺服器。這允許 AI 代理通過標準 MCP 調用打開網頁、單擊連結、填寫表單和抓取內容,就像它是控制瀏覽器的人類一樣。
其他 MCP 整合可能包括檔案系統/終端 MCP(讓代理安全地運行 CLI 命令)或特定於應用程式的 MCP(用於雲 API、資料庫等)。從本質上講,編解碼器提供了基礎設施“包裝器”(VM、安全區、網路),以便可以在實際軟體和網路上安全地執行高級代理計劃。
使用案例
錢包自動化:
編解碼器可以將錢包或密鑰嵌入受 TEE 保護的 VM 中,允許 AI 代理與區塊鏈網路交互(在 DeFi 上進行交易、管理加密資產),而無需暴露密鑰。
這種架構使鏈上金融代理能夠安全地執行真實交易,這在典型的代理設置中是非常危險的。該平台的標語明確將對 「錢包」 的支持列為一項關鍵功能。
例如,代理可以為其飛地內的乙太坊錢包運行 CLI,簽署交易併發送交易,並保證如果代理行為不端,它將被限制在其 VM 中,並且密鑰永遠不會離開 TEE。
瀏覽器和 Web 自動化:
CodecFlow 代理可以控制其 VM 中的完整 Web 瀏覽器。Conductor 示例演示了代理啟動 Chrome 並將其螢幕即時流式傳輸到 Twitch。通過 Playwright MCP,代理可以像人類用戶一樣瀏覽網站、按兩下按鈕和抓取數據。這非常適合登錄後進行 Web 抓取、自動 Web 事務或測試 Web 應用程式等任務。
傳統框架通常依賴於 API 調用或簡單的無頭瀏覽器腳本;相比之下,CodecFlow 可以運行具有可見 UI 的真實瀏覽器,從而更容易在 AI 控制下處理複雜的 Web 應用程式(例如,具有繁重的 JavaScript 或 CAPTCHA 挑戰)。
實際 GUI 自動化(舊系統):
由於每個代理都有一個實際的桌面作系統,因此它可以自動執行舊版 GUI 應用程式或遠端桌面會話,其功能本質上類似於機器人流程自動化 (RPA),但由 AI 驅動。例如,代理可以在其 Windows VM 中打開 Excel 電子表格,或者與沒有 API 的舊終端應用程式交互。
編解碼器的網站明確提到了啟用「遺留自動化」。。這打開了使用 AI 來作無法通過現代 API 訪問的軟體,如果沒有封閉的環境,這項任務將非常 hack 或不安全。包含的 noVNC 集成表明可以通過 VNC 觀察或控制代理,這對於監控驅動 GUI 的 AI 非常有用。
類比 SaaS 工作流:
公司通常具有涉及多個 SaaS 應用程式或遺留系統的複雜流程。例如,員工可能會從 Salesforce 獲取數據,將其與來自內部 ERP 的數據相結合,然後通過電子郵件將摘要發送給客戶。編解碼器可以使 AI 代理通過瀏覽器或其 VM 中的用戶端軟體實際登錄這些應用程式來執行整個序列,就像人類一樣。這與 RPA 類似,但由可以做出決策和處理可變性的 LLM 提供支援。
重要的是,這些應用程式的憑據可以安全地提供給 VM(甚至包含在 TEE 中),因此代理可以在不“看到”純文本憑據或向外部公開它們的情況下使用它們。這可以加速日常後台任務的自動化,同時讓IT部門滿意,每個代理都以最低許可權和完全可審計性運行(因為 VM 中的每個作都可以記錄或記錄)。
路線圖
- 在月底推出公開演示
- 與其他類似平臺的功能比較(沒有 web3 競爭對手)
- TAO 集成
- 大型遊戲合作夥伴
在原創性方面,Codec 建立在現有技術的基礎上,但以一種新穎的方式將它們集成在一起以供 AI 代理使用。隔離執行環境的想法並不新鮮(容器、VM 和 TEE 是雲計算中的標準),但將它們應用於具有無縫 API 層 (MCP) 的自主 AI 代理是非常新穎的。
該平臺盡可能利用開放標準和工具:它使用 Microsoft 的 Playwright 等 MCP 伺服器進行瀏覽器控制,而不是重新發明該輪子,並計劃支援 AWS 的 Firecracker 微型虛擬機以實現更快的虛擬化。它還分叉了現有的解決方案,例如用於流式桌面的 noVNC。證明該專案建立在經過驗證的技術(Kubernetes、安全區硬體、開源庫)的基礎上,將其原始開發重點放在粘合邏輯和編排上(“秘訣”是它們如何協同工作)。
開源元件和即將推出的雲服務的結合(通過提到 $CODEC 令牌實用程式和公共產品訪問來暗示)意味著 Codec 將很快以多種形式訪問(作為服務和自託管)。
團隊
Moyai:15+ 年開發經驗,目前在 Elixir Games 領導 AI 開發。
lil'km:5+ 年 AI 開發人員,目前與 HuggingFace 合作開發 LeRobot 專案。
HuggingFace 是一家大型機器人公司,Moyai 在 elixir games(由 Square enix 和 solanafdn 支援)擔任 AI 主管。
我親自給整個團隊打過視頻電話,真的很喜歡他們帶來的能量。我把他們放在我的雷達上的朋友也在 Token2049 遇到了他們,並且只有好話要說。
最後的思考
還有很多內容要介紹,我會把這些留到將來的更新和我的Telegram頻道中發佈。
我一直認為雲基礎設施是運營商代理的未來。我一直很尊重 Nuit 正在構建的東西,但 Codec 是第一個向我展示我一直在尋找的全棧信念的專案。
該團隊顯然是頂級工程師。他們公開表示行銷不是他們的強項,這可能就是為什麼這被低估的原因。我將與他們密切合作,説明制定真正反映他們正在構建的深度的 GTM 戰略。
憑藉 4 百萬美元的市值和這種水準的基礎設施,它感覺被大大低估了。如果他們能夠提供可用的產品,我認為這很容易標誌著下一個 AI 基礎設施週期的開始。
與往常一樣,風險是存在的,雖然我在過去幾周里秘密審查了團隊,但沒有一個專案是完全無懈可擊的。
目標價?高很多。

為什麼我選擇 Codec 而不是 Nuit 作為運營商的簡要說明:
Codec 使用三層架構(機器、系統、智能),使得能夠擁有獨立的高性能代理,並具備原生控制。
每個 Codec 代理都在本地運行,使用視覺-語言-行動(VLA)循環,減少延遲並提高可靠性。
Nuit 的模型依賴於瀏覽器解析 + 雲端 AI 調用,這限制了靈活性並引入了脆弱性。
Codec 在數千個代理之間水平擴展,沒有共享狀態,並具備容錯模塊化。
1.11萬
61
本頁面內容由第三方提供。除非另有說明,OKX 不是所引用文章的作者,也不對此類材料主張任何版權。該內容僅供參考,並不代表 OKX 觀點,不作為任何形式的認可,也不應被視為投資建議或購買或出售數字資產的招攬。在使用生成式人工智能提供摘要或其他信息的情況下,此類人工智能生成的內容可能不準確或不一致。請閱讀鏈接文章,瞭解更多詳情和信息。OKX 不對第三方網站上的內容負責。包含穩定幣、NFTs 等在內的數字資產涉及較高程度的風險,其價值可能會產生較大波動。請根據自身財務狀況,仔細考慮交易或持有數字資產是否適合您。