OpenAI vừa xác nhận luận thuyết ngôi sao phương Bắc của tôi về AI hôm nay bằng cách phát hành đại lý điều hành của họ.
Không chỉ đây là luận thuyết hướng dẫn của tôi cho $CODEC, mà còn cho mọi khoản đầu tư AI khác mà tôi đã thực hiện, bao gồm cả những khoản đầu tư từ đầu năm trong cơn sốt AI.
Đã có rất nhiều cuộc thảo luận với Codec liên quan đến Robotics, trong khi lĩnh vực đó sẽ có câu chuyện riêng rất sớm, lý do cơ bản khiến tôi rất lạc quan về Codec từ ngày đầu tiên là do cách kiến trúc của nó hỗ trợ các đại lý điều hành.
Mọi người vẫn đánh giá thấp mức độ thị phần mà việc xây dựng phần mềm chạy tự động có thể chiếm lĩnh, vượt trội hơn cả những công nhân con người mà không cần sự nhắc nhở hay giám sát liên tục.
Tôi đã thấy rất nhiều so sánh với $NUIT. Đầu tiên, tôi muốn nói rằng tôi là một fan lớn của những gì Nuit đang xây dựng và chỉ mong muốn thành công cho họ. Nếu bạn gõ "nuit" vào telegram của tôi, bạn sẽ thấy rằng vào tháng Tư, tôi đã nói rằng nếu tôi phải giữ một đồng coin trong nhiều tháng, đó sẽ là Nuit do luận thuyết điều hành của tôi.
Nuit là dự án điều hành hứa hẹn nhất trên giấy tờ, nhưng sau khi nghiên cứu kỹ lưỡng, tôi nhận thấy kiến trúc của họ thiếu chiều sâu cần thiết để biện minh cho một khoản đầu tư lớn hoặc đặt danh tiếng của tôi vào đó.
Với điều này trong tâm trí, tôi đã nhận thức được những khoảng trống kiến trúc trong các đội ngũ đại lý điều hành hiện có và đang tích cực tìm kiếm một dự án giải quyết chúng. Ngay sau khi Codec xuất hiện (cảm ơn @0xdetweiler đã nhấn mạnh tôi cần tìm hiểu sâu hơn về họ) và đây là sự khác biệt giữa hai bên:
$CODEC so với $NUIT
Kiến trúc của Codec được xây dựng trên ba lớp; Máy, Hệ thống và Trí tuệ, tách biệt hạ tầng, giao diện môi trường và logic AI. Mỗi đại lý điều hành trong Codec chạy trong VM hoặc container riêng biệt, cho phép hiệu suất gần như bản địa và cách ly lỗi. Thiết kế theo lớp này có nghĩa là các thành phần có thể mở rộng hoặc phát triển độc lập mà không làm hỏng hệ thống.
Kiến trúc của Nuit đi theo một con đường khác bằng cách trở nên đơn nhất hơn. Ngăn xếp của họ xoay quanh một đại lý trình duyệt web chuyên dụng kết hợp phân tích, lý luận AI và hành động. Điều này có nghĩa là họ phân tích sâu các trang web thành dữ liệu có cấu trúc để AI tiêu thụ và dựa vào xử lý đám mây cho các tác vụ AI nặng.
Cách tiếp cận của Codec bằng cách nhúng một mô hình Vision-Language-Action (VLA) nhẹ trong mỗi đại lý có nghĩa là nó có thể chạy hoàn toàn cục bộ. Điều này không yêu cầu phải liên tục ping về đám mây để nhận hướng dẫn, cắt giảm độ trễ và tránh phụ thuộc vào thời gian hoạt động và băng thông.
Đại lý của Nuit xử lý các tác vụ bằng cách đầu tiên chuyển đổi các trang web thành định dạng ngữ nghĩa và sau đó sử dụng một bộ não LLM để tìm ra điều gì cần làm, điều này cải thiện theo thời gian với học tăng cường. Trong khi hiệu quả cho tự động hóa web, quy trình này phụ thuộc vào xử lý AI nặng bên đám mây và cấu trúc trang đã được định nghĩa trước. Trí tuệ thiết bị cục bộ của Codec có nghĩa là các quyết định xảy ra gần hơn với dữ liệu, giảm chi phí và làm cho hệ thống ổn định hơn trước những thay đổi bất ngờ (không có kịch bản mong manh hay giả định DOM).
Các đại lý của Codec theo một vòng lặp liên tục cảm nhận–suy nghĩ–hành động. Lớp máy truyền phát môi trường (ví dụ: một ứng dụng trực tiếp hoặc nguồn robot) đến lớp trí tuệ thông qua các kênh tối ưu hóa của lớp hệ thống, cung cấp cho AI "đôi mắt" về trạng thái hiện tại. Mô hình VLA của đại lý sau đó diễn giải hình ảnh và hướng dẫn cùng nhau để quyết định hành động, mà lớp Hệ thống thực hiện thông qua các sự kiện bàn phím/chuột hoặc điều khiển robot. Vòng lặp tích hợp này có nghĩa là nó thích ứng với các sự kiện trực tiếp, ngay cả khi giao diện người dùng thay đổi, bạn sẽ không làm gián đoạn quy trình.
Để đưa tất cả điều này vào một phép ẩn dụ đơn giản hơn, hãy nghĩ về các đại lý của Codec như một nhân viên tự cung tự cấp, người thích ứng với những bất ngờ trong công việc. Đại lý của Nuit giống như một nhân viên cần tạm dừng, mô tả tình huống cho một giám sát viên qua điện thoại và chờ đợi hướng dẫn.
Không đi quá sâu vào một cái hố kỹ thuật, điều này nên cho bạn một ý tưởng tổng quát về lý do tại sao tôi chọn Codec là cược chính của tôi vào các đại lý.
Có, Nuit có sự hỗ trợ từ YC, một đội ngũ dày dạn và github hạng S. Mặc dù kiến trúc của Codec đã được xây dựng với quy mô ngang trong tâm trí, có nghĩa là bạn có thể triển khai hàng ngàn đại lý song song mà không có bộ nhớ hoặc ngữ cảnh thực thi chung giữa các đại lý. Đội ngũ của Codec cũng không phải là những lập trình viên trung bình.
Kiến trúc VLA của họ mở ra nhiều trường hợp sử dụng mà trước đây không thể thực hiện với các mô hình đại lý do nhìn qua pixel, không phải ảnh chụp màn hình.
Tôi có thể tiếp tục nhưng tôi sẽ để điều đó cho các bài viết trong tương lai.
Môi trường ảo cho các tác nhân vận hành: $CODEC
Luận điểm chính của tôi về sự bùng nổ của AI luôn tập trung vào sự phát triển của các tác nhân vận hành.
Nhưng để các tác nhân này thành công, chúng cần quyền truy cập sâu vào hệ thống, thực tế là cho phép chúng kiểm soát máy tính cá nhân và dữ liệu nhạy cảm của bạn, điều này đặt ra những lo ngại nghiêm trọng về bảo mật.
Chúng ta đã thấy cách các công ty như OpenAI và các tập đoàn công nghệ lớn khác xử lý dữ liệu người dùng. Mặc dù hầu hết mọi người không quan tâm, nhưng những cá nhân có lợi ích lớn nhất từ các tác nhân vận hành, nhóm 1% hàng đầu, chắc chắn rất quan tâm.
Cá nhân tôi, không có khả năng tôi sẽ cho một công ty như OpenAI quyền truy cập đầy đủ vào máy của mình, ngay cả khi điều đó mang lại hiệu suất tăng gấp 10 lần.
Vậy tại sao lại là Codec?
Kiến trúc của Codec tập trung vào việc khởi chạy các "máy tính để bàn đám mây" cách ly, theo yêu cầu cho các tác nhân AI. Cốt lõi của nó là một dịch vụ điều phối dựa trên Kubernetes (có tên mã là Captain) cung cấp các máy ảo nhẹ (VMs) bên trong các pod Kubernetes.
Mỗi tác nhân có môi trường cách ly cấp hệ điều hành riêng (một phiên bản hệ điều hành Linux đầy đủ) nơi nó có thể chạy ứng dụng, trình duyệt hoặc bất kỳ mã nào, hoàn toàn cách ly khỏi các tác nhân khác và máy chủ. Kubernetes xử lý việc lập lịch, tự động mở rộng và tự phục hồi các pod của tác nhân, đảm bảo độ tin cậy và khả năng khởi động/tắt nhiều phiên bản tác nhân khi nhu cầu tải tăng.
Môi trường thực thi tin cậy (TEEs) được sử dụng để bảo mật các VMs này, nghĩa là máy của tác nhân có thể được cách ly bằng mật mã, bộ nhớ và thực thi của nó có thể được bảo vệ khỏi hệ điều hành máy chủ hoặc nhà cung cấp đám mây. Điều này rất quan trọng đối với các nhiệm vụ nhạy cảm: ví dụ, một VM chạy trong một enclave có thể giữ các khóa API hoặc bí mật ví tiền điện tử một cách an toàn.
Khi một tác nhân AI ("bộ não" dựa trên LLM) cần thực hiện hành động, nó gửi yêu cầu API đến dịch vụ Captain, sau đó khởi chạy hoặc quản lý pod VM của tác nhân. Quy trình làm việc: tác nhân yêu cầu một máy, Captain (thông qua Kubernetes) phân bổ một pod và gắn một volume lưu trữ (cho đĩa của VM). Tác nhân sau đó có thể kết nối vào VM của nó (thông qua kênh bảo mật hoặc giao diện streaming) để thực hiện lệnh. Captain cung cấp các điểm cuối cho tác nhân để thực thi lệnh shell, tải lên/tải xuống tệp, truy xuất nhật ký và thậm chí snapshot VM để khôi phục sau này.
Thiết kế này cung cấp cho tác nhân một hệ điều hành đầy đủ để làm việc, nhưng với quyền truy cập được kiểm soát và kiểm toán. Vì nó được xây dựng trên Kubernetes, Codec có thể tự động mở rộng theo chiều ngang, nếu 100 tác nhân cần môi trường, nó có thể lập lịch 100 pod trên toàn bộ cluster và xử lý lỗi bằng cách khởi động lại các pod.
VM của tác nhân có thể được trang bị các máy chủ MCP khác nhau (như một "cổng USB" cho AI). Ví dụ, module Conductor của Codec là một container chạy trình duyệt Chrome cùng với máy chủ MCP Microsoft Playwright để điều khiển trình duyệt. Điều này cho phép một tác nhân AI mở các trang web, nhấp vào liên kết, điền vào biểu mẫu và thu thập nội dung thông qua các cuộc gọi MCP tiêu chuẩn, như thể nó là một con người điều khiển trình duyệt.
Các tích hợp MCP khác có thể bao gồm hệ thống tệp/terminal MCP (để cho phép tác nhân chạy lệnh CLI một cách an toàn) hoặc các MCP cụ thể cho ứng dụng (cho các API đám mây, cơ sở dữ liệu, v.v.). Về cơ bản, Codec cung cấp các "wrapper" cơ sở hạ tầng (VMs, enclaves, mạng) để các kế hoạch cấp cao của tác nhân có thể được thực hiện một cách an toàn trên phần mềm và mạng thực.
Các trường hợp sử dụng
Tự động hóa ví:
Codec có thể nhúng ví hoặc khóa bên trong một VM được bảo vệ bởi TEE, cho phép một tác nhân AI tương tác với các mạng blockchain (giao dịch trên DeFi, quản lý tài sản tiền điện tử) mà không làm lộ các khóa bí mật.
Kiến trúc này cho phép các tác nhân tài chính onchain thực hiện các giao dịch thực một cách an toàn, điều mà sẽ rất nguy hiểm trong một thiết lập tác nhân thông thường. Tagline của nền tảng này liệt kê rõ ràng hỗ trợ cho "ví" như một khả năng chính.
Một tác nhân có thể, ví dụ, chạy CLI cho một ví Ethereum bên trong enclave của nó, ký các giao dịch và gửi chúng, với sự đảm bảo rằng nếu tác nhân hành xử sai, nó bị giới hạn trong VM của nó và các khóa không bao giờ rời khỏi TEE.
Tự động hóa trình duyệt và web:
Các tác nhân CodecFlow có thể điều khiển trình duyệt web đầy đủ trong VM của chúng. Ví dụ Conductor cho thấy một tác nhân khởi chạy Chrome và streaming màn hình của nó lên Twitch trong thời gian thực. Thông qua MCP Playwright, tác nhân có thể điều hướng các trang web, nhấp vào nút và thu thập dữ liệu giống như một người dùng thực. Điều này lý tưởng cho các nhiệm vụ như thu thập dữ liệu web sau khi đăng nhập, giao dịch web tự động hoặc kiểm tra ứng dụng web.
Các framework truyền thống thường dựa vào các cuộc gọi API hoặc các script trình duyệt headless đơn giản; ngược lại, CodecFlow có thể chạy một trình duyệt thực với giao diện người dùng hiển thị, giúp dễ dàng xử lý các ứng dụng web phức tạp (ví dụ: với JavaScript nặng hoặc các thử thách CAPTCHA) dưới sự kiểm soát của AI.
Tự động hóa GUI thực tế (Hệ thống cũ):
Vì mỗi tác nhân có một hệ điều hành desktop thực tế, nó có thể tự động hóa các ứng dụng GUI cũ hoặc các phiên remote desktop, về cơ bản hoạt động như tự động hóa quy trình robot (RPA) nhưng được điều khiển bởi AI. Ví dụ, một tác nhân có thể mở một bảng tính Excel trong VM Windows của nó, hoặc giao diện với một ứng dụng terminal cũ không có API.
Trang web của Codec đề cập rõ ràng đến việc cho phép "tự động hóa cũ". Điều này mở ra việc sử dụng AI để vận hành phần mềm không thể truy cập thông qua các API hiện đại, một nhiệm vụ sẽ rất khó khăn hoặc không an toàn nếu không có môi trường chứa. Tích hợp noVNC được bao gồm cho thấy các tác nhân có thể được quan sát hoặc điều khiển thông qua VNC, điều này hữu ích để giám sát AI điều khiển GUI.
Mô phỏng quy trình làm việc SaaS:
Các công ty thường có các quy trình phức tạp liên quan đến nhiều ứng dụng SaaS hoặc hệ thống cũ. Ví dụ, một nhân viên có thể lấy dữ liệu từ Salesforce, kết hợp nó với dữ liệu từ một ERP nội bộ, sau đó gửi email tóm tắt cho khách hàng. Codec có thể cho phép một tác nhân AI thực hiện toàn bộ chuỗi này bằng cách thực sự đăng nhập vào các ứng dụng này thông qua trình duyệt hoặc phần mềm khách trong VM của nó, giống như một con người.
Điều quan trọng là, thông tin đăng nhập cho các ứng dụng này có thể được cung cấp cho VM một cách an toàn (và thậm chí được bao bọc trong TEE), vì vậy tác nhân có thể sử dụng chúng mà không bao giờ "nhìn thấy" thông tin đăng nhập dạng văn bản hoặc làm lộ chúng ra bên ngoài. Điều này có thể tăng tốc tự động hóa các nhiệm vụ văn phòng thường xuyên trong khi đáp ứng yêu cầu của IT rằng mỗi tác nhân hoạt động với quyền tối thiểu và khả năng kiểm toán đầy đủ (vì mọi hành động trong VM có thể được ghi lại hoặc ghi hình).
Lộ trình
- Ra mắt demo công khai vào cuối tháng
- So sánh tính năng với các nền tảng tương tự khác (không có đối thủ cạnh tranh web3)
- Tích hợp TAO
- Hợp tác lớn với ngành game
Về tính độc đáo, Codec được xây dựng trên nền tảng các công nghệ hiện có nhưng tích hợp chúng theo cách mới cho việc sử dụng tác nhân AI. Ý tưởng về môi trường thực thi cách ly không phải là mới (container, VM và TEE là tiêu chuẩn trong điện toán đám mây), nhưng áp dụng chúng cho các tác nhân AI tự động với một lớp API liền mạch (MCP) là cực kỳ mới lạ.
Nền tảng này tận dụng các tiêu chuẩn và công cụ mở bất cứ khi nào có thể: nó sử dụng các máy chủ MCP như Playwright của Microsoft để điều khiển trình duyệt thay vì tái tạo bánh xe đó, và có kế hoạch hỗ trợ các micro-VM Firecracker của AWS để ảo hóa nhanh hơn. Nó cũng fork các giải pháp hiện có như noVNC để streaming desktop. Điều này chứng minh rằng dự án đang đứng trên nền tảng của công nghệ đã được chứng minh (Kubernetes, phần cứng enclave, thư viện mã nguồn mở), tập trung phát triển ban đầu vào logic kết nối và điều phối ("bí quyết" là cách tất cả hoạt động cùng nhau).
Sự kết hợp giữa các thành phần mã nguồn mở và dịch vụ đám mây sắp ra mắt (được gợi ý bởi việc đề cập đến tiện ích token $CODEC và quyền truy cập sản phẩm công khai) có nghĩa là Codec sẽ sớm có thể truy cập dưới nhiều hình thức (cả dưới dạng dịch vụ và tự lưu trữ).
Đội ngũ
Moyai: 15+ năm kinh nghiệm phát triển, hiện đang dẫn đầu phát triển AI tại Elixir Games.
lil’km: 5+ năm phát triển AI, hiện đang làm việc với HuggingFace trong dự án LeRobot.
HuggingFace là một công ty robot lớn và Moyai làm việc với tư cách là trưởng nhóm AI tại Elixir Games (được hỗ trợ bởi Square Enix và Solanafdn).
Tôi đã gọi video với toàn bộ đội ngũ và thực sự thích năng lượng mà họ mang lại. Bạn tôi, người đã giới thiệu họ cho tôi, cũng đã gặp tất cả họ tại Token2049 và chỉ có những điều tốt đẹp để nói.
Suy nghĩ cuối cùng
Vẫn còn rất nhiều điều cần đề cập, tôi sẽ để dành cho các cập nhật và bài viết trong kênh Telegram của mình.
Tôi luôn tin rằng cơ sở hạ tầng đám mây là tương lai cho các tác nhân vận hành. Tôi luôn tôn trọng những gì Nuit đang xây dựng, nhưng Codec là dự án đầu tiên cho tôi thấy sự thuyết phục toàn diện mà tôi đang tìm kiếm.
Đội ngũ rõ ràng là các kỹ sư hàng đầu. Họ đã nói thẳng rằng marketing không phải là thế mạnh của họ, có lẽ đó là lý do tại sao điều này chưa được chú ý. Tôi sẽ làm việc chặt chẽ với họ để giúp định hình chiến lược GTM thực sự phản ánh chiều sâu của những gì họ đang xây dựng.
Với vốn hóa thị trường 4 triệu đô la và mức độ cơ sở hạ tầng này, nó cảm thấy bị định giá thấp một cách đáng kể. Nếu họ có thể cung cấp một sản phẩm khả dụng, tôi nghĩ nó có thể dễ dàng đánh dấu sự khởi đầu của chu kỳ cơ sở hạ tầng AI tiếp theo.
Như mọi khi, có rủi ro và mặc dù tôi đã kiểm tra đội ngũ trong bí mật trong vài tuần qua, không có dự án nào hoàn toàn không có nguy cơ.
Mục tiêu giá? Cao hơn nhiều.

Tóm tắt lý do tại sao tôi chọn Codec > Nuit cho Operators:
Codec sử dụng kiến trúc ba lớp (Máy, Hệ thống, Trí tuệ) cho phép các tác nhân hiệu suất cao, độc lập với quyền kiểm soát bản địa.
Mỗi tác nhân Codec hoạt động cục bộ sử dụng vòng lặp Vision-Language-Action (VLA), giảm độ trễ và tăng độ tin cậy.
Mô hình của Nuit phụ thuộc vào việc phân tích trình duyệt + các cuộc gọi AI trên đám mây, điều này hạn chế tính linh hoạt và tạo ra sự mong manh.
Codec mở rộng theo chiều ngang trên hàng ngàn tác nhân, không có trạng thái chia sẻ và tính mô-đun chịu lỗi.
11,11 N
61
Nội dung trên trang này được cung cấp bởi các bên thứ ba. Trừ khi có quy định khác, OKX không phải là tác giả của bài viết được trích dẫn và không tuyên bố bất kỳ bản quyền nào trong các tài liệu. Nội dung được cung cấp chỉ nhằm mục đích thông tin và không thể hiện quan điểm của OKX. Nội dung này không nhằm chứng thực dưới bất kỳ hình thức nào và không được coi là lời khuyên đầu tư hoặc lời chào mời mua bán tài sản kỹ thuật số. Việc sử dụng AI nhằm cung cấp nội dung tóm tắt hoặc thông tin khác, nội dung do AI tạo ra có thể không chính xác hoặc không nhất quán. Vui lòng đọc bài viết trong liên kết để biết thêm chi tiết và thông tin. OKX không chịu trách nhiệm về nội dung được lưu trữ trên trang web của bên thứ ba. Việc nắm giữ tài sản kỹ thuật số, bao gồm stablecoin và NFT, có độ rủi ro cao và có thể biến động rất lớn. Bạn phải cân nhắc kỹ lưỡng xem việc giao dịch hoặc nắm giữ tài sản kỹ thuật số có phù hợp hay không dựa trên tình hình tài chính của bạn.