OpenAI hat heute meine nordsternartige These für KI mit der Veröffentlichung ihres Operator-Agenten bestätigt.
Nicht nur war dies meine leitende These für $CODEC, sondern auch für jede andere KI-Investition, die ich getätigt habe, einschließlich derjenigen aus dem frühen Jahr während des KI-Wahns.
Es gab viele Diskussionen mit Codec in Bezug auf Robotik. Während dieses Segment bald seine eigene Erzählung haben wird, ist der zugrunde liegende Grund, warum ich von Anfang an so optimistisch gegenüber Codec war, die Art und Weise, wie seine Architektur Operator-Agenten antreibt.
Die Leute unterschätzen immer noch, wie viel Marktanteil auf dem Spiel steht, wenn man Software entwickelt, die autonom läuft und menschliche Arbeiter ohne ständige Aufforderungen oder Aufsicht übertrifft.
Ich habe viele Vergleiche zu $NUIT gesehen. Zunächst möchte ich sagen, dass ich ein großer Fan von dem bin, was Nuit aufbaut, und wünsche ihnen nur Erfolg. Wenn du "nuit" in meinen Telegramm-Chat eingibst, wirst du sehen, dass ich im April gesagt habe, dass ich, wenn ich eine Münze für mehrere Monate halten müsste, Nuit aufgrund meiner Operator-These gewählt hätte.
Nuit war das vielversprechendste Operator-Projekt auf dem Papier, aber nach umfangreicher Recherche stellte ich fest, dass ihre Architektur die Tiefe fehlte, um eine große Investition zu rechtfertigen oder meinen Ruf dahinterzustellen.
In Anbetracht dessen war ich mir bereits der architektonischen Lücken in bestehenden Operator-Agenten-Teams bewusst und suchte aktiv nach einem Projekt, das diese ansprach. Kurz nachdem Codec auftauchte (danke an @0xdetweiler, der darauf bestand, dass ich tiefer in sie eintauche), ist dies der Unterschied zwischen den beiden:
$CODEC vs $NUIT
Die Architektur von Codec ist über drei Schichten aufgebaut: Maschine, System und Intelligenz, die Infrastruktur, Umgebungsinterface und KI-Logik trennen. Jeder Operator-Agent in Codec läuft in seiner eigenen isolierten VM oder Container, was nahezu native Leistung und Fehlertoleranz ermöglicht. Dieses geschichtete Design bedeutet, dass Komponenten unabhängig skalieren oder sich weiterentwickeln können, ohne das System zu brechen.
Die Architektur von Nuit verfolgt einen anderen Ansatz, indem sie monolithischer ist. Ihr Stack dreht sich um einen spezialisierten Webbrowser-Agenten, der Parsing, KI-Argumentation und Aktionen kombiniert. Das bedeutet, dass sie Webseiten tief in strukturierte Daten für die KI umwandeln und auf Cloud-Verarbeitung für schwere KI-Aufgaben angewiesen sind.
Der Ansatz von Codec, ein leichtgewichtiges Vision-Language-Action (VLA)-Modell in jeden Agenten einzubetten, bedeutet, dass es vollständig lokal laufen kann. Dies erfordert kein ständiges Pingen zur Cloud für Anweisungen, wodurch Latenz verringert und Abhängigkeiten von Verfügbarkeit und Bandbreite vermieden werden.
Der Agent von Nuit verarbeitet Aufgaben, indem er zunächst Webseiten in ein semantisches Format umwandelt und dann ein LLM-Gehirn verwendet, um herauszufinden, was zu tun ist, was sich im Laufe der Zeit mit verstärkendem Lernen verbessert. Während dies für die Webautomatisierung effektiv ist, hängt dieser Ablauf von schwerer KI-Verarbeitung in der Cloud und vordefinierten Seitenstrukturen ab. Die lokale Geräteintelligenz von Codec bedeutet, dass Entscheidungen näher an den Daten getroffen werden, was den Overhead reduziert und das System stabiler gegenüber unerwarteten Änderungen macht (keine fragilen Skripte oder DOM-Annahmen).
Die Operatoren von Codec folgen einem kontinuierlichen Wahrnehmen-Denken-Handeln-Zyklus. Die Maschinenschicht streamt die Umgebung (z. B. einen Live-App- oder Roboter-Feed) zur Intelligenzschicht über die optimierten Kanäle der Systemsicht, wodurch die KI "Augen" auf den aktuellen Zustand hat. Das VLA-Modell des Agenten interpretiert dann die visuellen und instruktiven Informationen zusammen, um eine Aktion zu entscheiden, die die Systemsicht durch Tastatur-/Mausereignisse oder Robotersteuerung ausführt. Dieser integrierte Zyklus bedeutet, dass er sich an Live-Ereignisse anpasst; selbst wenn sich die Benutzeroberfläche ändert, wird der Fluss nicht unterbrochen.
Um all dies in einer einfacheren Analogie zu erklären, denke an die Operatoren von Codec wie an einen selbständigen Mitarbeiter, der sich an Überraschungen im Job anpasst. Der Agent von Nuit ist wie ein Mitarbeiter, der anhalten muss, die Situation einem Vorgesetzten am Telefon beschreiben muss und auf Anweisungen warten muss.
Ohne zu sehr in technische Details abzutauchen, sollte dies dir eine grobe Vorstellung davon geben, warum ich Codec als meine Hauptwette auf Operatoren gewählt habe.
Ja, Nuit hat Unterstützung von YC, ein starkes Team und ein S-Rang-GitHub. Obwohl die Architektur von Codec mit horizontaler Skalierung im Hinterkopf entwickelt wurde, was bedeutet, dass du Tausende von Agenten parallel ohne gemeinsamen Speicher oder Ausführungskontext zwischen den Agenten bereitstellen kannst. Das Team von Codec sind auch keine durchschnittlichen Entwickler.
Ihre VLA-Architektur eröffnet eine Vielzahl von Anwendungsfällen, die mit früheren Agentenmodellen nicht möglich waren, da sie durch Pixel und nicht durch Screenshots sehen.
Virtuelle Umgebungen für Operator-Agenten: $CODEC
Meine Kernthese rund um die Explosion der KI drehte sich schon immer um den Aufstieg von Operator Agents.
Damit diese Agenten jedoch erfolgreich sein können, benötigen sie einen tiefgreifenden Systemzugriff, der ihnen effektiv die Kontrolle über Ihren PC und Ihre sensiblen Daten gewährt, was zu ernsthaften Sicherheitsbedenken führt.
Wir haben bereits gesehen, wie Unternehmen wie OpenAI und andere Tech-Giganten mit Nutzerdaten umgehen. Während es den meisten Menschen egal ist, tun es die Personen, die am meisten von Operator-Agenten profitieren können, die oberen 1 % absolut.
Persönlich gibt es keine Chance, dass ich einem Unternehmen wie OpenAI vollen Zugriff auf meine Maschine gebe, selbst wenn dies eine Produktivitätssteigerung von 10 × bedeutet.
Warum also Codec?
Die Architektur des Codecs konzentriert sich auf die Einführung isolierter On-Demand-"Cloud-Desktops" für KI-Agenten. Im Mittelpunkt steht ein Kubernetes-basierter Orchestrierungsdienst (Codename Captain), der leichtgewichtige virtuelle Maschinen (VMs) in Kubernetes-Pods bereitstellt.
Jeder Agent erhält eine eigene isolierte Umgebung auf Betriebssystemebene (eine vollständige Linux-Betriebssysteminstanz), in der Anwendungen, Browser oder beliebiger Code ausgeführt werden können, die vollständig von anderen Agenten und dem Host in einer Sandbox ausgeführt werden. Kubernetes kümmert sich um die Planung, automatische Skalierung und Selbstreparatur dieser Agent-Pods und gewährleistet so die Zuverlässigkeit und die Möglichkeit, viele Agent-Instanzen bei Lastbedarf hoch- und herunterzufahren
Trusted Execution Environments (TEEs) werden verwendet, um diese VMs zu sichern, d. h. der Computer des Agenten kann kryptografisch isoliert werden, sein Arbeitsspeicher und seine Ausführung können vor dem Host-Betriebssystem oder dem Cloud-Anbieter geschützt werden. Dies ist für sensible Aufgaben von entscheidender Bedeutung: Zum Beispiel könnte eine VM, die in einer Enclave ausgeführt wird, API-Schlüssel oder Krypto-Wallet-Geheimnisse sicher speichern.
Wenn ein KI-Agent (ein LLM-basiertes "Gehirn") Aktionen ausführen muss, sendet er API-Anfragen an den Captain-Dienst, der dann den VM-Pod des Agenten startet oder verwaltet. Der Workflow: Der Agent fordert eine Maschine an, der Captain (über Kubernetes) weist einen Pod zu und fügt ein persistentes Volume (für die Festplatte der VM) an. Der Agent kann dann eine Verbindung mit seiner VM herstellen (über einen sicheren Kanal oder eine Streaming-Schnittstelle), um Befehle auszugeben. Captain macht Endpunkte für den Agenten verfügbar, um Shell-Befehle auszuführen, Dateien hoch- und herunterzuladen, Protokolle abzurufen und sogar Snapshots der VM für eine spätere Wiederherstellung zu erstellen.
Dieser Entwurf bietet dem Agent ein vollständiges Betriebssystem, in dem er arbeiten kann, jedoch mit kontrolliertem, überwachtem Zugriff. Da Codec auf Kubernetes basiert, kann es automatisch horizontal skaliert werden, wenn 100 Agenten Umgebungen benötigen, kann es 100 Pods im gesamten Cluster planen und Ausfälle durch Neustart von Pods behandeln.
Die VM des Agenten kann mit verschiedenen MCP-Servern ausgestattet werden (z. B. einem "USB-Port" für KI). Das Conductor-Modul von Codec ist beispielsweise ein Container, der einen Chrome-Browser zusammen mit einem Microsoft Playwright MCP-Server zur Browsersteuerung ausführt. Auf diese Weise kann ein KI-Agent Webseiten öffnen, auf Links klicken, Formulare ausfüllen und Inhalte über Standard-MCP-Aufrufe scrapen, als wäre er ein Mensch, der den Browser steuert.
Andere MCP-Integrationen können ein Dateisystem-/Terminal-MCP (damit ein Agent CLI-Befehle sicher ausführen kann) oder anwendungsspezifische MCPs (für Cloud-APIs, Datenbanken usw.) umfassen. Im Wesentlichen stellt Codec die Infrastruktur-"Wrapper" (VMs, Enclaves, Netzwerke) bereit, damit High-Level-Agent-Pläne sicher in echter Software und Netzwerken ausgeführt werden können.
Anwendungsfälle
Wallet-Automatisierung:
Der Codec kann Wallets oder Schlüssel in eine TEE-geschützte VM einbetten, so dass ein KI-Agent mit Blockchain-Netzwerken interagieren (Handel auf DeFi, Verwaltung von Krypto-Assets), ohne geheime Schlüssel preiszugeben.
Diese Architektur ermöglicht es Onchain-Finanzagenten, echte Transaktionen sicher auszuführen, was in einem typischen Agenten-Setup sehr gefährlich wäre. Der Slogan der Plattform listet die Unterstützung von "Wallets" ausdrücklich als Schlüsselfunktion auf.
Ein Agent könnte beispielsweise eine CLI für eine Ethereum-Wallet in seiner Enclave ausführen, Transaktionen signieren und senden, mit der Gewissheit, dass der Agent im Falle eines Fehlverhaltens auf seine VM beschränkt ist und die Schlüssel den TEE nie verlassen.
Browser- und Web-Automatisierung:
CodecFlow-Agents können vollständige Webbrowser in ihrer VM steuern. Das Conductor-Beispiel zeigt, wie ein Agent Chrome startet und seinen Bildschirm in Echtzeit an Twitch streamt. Über das Playwright MCP kann der Agent wie ein menschlicher Benutzer auf Websites navigieren, auf Schaltflächen klicken und Daten abrufen. Dies ist ideal für Aufgaben wie Web-Scraping hinter Logins, automatisierte Webtransaktionen oder das Testen von Web-Apps.
Traditionelle Frameworks stützen sich in der Regel auf API-Aufrufe oder einfache Headless-Browserskripte. Im Gegensatz dazu kann CodecFlow einen echten Browser mit einer sichtbaren Benutzeroberfläche ausführen, was die Handhabung komplexer Webanwendungen (z. B. mit starken JavaScript- oder CAPTCHA-Herausforderungen) unter KI-Kontrolle erleichtert.
UI-Automatisierung in der Praxis (Legacy-Systeme):
Da jeder Agent über ein tatsächliches Desktop-Betriebssystem verfügt, kann er ältere GUI-Anwendungen oder Remote-Desktop-Sitzungen automatisieren, die im Wesentlichen wie Robotic Process Automation (RPA) funktionieren, aber von KI gesteuert werden. Ein Agent kann z. B. eine Excel-Tabelle in seiner Windows-VM öffnen oder eine Schnittstelle zu einer alten Terminalanwendung herstellen, die über keine API verfügt.
Auf der Website des Codecs wird explizit erwähnt, dass die "Legacy-Automatisierung" aktiviert wird. Dies eröffnet die Verwendung von KI für den Betrieb von Software, die nicht über moderne APIs zugänglich ist, eine Aufgabe, die ohne eine geschlossene Umgebung sehr hackig oder unsicher wäre. Die enthaltene noVNC-Integration deutet darauf hin, dass Agenten über VNC beobachtet oder gesteuert werden können, was für die Überwachung einer KI nützlich ist, die eine GUI steuert.
Simulieren von SaaS-Workflows:
Unternehmen haben oft komplexe Prozesse, die mehrere SaaS-Anwendungen oder Altsysteme umfassen. Zum Beispiel könnte ein Mitarbeiter Daten aus Salesforce nehmen, sie mit Daten aus einem internen ERP kombinieren und dann eine Zusammenfassung per E-Mail an einen Kunden senden. Der Codec kann es einem KI-Agenten ermöglichen, diese gesamte Sequenz auszuführen, indem er sich über einen Browser oder eine Client-Software in seiner VM bei diesen Apps anmeldet, ähnlich wie es ein Mensch tun würde. Dies ist wie RPA, aber angetrieben von einem LLM, das Entscheidungen treffen und mit Variabilität umgehen kann.
Wichtig ist, dass Anmeldeinformationen für diese Apps der VM sicher zur Verfügung gestellt werden können (und sogar in einem TEE eingeschlossen sind), sodass der Agent sie verwenden kann, ohne jemals Klartext-Anmeldeinformationen zu "sehen" oder sie extern verfügbar zu machen. Dies könnte die Automatisierung routinemäßiger Backoffice-Aufgaben beschleunigen und gleichzeitig die IT-Abteilung davon überzeugen, dass jeder Agent mit den geringsten Rechten und vollständiger Überprüfbarkeit ausgeführt wird (da jede Aktion in der VM protokolliert oder aufgezeichnet werden kann).
Fahrplan
- Öffentliche Demo am Ende des Monats starten
- Funktionsvergleich mit anderen ähnlichen Plattformen (kein Web3-Konkurrent)
- TAO-Integration
- Große Gaming-Partnerschaft
In Bezug auf die Originalität baut Codec auf einem Fundament bestehender Technologien auf, integriert diese jedoch auf neuartige Weise für die Verwendung von KI-Agenten. Die Idee von isolierten Ausführungsumgebungen ist nicht neu (Container, VMs und TEEs sind Standard im Cloud Computing), aber ihre Anwendung auf autonome KI-Agenten mit einer nahtlosen API-Schicht (MCP) ist äußerst neu.
Die Plattform nutzt offene Standards und Tools, wo immer dies möglich ist: Sie verwendet MCP-Server wie Playwright von Microsoft für die Browsersteuerung, anstatt das Rad neu zu erfinden, und plant, die Firecracker-Micro-VMs von AWS für eine schnellere Virtualisierung zu unterstützen. Es wurden auch bestehende Lösungen wie noVNC für das Streaming von Desktops abgespalten. Es wird gezeigt, dass das Projekt auf den Grundlagen bewährter Technologie (Kubernetes, Enclave-Hardware, Open-Source-Bibliotheken) aufbaut und sich bei der ursprünglichen Entwicklung auf Glue-Logik und Orchestrierung konzentriert (die "geheime Zutat" ist, wie alles zusammenarbeitet).
Die Kombination aus Open-Source-Komponenten und einem bevorstehenden Cloud-Dienst (angedeutet durch die Erwähnung eines $CODEC Token-Dienstprogramms und des Zugangs zu öffentlichen Produkten) bedeutet, dass Codec bald in mehreren Formen zugänglich sein wird (sowohl als Service als auch selbst gehostet).
Mannschaft
Moyai: 15+ Jahre Entwicklererfahrung, derzeit leitet er die KI-Entwicklung bei Elixir Games.
lil'km: 5+ Jahre KI-Entwickler, arbeitet derzeit mit HuggingFace am LeRobot-Projekt.
HuggingFace ist ein riesiges Robotik-Unternehmen und Moyai arbeitet als Head of AI bei Elixir Games (unterstützt von Square Enix und Solanafdn).
Ich habe persönlich mit dem gesamten Team telefoniert und mag die Energie, die sie mitbringen, sehr. Mein Freund, der sie auf meinen Radar gebracht hat, hat sie auch alle auf der Token2049 getroffen und hatte nur Gutes zu sagen.
Abschließende Gedanken
Es gibt noch viel zu berichten, was ich mir für zukünftige Updates und Beiträge in meinem Telegram-Kanal aufheben werde.
Ich glaube seit langem, dass die Cloud-Infrastruktur die Zukunft für Operator-Agenten ist. Ich habe immer respektiert, was Nuit entwickelt, aber Codec ist das erste Projekt, das mir die Full-Stack-Überzeugung gezeigt hat, nach der ich gesucht habe.
Das Team besteht eindeutig aus erstklassigen Ingenieuren. Sie haben offen gesagt, dass Marketing nicht ihre Stärke ist, was wahrscheinlich der Grund dafür ist, dass dies unter dem Radar geflogen ist. Ich werde eng mit ihnen zusammenarbeiten, um die GTM-Strategie zu gestalten, die die Tiefe dessen, was sie aufbauen, widerspiegelt.
Mit einer Marktkapitalisierung von 4 Mio. $ und diesem Infrastrukturniveau fühlt es sich massiv unterbewertet an. Wenn sie ein brauchbares Produkt liefern können, könnte dies meiner Meinung nach leicht den Beginn des nächsten KI-Infrastrukturzyklus markieren.
Wie immer gibt es Risiken, und obwohl ich das Team in den letzten Wochen heimlich überprüft habe, ist kein Projekt jemals vollständig teppichsicher.
Kursziele? Viel höher.

Zusammenfassung, warum ich Codec > Nuit für Operatoren gewählt habe:
Codec verwendet eine dreischichtige Architektur (Maschine, System, Intelligenz), die isolierte, leistungsstarke Agenten mit nativer Kontrolle ermöglicht.
Jeder Codec-Agent läuft lokal mit einer Vision-Language-Action (VLA) Schleife, was die Latenz verringert und die Zuverlässigkeit erhöht.
Das Modell von Nuit hängt von der Browser-Analyse und Cloud-AI-Aufrufen ab, was die Flexibilität einschränkt und Fragilität einführt.
Codec skaliert horizontal über Tausende von Agenten, ohne gemeinsamen Zustand und mit fehlertoleranter Modularität.
11.107
61
Der Inhalt dieser Seite wird von Dritten bereitgestellt. Sofern nicht anders angegeben, ist OKX nicht der Autor der zitierten Artikel und erhebt keinen Anspruch auf das Urheberrecht an den Materialien. Der Inhalt wird ausschließlich zu Informationszwecken bereitgestellt und gibt nicht die Ansichten von OKX wieder. Er stellt keine wie auch immer geartete Befürwortung dar und sollte nicht als Anlageberatung oder Aufforderung zum Kauf oder Verkauf digitaler Vermögenswerte betrachtet werden. Soweit generative KI zur Bereitstellung von Zusammenfassungen oder anderen Informationen verwendet wird, können solche KI-generierten Inhalte ungenau oder inkonsistent sein. Bitte lesen Sie den verlinkten Artikel für weitere Details und Informationen. OKX ist nicht verantwortlich für Inhalte, die auf Websites Dritter gehostet werden. Der Besitz digitaler Vermögenswerte, einschließlich Stablecoins und NFTs, ist mit einem hohen Risiko verbunden und kann starken Schwankungen unterliegen. Sie sollten sorgfältig abwägen, ob der Handel mit oder der Besitz von digitalen Vermögenswerten angesichts Ihrer finanziellen Situation für Sie geeignet ist.