OpenAI vient de confirmer ma thèse étoile du nord pour l'IA aujourd'hui en lançant leur agent opérateur. Non seulement c'était ma thèse directrice pour $CODEC, mais aussi pour chaque autre investissement en IA que j'ai réalisé, y compris ceux du début de l'année pendant la folie de l'IA. Il y a eu beaucoup de discussions avec Codec concernant la robotique, bien que ce secteur ait bientôt sa propre narration, la raison sous-jacente pour laquelle j'étais si optimiste sur Codec depuis le premier jour est due à la façon dont son architecture alimente les agents opérateurs. Les gens sous-estiment encore combien de parts de marché sont en jeu en construisant des logiciels qui fonctionnent de manière autonome, surpassant les travailleurs humains sans avoir besoin de rappels constants ou de supervision. J'ai vu beaucoup de comparaisons avec $NUIT. Tout d'abord, je tiens à dire que je suis un grand fan de ce que Nuit construit et je ne souhaite que leur succès. Si vous tapez "nuit" dans mon telegram, vous verrez qu'en avril, j'ai dit que si je devais détenir une seule pièce pendant plusieurs mois, ce serait Nuit en raison de ma thèse opérateur. Nuit était le projet opérateur le plus prometteur sur le papier, mais après des recherches approfondies, j'ai constaté que leur architecture manquait de la profondeur nécessaire pour justifier un investissement majeur ou mettre ma réputation derrière elle. Cela dit, j'étais déjà conscient des lacunes architecturales dans les équipes d'agents opérateurs existantes et je cherchais activement un projet qui y remédierait. Peu après, Codec est apparu (merci à @0xdetweiler d'avoir insisté pour que je les examine de plus près) et voici la différence entre les deux : $CODEC vs $NUIT L'architecture de Codec est construite sur trois couches : Machine, Système et Intelligence, qui séparent l'infrastructure, l'interface environnementale et la logique IA. Chaque agent opérateur dans Codec fonctionne dans sa propre VM ou conteneur isolé, permettant une performance presque native et une isolation des pannes. Ce design en couches signifie que les composants peuvent évoluer ou se développer indépendamment sans casser le système. L'architecture de Nuit prend un chemin différent en étant plus monolithique. Leur pile tourne autour d'un agent de navigateur web spécialisé qui combine parsing, raisonnement IA et action. Cela signifie qu'ils analysent profondément les pages web en données structurées pour que l'IA puisse les consommer et s'appuient sur le traitement cloud pour les tâches IA lourdes. L'approche de Codec d'intégrer un modèle Vision-Language-Action (VLA) léger dans chaque agent signifie qu'il peut fonctionner entièrement localement. Ce qui ne nécessite pas de ping constant vers le cloud pour des instructions, éliminant la latence et évitant la dépendance à la disponibilité et à la bande passante. L'agent de Nuit traite les tâches en convertissant d'abord les pages web en un format sémantique, puis en utilisant un cerveau LLM pour déterminer quoi faire, ce qui s'améliore avec le temps grâce à l'apprentissage par renforcement. Bien que cela soit efficace pour l'automatisation web, ce flux dépend d'un traitement IA lourd côté cloud et de structures de page prédéfinies. L'intelligence locale de Codec signifie que les décisions se prennent plus près des données, réduisant les frais généraux et rendant le système plus stable face aux changements inattendus (pas de scripts fragiles ou d'hypothèses DOM). Les opérateurs de Codec suivent une boucle continue de perception–réflexion–action. La couche machine diffuse l'environnement (par exemple, un flux d'application en direct ou de robot) à la couche d'intelligence via les canaux optimisés de la couche système, donnant à l'IA des "yeux" sur l'état actuel. Le modèle VLA de l'agent interprète ensuite les visuels et les instructions ensemble pour décider d'une action, que la couche système exécute par le biais d'événements clavier/souris ou de contrôle de robot. Cette boucle intégrée signifie qu'elle s'adapte aux événements en direct, même si l'interface utilisateur change, vous ne casserez pas le flux. Pour mettre tout cela dans une analogie plus simple, pensez aux opérateurs de Codec comme à un employé autonome qui s'adapte aux surprises au travail. L'agent de Nuit est comme un employé qui doit faire une pause, décrire la situation à un superviseur au téléphone et attendre des instructions. Sans trop entrer dans un trou technique, cela devrait vous donner une idée générale sur pourquoi j'ai choisi Codec comme mon pari principal sur les opérateurs. Oui, Nuit a le soutien de YC, une équipe solide et un GitHub de niveau S. Bien que l'architecture de Codec ait été construite avec l'évolutivité horizontale à l'esprit, ce qui signifie que vous pouvez déployer des milliers d'agents en parallèle sans mémoire partagée ni contexte d'exécution entre les agents. L'équipe de Codec n'est pas non plus composée de développeurs moyens. Leur architecture VLA ouvre une multitude de cas d'utilisation qui n'étaient pas possibles avec les modèles d'agents précédents en raison de la vision à travers les pixels, pas les captures d'écran. Je pourrais continuer, mais je vais garder cela pour de futurs posts.
Environnements virtuels pour les agents opérateurs : $CODEC Ma thèse de base autour de l’explosion de l’IA a toujours été centrée sur l’essor des agents opérateurs. Mais pour que ces agents réussissent, ils ont besoin d’un accès profond au système, ce qui leur permet de contrôler votre ordinateur personnel et vos données sensibles, ce qui pose de sérieux problèmes de sécurité. Nous avons déjà vu comment des entreprises comme OpenAI et d’autres géants de la technologie gèrent les données des utilisateurs. Alors que la plupart des gens ne s’en soucient pas, les personnes qui bénéficient le plus des agents opérateurs, les 1 % les plus riches, le font absolument. Personnellement, il n’y a aucune chance que je donne à une entreprise comme OpenAI un accès complet à ma machine, même si cela signifie une augmentation de 10 × de la productivité. Alors pourquoi Codec ? L’architecture du codec est centrée sur le lancement de « bureaux cloud » isolés et à la demande pour les agents d’IA. Il s’agit d’un service d’orchestration basé sur Kubernetes (nom de code Captain) qui provisionne des machines virtuelles (VM) légères à l’intérieur des pods Kubernetes. Chaque agent dispose de son propre environnement isolé au niveau du système d’exploitation (une instance complète du système d’exploitation Linux) où il peut exécuter des applications, des navigateurs ou n’importe quel code, entièrement en bac à sable à partir des autres agents et de l’hôte. Kubernetes gère la planification, la mise à l’échelle automatique et l’auto-réparation de ces pods d’agent, ce qui garantit la fiabilité et la possibilité d’augmenter/descendre de nombreuses instances d’agent en fonction des exigences de charge Les environnements d’exécution sécurisés (TEE) sont utilisés pour sécuriser ces machines virtuelles, ce qui signifie que la machine de l’agent peut être isolée de manière cryptographique, que sa mémoire et son exécution peuvent être protégées du système d’exploitation hôte ou du fournisseur de cloud. C’est crucial pour les tâches sensibles : par exemple, une machine virtuelle exécutée dans une enclave peut détenir des clés API ou des secrets de portefeuille crypto en toute sécurité. Lorsqu’un agent d’IA (un « cerveau » basé sur LLM) doit effectuer des actions, il envoie des requêtes d’API au service Captain, qui lance ou gère ensuite le pod VM de l’agent. Le workflow : l’agent demande une machine, Captain (via Kubernetes) alloue un pod et attache un volume persistant (pour le disque de la VM). L’agent peut ensuite se connecter à sa machine virtuelle (via un canal sécurisé ou une interface de streaming) pour émettre des commandes. Captain expose les points de terminaison pour que l’agent puisse exécuter des commandes shell, charger/télécharger des fichiers, récupérer des journaux et même capturer la machine virtuelle pour une restauration ultérieure. Cette conception donne à l’agent un système d’exploitation complet dans lequel travailler, mais avec un accès contrôlé et audité. Parce qu’il est basé sur Kubernetes, le codec peut être mis à l’échelle automatiquement horizontalement, si 100 agents ont besoin d’environnements, il peut planifier 100 pods sur le cluster et gérer les défaillances en redémarrant les pods. La VM de l’agent peut être équipée de différents serveurs MCP (comme un « port USB » pour l’IA). Par exemple, le module Conductor du codec est un conteneur qui exécute un navigateur Chrome ainsi qu’un serveur Microsoft Playwright MCP pour le contrôle du navigateur. Cela permet à un agent d’IA d’ouvrir des pages Web, de cliquer sur des liens, de remplir des formulaires et de récupérer du contenu via des appels MCP standard, comme s’il s’agissait d’un humain contrôlant le navigateur. D’autres intégrations MCP peuvent inclure un MCP de système de fichiers/terminal (pour permettre à un agent d’exécuter des commandes CLI en toute sécurité) ou des MCP spécifiques à une application (pour les API cloud, les bases de données, etc.). Essentiellement, le codec fournit les « wrappers » d’infrastructure (machines virtuelles, enclaves, réseaux) afin que les plans d’agent de haut niveau puissent être exécutés en toute sécurité sur des logiciels et des réseaux réels. Cas d’utilisation Automatisation du portefeuille : Le codec peut intégrer des portefeuilles ou des clés à l’intérieur d’une VM protégée par TEE, ce qui permet à un agent d’IA d’interagir avec les réseaux blockchain (commerce sur la DeFi, gestion d’actifs cryptographiques) sans exposer de clés secrètes. Cette architecture permet aux agents financiers onchain d’exécuter des transactions réelles en toute sécurité, ce qui serait très dangereux dans une configuration d’agent typique. Le slogan de la plate-forme répertorie explicitement la prise en charge des « portefeuilles » comme une capacité clé. Un agent pourrait, par exemple, exécuter une CLI pour un portefeuille Ethereum à l’intérieur de son enclave, signer des transactions et les envoyer, avec l’assurance que si l’agent se comporte mal, il est confiné à sa machine virtuelle et les clés ne quittent jamais le TEE. Automatisation du navigateur et du Web : Les agents CodecFlow peuvent contrôler des navigateurs Web complets dans leur machine virtuelle. L’exemple de Conductor montre un agent qui lance Chrome et diffuse son écran sur Twitch en temps réel. Grâce au MCP Playwright, l’agent peut naviguer sur des sites Web, cliquer sur des boutons et extraire des données comme un utilisateur humain. C’est idéal pour des tâches telles que le grattage Web derrière les connexions, les transactions Web automatisées ou le test d’applications Web. Les frameworks traditionnels reposent généralement sur des appels d’API ou de simples scripts de navigateur sans tête. en revanche, CodecFlow peut exécuter un véritable navigateur avec une interface utilisateur visible, ce qui facilite la gestion d’applications Web complexes (par exemple, avec de lourds défis JavaScript ou CAPTCHA) sous le contrôle de l’IA. Automatisation de l’interface graphique dans le monde réel (systèmes hérités) : Étant donné que chaque agent dispose d’un système d’exploitation de bureau réel, il peut automatiser des applications GUI héritées ou des sessions de bureau à distance, fonctionnant essentiellement comme l’automatisation des processus robotiques (RPA), mais pilotée par l’IA. Par exemple, un agent peut ouvrir une feuille de calcul Excel dans sa machine virtuelle Windows ou s’interfacer avec une ancienne application de terminal qui n’a pas d’API. Le site de Codec mentionne explicitement l’activation de « l’automatisation héritée ». Cela ouvre la voie à l’utilisation de l’IA pour faire fonctionner des logiciels qui ne sont pas accessibles via des API modernes, une tâche qui serait très piratée ou dangereuse sans un environnement confiné. L’intégration noVNC incluse suggère que les agents peuvent être observés ou contrôlés via VNC, ce qui est utile pour surveiller une IA pilotant une interface graphique. Simulation de flux de travail SaaS : Les entreprises ont souvent des processus complexes qui impliquent plusieurs applications SaaS ou systèmes existants. Par exemple, un employé peut prendre des données de Salesforce, les combiner avec des données d’un ERP interne, puis envoyer un résumé par e-mail à un client. Le codec peut permettre à un agent d’IA d’effectuer toute cette séquence en se connectant à ces applications via un navigateur ou un logiciel client dans sa machine virtuelle, un peu comme le ferait un humain. C’est comme la RPA, mais alimentée par un LLM capable de prendre des décisions et de gérer la variabilité. Il est important de noter que les informations d’identification de ces applications peuvent être fournies à la machine virtuelle en toute sécurité (et même enfermées dans un TEE), de sorte que l’agent peut les utiliser sans jamais « voir » les informations d’identification en texte brut ou les exposer en externe. Cela pourrait accélérer l’automatisation des tâches de back-office de routine tout en satisfaisant le service informatique que chaque agent fonctionne avec le moindre privilège et une auditabilité complète (puisque chaque action dans la machine virtuelle peut être enregistrée ou enregistrée). Feuille de route - Lancement de la démo publique à la fin du mois - Comparaison des fonctionnalités avec d’autres plateformes similaires (pas de concurrent web3) - Intégration TAO - Partenariat de jeu à grande échelle En termes d’originalité, Codec est construit sur une base de technologies existantes, mais les intègre d’une manière nouvelle pour l’utilisation d’agents d’IA. L’idée d’environnements d’exécution isolés n’est pas nouvelle (les conteneurs, les machines virtuelles et les TEE sont standard dans le cloud computing), mais leur application à des agents d’IA autonomes dotés d’une couche API (MCP) transparente est extrêmement nouvelle. La plate-forme s’appuie sur des normes et des outils ouverts dans la mesure du possible : elle utilise des serveurs MCP comme Playwright de Microsoft pour le contrôle du navigateur au lieu de réinventer cette roue, et prévoit de prendre en charge les micro-VM Firecracker d’AWS pour une virtualisation plus rapide. Il a également bifurqué des solutions existantes comme noVNC pour le streaming de bureaux. La démonstration du projet repose sur des technologies éprouvées (Kubernetes, matériel enclave, bibliothèques open source), en concentrant son développement original sur la logique de collage et l’orchestration (la « sauce secrète » est la façon dont tout cela fonctionne ensemble). La combinaison de composants open source et d’un service cloud à venir (suggéré par la mention d’un utilitaire de jeton $CODEC et d’un accès public au produit) signifie que Codec sera bientôt accessible sous plusieurs formes (à la fois en tant que service et auto-hébergé). Équipe Moyai : 15+ ans d’expérience en développement, actuellement à la tête du développement de l’IA chez Elixir Games. lil’km : 5+ ans de développement IA, travaille actuellement avec HuggingFace sur le projet LeRobot. HuggingFace est une énorme entreprise de robotique et Moyai travaille en tant que responsable de l’IA chez elixir games (soutenu par Square Enix et Solanafdn. J’ai personnellement appelé toute l’équipe par vidéo et j’aime vraiment l’énergie qu’ils apportent. Mon ami qui les a mis sur mon radar les a également tous rencontrés à Token2049 et n’avait que de bonnes choses à dire. Réflexions finales Il reste encore beaucoup à couvrir, que je garderai pour de futures mises à jour et messages sur ma chaîne Telegram. J’ai longtemps cru que l’infrastructure cloud était l’avenir des agents opérateurs. J’ai toujours respecté ce que Nuit est en train de construire, mais Codec est le premier projet qui m’a montré la conviction full-stack que je recherchais. L’équipe est clairement composée d’ingénieurs de haut niveau. Ils ont ouvertement dit que le marketing n’était pas leur force, ce qui explique probablement pourquoi cela est passé inaperçu. Je travaillerai en étroite collaboration avec eux pour les aider à façonner la stratégie GTM qui reflète réellement la profondeur de ce qu’ils construisent. Avec une capitalisation boursière de 4 millions de dollars et ce niveau d’infrastructure, il semble massivement sous-évalué. S’ils peuvent livrer un produit utilisable, je pense que cela pourrait facilement marquer le début du prochain cycle d’infra-intelligence artificielle. Comme toujours, il y a des risques et bien que j’aie examiné l’équipe en toute discrétion au cours des dernières semaines, aucun projet n’est jamais complètement à l’épreuve des tapis. Objectifs de prix ? Beaucoup plus élevé.
Résumé des raisons pour lesquelles j'ai choisi Codec > Nuit pour les opérateurs : Codec utilise une architecture à trois couches (Machine, Système, Intelligence) permettant des agents isolés et performants avec un contrôle natif. Chaque agent Codec fonctionne localement en utilisant une boucle Vision-Langage-Action (VLA), réduisant la latence et augmentant la fiabilité. Le modèle de Nuit dépend du parsing du navigateur + des appels AI dans le cloud, ce qui limite la flexibilité et introduit de la fragilité. Codec se développe horizontalement à travers des milliers d'agents, sans état partagé et avec une modularité tolérante aux pannes.
Afficher l’original
11,11 k
61
Le contenu de cette page est fourni par des tiers. Sauf indication contraire, OKX n’est pas l’auteur du ou des articles cités et ne revendique aucun droit d’auteur sur le contenu. Le contenu est fourni à titre d’information uniquement et ne représente pas les opinions d’OKX. Il ne s’agit pas d’une approbation de quelque nature que ce soit et ne doit pas être considéré comme un conseil en investissement ou une sollicitation d’achat ou de vente d’actifs numériques. Dans la mesure où l’IA générative est utilisée pour fournir des résumés ou d’autres informations, ce contenu généré par IA peut être inexact ou incohérent. Veuillez lire l’article associé pour obtenir davantage de détails et d’informations. OKX n’est pas responsable du contenu hébergé sur des sites tiers. La détention d’actifs numériques, y compris les stablecoins et les NFT, implique un niveau de risque élevé et leur valeur peut considérablement fluctuer. Examinez soigneusement votre situation financière pour déterminer si le trading ou la détention d’actifs numériques vous convient.