A OpenAI acabou de confirmar ... | Trissy OKX Feed

A OpenAI acabou de confirmar a minha tese de estrela do norte para a IA hoje ao lançar o seu agente operador. Não só foi esta a minha tese orientadora para o $CODEC, mas também para todos os outros investimentos em IA que fiz, incluindo aqueles do início do ano durante a mania da IA. Tem havido muita discussão com a Codec em relação à Robótica, enquanto esse setor terá a sua própria narrativa muito em breve, a razão subjacente pela qual fui tão otimista em relação à Codec desde o primeiro dia é devido à forma como a sua arquitetura alimenta os agentes operadores. As pessoas ainda subestimam quanta quota de mercado está em jogo ao construir software que funciona de forma autónoma, superando trabalhadores humanos sem a necessidade de constantes instruções ou supervisão. Vi muitas comparações com o $NUIT. Em primeiro lugar, quero dizer que sou um grande fã do que a Nuit está a construir e desejo nada menos que o seu sucesso. Se você digitar "nuit" no meu telegram, verá que em abril eu disse que se tivesse que segurar uma moeda por vários meses, teria sido a Nuit devido à minha tese de operador. A Nuit era o projeto operador mais promissor no papel, mas após uma pesquisa extensa, descobri que a sua arquitetura carecia da profundidade necessária para justificar um investimento significativo ou colocar a minha reputação por trás dela. Tendo isso em mente, já estava ciente das lacunas arquitetónicas nas equipas de agentes operadores existentes e ativamente à procura de um projeto que as abordasse. Pouco depois, a Codec apareceu (graças ao @0xdetweiler que insistiu para eu olhar mais a fundo para eles) e esta é a diferença entre os dois: $CODEC vs $NUIT A arquitetura da Codec é construída em três camadas; Máquina, Sistema e Inteligência, que separam a infraestrutura, a interface do ambiente e a lógica da IA. Cada agente operador na Codec funciona na sua própria VM ou container isolado, permitindo desempenho quase nativo e isolamento de falhas. Este design em camadas significa que os componentes podem escalar ou evoluir de forma independente sem quebrar o sistema. A arquitetura da Nuit segue um caminho diferente, sendo mais monolítica. A sua pilha gira em torno de um agente de navegador web especializado que combina análise, raciocínio de IA e ação. Isso significa que eles analisam profundamente as páginas web em dados estruturados para a IA consumir e dependem do processamento em nuvem para tarefas pesadas de IA. A abordagem da Codec de incorporar um modelo leve de Visão-Linguagem-Ação (VLA) dentro de cada agente significa que pode funcionar totalmente local. O que não requer constantes pings de volta para a nuvem para instruções, eliminando a latência e evitando a dependência de tempo de atividade e largura de banda. O agente da Nuit processa tarefas convertendo primeiro páginas web em um formato semântico e depois usando um cérebro LLM para descobrir o que fazer, o que melhora ao longo do tempo com aprendizado por reforço. Embora eficaz para automação web, este fluxo depende de processamento pesado de IA do lado da nuvem e estruturas de página predefinidas. A inteligência local do dispositivo da Codec significa que as decisões acontecem mais perto dos dados, reduzindo a sobrecarga e tornando o sistema mais estável a mudanças inesperadas (sem scripts frágeis ou suposições de DOM). Os operadores da Codec seguem um ciclo contínuo de perceber–pensar–agir. A camada da máquina transmite o ambiente (por exemplo, um feed de app ao vivo ou robô) para a camada de inteligência através dos canais otimizados da camada do sistema, dando à IA "olhos" sobre o estado atual. O modelo VLA do agente então interpreta os visuais e instruções juntos para decidir sobre uma ação, que a camada do Sistema executa através de eventos de teclado/mouse ou controle de robô. Este ciclo integrado significa que se adapta a eventos ao vivo, mesmo que a interface do usuário mude, você não quebrará o fluxo. Para colocar tudo isso em uma analogia mais simples, pense nos operadores da Codec como um empregado autossuficiente que se adapta a surpresas no trabalho. O agente da Nuit é como um empregado que precisa pausar, descrever a situação a um supervisor ao telefone e esperar por instruções. Sem entrar muito em um buraco técnico, isso deve lhe dar uma ideia de alto nível sobre por que escolhi a Codec como minha aposta principal em Operadores. Sim, a Nuit tem apoio da YC, uma equipe forte e um github de nível S. Embora a arquitetura da Codec tenha sido construída com escalabilidade horizontal em mente, o que significa que você pode implantar milhares de agentes em paralelo com zero memória compartilhada ou contexto de execução entre os agentes. A equipe da Codec também não é composta por desenvolvedores comuns. A sua arquitetura VLA abre uma multitude de casos de uso que não eram possíveis com modelos de agentes anteriores devido a ver através de pixels, não capturas de tela. Eu poderia continuar, mas vou guardar isso para futuros posts.

Ambientes Virtuais para Agentes Operadores: $CODEC Minha tese central em torno da explosão da IA sempre se centrou na ascensão dos agentes operadores. Mas para que esses agentes tenham sucesso, eles precisam de acesso profundo ao sistema, concedendo-lhes efetivamente controle sobre seu computador pessoal e dados confidenciais, o que introduz sérias preocupações de segurança. Já vimos como empresas como a OpenAI e outros gigantes da tecnologia lidam com os dados dos usuários. Enquanto a maioria das pessoas não se importa, os indivíduos que mais se beneficiam dos agentes operadores, o 1% mais rico absolutamente se importa. Pessoalmente, não há nenhuma chance de eu estar dando a uma empresa como a OpenAI acesso total à minha máquina, mesmo que isso signifique um aumento de 10× na produtividade. Então, por que Codec? A arquitetura da Codec está centrada no lançamento de "desktops em nuvem" isolados e sob demanda para agentes de IA. Em seu núcleo está um serviço de orquestração baseado em Kubernetes (codinome Captain) que provisiona máquinas virtuais (VMs) leves dentro de pods do Kubernetes. Cada agente obtém seu próprio ambiente isolado no nível do sistema operacional (uma instância completa do sistema operacional Linux) onde pode executar aplicativos, navegadores ou qualquer código, completamente em área restrita de outros agentes e do host. O Kubernetes lida com agendamento, dimensionamento automático e autorrecuperação desses pods de agente, garantindo confiabilidade e a capacidade de girar para cima/para baixo muitas instâncias do agente conforme as demandas de carga Os Ambientes de Execução Confiáveis (TEEs) são usados para proteger essas VMs, o que significa que a máquina do agente pode ser isolada criptograficamente, sua memória e execução podem ser protegidas do sistema operacional host ou do provedor de nuvem. Isso é crucial para tarefas confidenciais: por exemplo, uma VM em execução em um enclave pode conter chaves de API ou segredos de carteira de criptografia com segurança. Quando um agente de IA (um "cérebro" baseado em LLM) precisa executar ações, ele envia solicitações de API para o serviço Captain, que então inicia ou gerencia o pod de VM do agente. O fluxo de trabalho: o agente solicita uma máquina, o Captain (através do Kubernetes) aloca um pod e anexa um volume persistente (para o disco da VM). O agente pode então se conectar à sua VM (por meio de um canal seguro ou interface de streaming) para emitir comandos. O Captain expõe pontos de extremidade para que o agente execute comandos shell, carregue/baixe arquivos, recupere logs e até crie instantâneos da VM para restauração posterior. Esse design dá ao agente um sistema operacional completo para trabalhar, mas com acesso controlado e auditado. Como é construído no Kubernetes, o Codec pode dimensionar automaticamente horizontalmente, se 100 agentes precisarem de ambientes, ele pode agendar 100 pods em todo o cluster e lidar com falhas reiniciando pods. A VM do agente pode ser equipada com vários servidores MCP (como uma "porta USB" para IA). Por exemplo, o módulo Conductor do Codec é um contêiner que executa um navegador Chrome junto com um servidor Microsoft Playwright MCP para controle do navegador. Isso permite que um agente de IA abra páginas da web, clique em links, preencha formulários e raspe conteúdo por meio de chamadas MCP padrão, como se fosse um humano controlando o navegador. Outras integrações MCP podem incluir um MCP de sistema de arquivos/terminal (para permitir que um agente execute comandos da CLI com segurança) ou MCPs específicos do aplicativo (para APIs de nuvem, bancos de dados, etc.). Essencialmente, o Codec fornece os "wrappers" de infraestrutura (VMs, enclaves, rede) para que os planos de agentes de alto nível possam ser executados com segurança em software e redes reais. Casos de uso Automação da carteira: O Codec pode incorporar carteiras ou chaves dentro de uma VM protegida por TEE, permitindo que um agente de IA interaja com redes blockchain (negocie em DeFi, gerencie criptoativos) sem expor chaves secretas. Essa arquitetura permite que agentes financeiros onchain executem transações reais com segurança, algo que seria muito perigoso em uma configuração típica de agente. O slogan da plataforma lista explicitamente o suporte para "carteiras" como um recurso chave. Um agente pode, por exemplo, executar uma CLI para uma carteira Ethereum dentro de seu enclave, assinar transações e enviá-las, com a garantia de que, se o agente se comportar mal, ficará confinado à sua VM e as chaves nunca sairão da TEE. Browser e Automação Web: Os agentes CodecFlow podem controlar navegadores da Web completos em suas VMs. O exemplo do Conductor demonstra um agente iniciando o Chrome e transmitindo sua tela para o Twitch em tempo real. Através do Playwright MCP, o agente pode navegar em sites, clicar em botões e extrair dados como um usuário humano. Isso é ideal para tarefas como raspagem da web atrás de logins, transações da web automatizadas ou teste de aplicativos da web. As estruturas tradicionais geralmente dependem de chamadas de API ou scripts de navegador simples sem cabeça; em contraste, o CodecFlow pode executar um navegador real com uma interface do usuário visível, tornando mais fácil lidar com aplicativos Web complexos (por exemplo, com desafios pesados de JavaScript ou CAPTCHA) sob controle de IA. Automação de GUI do mundo real (sistemas legados): Como cada agente tem um sistema operacional de desktop real, ele pode automatizar aplicativos GUI herdados ou sessões de área de trabalho remota, funcionando essencialmente como automação de processos robóticos (RPA), mas impulsionada por IA. Por exemplo, um agente pode abrir uma planilha do Excel em sua VM do Windows ou fazer interface com um aplicativo de terminal antigo que não tenha API. O site da Codec menciona explicitamente a habilitação da "automação legada". Isso abre o uso de IA para operar software que não é acessível por meio de APIs modernas, uma tarefa que seria muito hackeada ou insegura sem um ambiente contido. A integração noVNC incluída sugere que os agentes podem ser observados ou controlados via VNC, o que é útil para monitorar uma IA dirigindo uma GUI. Simulando fluxos de trabalho SaaS: As empresas geralmente têm processos complexos que envolvem vários aplicativos SaaS ou sistemas legados. por exemplo, um funcionário pode pegar dados do Salesforce, combiná-los com dados de um ERP interno e, em seguida, enviar um resumo por e-mail para um cliente. O Codec pode permitir que um agente de IA execute toda essa sequência, realmente fazendo login nesses aplicativos por meio de um navegador ou software cliente em sua VM, como um ser humano faria. Isso é como RPA, mas alimentado por um LLM que pode tomar decisões e lidar com a variabilidade. É importante ressaltar que as credenciais para esses aplicativos podem ser fornecidas à VM com segurança (e até mesmo incluídas em um TEE), para que o agente possa usá-las sem nunca "ver" credenciais de texto sem formatação ou expô-las externamente. Isso poderia acelerar a automação de tarefas rotineiras de back office e, ao mesmo tempo, satisfazer a TI que cada agente executa com o mínimo de privilégios e total auditabilidade (já que cada ação na VM pode ser registrada ou registrada). Roteiro - Lançamento de demonstração pública no final do mês - Comparação de recursos com outras plataformas similares (sem concorrente web3) - Integração do GAT - Grande Parceria de Jogos Em termos de originalidade, o Codec é construído sobre uma base de tecnologias existentes, mas as integra de uma maneira inovadora para o uso de agentes de IA. A ideia de ambientes de execução isolados não é nova (contêineres, VMs e TEEs são padrão na computação em nuvem), mas aplicá-los a agentes autônomos de IA com uma camada de API contínua (MCP) é extremamente novo. A plataforma aproveita padrões e ferramentas abertas sempre que possível: usa servidores MCP como o Playwright da Microsoft para controle de navegadores, em vez de reinventar essa roda, e planeja oferecer suporte às micro-VMs Firecracker da AWS para uma virtualização mais rápida. Ele também bifurcou soluções existentes, como noVNC para streaming de desktops. Demonstrar o projeto está se apoiando nas bases de tecnologia comprovada (Kubernetes, hardware de enclave, bibliotecas de código aberto), focando seu desenvolvimento original na lógica de cola e orquestração (o "molho secreto" é como tudo funciona em conjunto). A combinação de componentes de código aberto e um futuro serviço de nuvem (sugerido pela menção de um utilitário de token $CODEC e acesso público ao produto) significa que o Codec em breve estará acessível em várias formas (tanto como um serviço quanto como auto-hospedado). Equipa Moyai: 15+ anos de experiência em desenvolvimento, atualmente liderando o desenvolvimento de IA na Elixir Games. lil'km: 5+ anos desenvolvedor de IA, atualmente trabalhando com HuggingFace no projeto LeRobot. A HuggingFace é uma grande empresa de robótica e Moyai trabalha como chefe de inteligência artificial na elixir games (apoiada pela Square Enix e Solanafdn. Eu pessoalmente liguei para toda a equipe e realmente gostei da energia que eles trazem. Meu amigo que os colocou no meu radar também conheceu todos eles no Token2049 e só tinha coisas boas a dizer. Considerações Finais Ainda há muito para cobrir, que guardarei para futuras atualizações e postagens no meu canal do Telegram. Há muito tempo acredito que a infraestrutura de nuvem é o futuro para os agentes da operadora. Eu sempre respeitei o que Nuit está construindo, mas Codec é o primeiro projeto que me mostrou a convicção full-stack que eu estava procurando. A equipa é claramente composta por engenheiros de topo. Eles disseram abertamente que o marketing não é sua força, e é provavelmente por isso que isso voou sob o radar. Trabalharei em estreita colaboração com eles para ajudar a moldar a estratégia GTM que realmente reflita a profundidade do que eles estão construindo. Com um valor de mercado de US$ 4 mil e esse nível de infraestrutura, parece extremamente subfaturado. Se eles puderem entregar um produto utilizável, acho que isso poderia facilmente marcar o início do próximo ciclo de infra de IA. Como sempre, há risco e, embora eu tenha examinado a equipe furtivamente nas últimas semanas, nenhum projeto é completamente à prova de tapete. Preços-alvo? Muito maior.

Resumo sobre porque escolhi Codec > Nuit para Operadores: O Codec utiliza uma arquitetura de três camadas (Máquina, Sistema, Inteligência) que permite agentes isolados e de alto desempenho com controle nativo. Cada agente Codec opera localmente usando um ciclo de Visão-Linguagem-Ação (VLA), reduzindo a latência e aumentando a fiabilidade. O modelo do Nuit depende da análise do navegador + chamadas de IA na nuvem, o que limita a flexibilidade e introduz fragilidade. O Codec escala horizontalmente através de milhares de agentes, sem estado compartilhado e com modularidade tolerante a falhas.

11,11 mil

O conteúdo apresentado nesta página é fornecido por terceiros. Salvo indicação em contrário, a OKX não é o autor dos artigos citados e não reivindica quaisquer direitos de autor nos materiais. O conteúdo é fornecido apenas para fins informativos e não representa a opinião da OKX. Não se destina a ser um endosso de qualquer tipo e não deve ser considerado conselho de investimento ou uma solicitação para comprar ou vender ativos digitais. Na medida em que a IA generativa é utilizada para fornecer resumos ou outras informações, esse mesmo conteúdo gerado por IA pode ser impreciso ou inconsistente. Leia o artigo associado para obter mais detalhes e informações. A OKX não é responsável pelo conteúdo apresentado nos sites de terceiros. As detenções de ativos digitais, incluindo criptomoedas estáveis e NFTs, envolvem um nível de risco elevado e podem sofrer grandes flutuações. Deve considerar cuidadosamente se o trading ou a detenção de ativos digitais é adequado para si à luz da sua condição financeira.