A OpenAI acaba de confirmar ... | Trissy OKX Feed

A OpenAI acaba de confirmar minha tese da estrela do norte para IA hoje, liberando seu agente operador. Essa não foi apenas minha tese orientadora para $CODEC, mas todos os outros investimentos em IA que fiz, incluindo aqueles do início do ano durante a mania de IA. Tem havido muita discussão com o Codec em relação à robótica, embora essa vertical tenha sua própria narrativa muito em breve, a razão subjacente pela qual eu estava tão otimista com o Codec desde o dia 1 é devido à forma como sua arquitetura alimenta os agentes operadores. As pessoas ainda subestimam quanta participação de mercado está em jogo ao criar software que seja executado de forma autônoma, superando os trabalhadores humanos sem a necessidade de avisos ou supervisão constantes. Eu vi muitas comparações com $NUIT. Em primeiro lugar, quero dizer que sou um grande fã do que a Nuit está construindo e não desejo nada além de seu sucesso. Se você digitar "nuit" no meu telegrama, verá que em abril eu disse que se tivesse que segurar uma moeda por vários meses, teria sido Nuit devido à minha tese de operador. Nuit era o projeto de operador mais promissor no papel, mas após uma extensa pesquisa, descobri que sua arquitetura não tinha a profundidade necessária para justificar um grande investimento ou colocar minha reputação por trás dele. Com isso em mente, eu já estava ciente das lacunas arquitetônicas nas equipes de agentes operadores existentes e procurando ativamente por um projeto que as abordasse. Pouco depois que o Codec apareceu (graças a @0xdetweiler insistindo que eu olhasse mais fundo neles) e esta é a diferença entre os dois: $CODEC vs $NUIT A arquitetura do Codec é construída em três camadas; Máquina, Sistema e Inteligência, que separam infraestrutura, interface de ambiente e lógica de IA. Cada agente operador no Codec é executado em sua própria VM ou contêiner isolado, permitindo desempenho quase nativo e isolamento de falhas. Esse design em camadas significa que os componentes podem ser dimensionados ou evoluir de forma independente sem quebrar o sistema. A arquitetura de Nuit segue um caminho diferente por ser mais monolítica. Sua pilha gira em torno de um agente de navegador da Web especializado que combina análise, raciocínio de IA e ação. O que significa que eles analisam profundamente as páginas da web em dados estruturados para a IA consumir e dependem do processamento em nuvem para tarefas pesadas de IA. A abordagem do Codec de incorporar um modelo leve de Visão-Linguagem-Ação (VLA) em cada agente significa que ele pode ser executado totalmente localmente. O que não requer ping constante de volta à nuvem para obter instruções, eliminando a latência e evitando a dependência de tempo de atividade e largura de banda. O agente da Nuit processa tarefas primeiro convertendo páginas da web em um formato semântico e, em seguida, usando um cérebro LLM para descobrir o que fazer, o que melhora com o tempo com o aprendizado por reforço. Embora eficaz para automação da Web, esse fluxo depende do processamento pesado de IA do lado da nuvem e de estruturas de página predefinidas. A inteligência do dispositivo local do Codec significa que as decisões acontecem mais perto dos dados, reduzindo a sobrecarga e tornando o sistema mais estável a mudanças inesperadas (sem scripts frágeis ou suposições DOM). Os operadores do codec seguem um loop contínuo de perceber-pensar-agir. A camada de máquina transmite o ambiente (por exemplo, um aplicativo ao vivo ou feed de robô) para a camada de inteligência por meio dos canais otimizados da camada do sistema, dando à IA "olhos" sobre o estado atual. O modelo VLA do agente interpreta os visuais e as instruções juntos para decidir sobre uma ação, que a camada do sistema executa por meio de eventos de teclado/mouse ou controle de robô. Esse loop integrado significa que ele se adapta a eventos ao vivo, mesmo que a interface do usuário mude, você não interromperá o fluxo. Para colocar tudo isso em uma analogia mais simples, pense nos operadores da Codec como um funcionário autossuficiente que se adapta às surpresas no trabalho. O agente de Nuit é como um funcionário que precisa fazer uma pausa, descrever a situação para um supervisor por telefone e aguardar instruções. Sem entrar muito em uma toca de coelho técnica, isso deve lhe dar uma ideia de alto nível sobre por que escolhi o Codec como minha principal aposta em Operadores. Sim, Nuit tem o apoio da YC, uma equipe empilhada e do github de nível S. Embora a arquitetura do Codec tenha sido construída com o dimensionamento horizontal em mente, o que significa que você pode implantar milhares de agentes em paralelo com zero memória compartilhada ou contexto de execução entre os agentes. A equipe do Codec também não é um desenvolvedor comum. Sua arquitetura VLA abre uma infinidade de casos de uso que não eram possíveis com os modelos de agentes anteriores devido à visualização através de pixels, não de capturas de tela. Eu poderia continuar, mas vou guardar isso para posts futuros.

Ambientes virtuais para agentes operadores: $CODEC Minha tese central em torno da explosão da IA sempre se concentrou no surgimento de agentes operadores. Mas para que esses agentes sejam bem-sucedidos, eles exigem acesso profundo ao sistema, concedendo-lhes efetivamente controle sobre seu computador pessoal e dados confidenciais, o que apresenta sérias preocupações de segurança. Já vimos como empresas como a OpenAI e outros gigantes da tecnologia lidam com os dados do usuário. Embora a maioria das pessoas não se importe, os indivíduos que mais se beneficiam dos agentes operadores, o 1% superior, absolutamente se importam. Pessoalmente, não há chance de eu estar dando a uma empresa como a OpenAI acesso total à minha máquina, mesmo que isso signifique um aumento de 10× na produtividade. Então, por que Codec? A arquitetura da Codec está centrada no lançamento de "desktops em nuvem" isolados e sob demanda para agentes de IA. Em seu núcleo está um serviço de orquestração baseado em Kubernetes (codinome Captain) que provisiona máquinas virtuais (VMs) leves dentro de pods do Kubernetes. Cada agente obtém seu próprio ambiente isolado no nível do sistema operacional (uma instância completa do sistema operacional Linux) onde pode executar aplicativos, navegadores ou qualquer código, completamente em sandbox de outros agentes e do host. O Kubernetes lida com o agendamento, o dimensionamento automático e a autocorreção desses pods de agentes, garantindo a confiabilidade e a capacidade de ativar/desativar muitas instâncias de agentes conforme as demandas de carga Ambientes de execução confiáveis (TEEs) são usados para proteger essas VMs, o que significa que a máquina do agente pode ser isolada criptograficamente, sua memória e execução podem ser protegidas do sistema operacional host ou do provedor de nuvem. Isso é crucial para tarefas confidenciais: por exemplo, uma VM em execução em um enclave pode conter chaves de API ou segredos de carteira de criptomoedas com segurança. Quando um agente de IA (um "cérebro" baseado em LLM) precisa executar ações, ele envia solicitações de API para o serviço Captain, que inicia ou gerencia o pod de VM do agente. O fluxo de trabalho: o agente solicita uma máquina, o Captain (por meio do Kubernetes) aloca um pod e anexa um volume persistente (para o disco da VM). Em seguida, o agente pode se conectar à VM (por meio de um canal seguro ou interface de streaming) para emitir comandos. O Captain expõe endpoints para que o agente execute comandos shell, carregue/baixe arquivos, recupere logs e até mesmo crie um instantâneo da VM para restauração posterior. Esse design fornece ao agente um sistema operacional completo para trabalhar, mas com acesso controlado e auditado. Por ser criado no Kubernetes, o Codec pode ser dimensionado automaticamente horizontalmente, se 100 agentes precisarem de ambientes, ele poderá agendar 100 pods no cluster e lidar com falhas reiniciando os pods. A VM do agente pode ser equipada com vários servidores MCP (como uma "porta USB" para IA). Por exemplo, o módulo Conductor do Codec é um contêiner que executa um navegador Chrome junto com um servidor Microsoft Playwright MCP para controle do navegador. Isso permite que um agente de IA abra páginas da Web, clique em links, preencha formulários e extraia conteúdo por meio de chamadas MCP padrão, como se fosse um humano controlando o navegador. Outras integrações de MCP podem incluir um MCP de sistema de arquivos/terminal (para permitir que um agente execute comandos CLI com segurança) ou MCPs específicos do aplicativo (para APIs de nuvem, bancos de dados etc.). Essencialmente, o Codec fornece os "wrappers" de infraestrutura (VMs, enclaves, redes) para que os planos de agentes de alto nível possam ser executados com segurança em softwares e redes reais. Casos de uso Automação de carteira: O codec pode incorporar carteiras ou chaves dentro de uma VM protegida por TEE, permitindo que um agente de IA interaja com redes blockchain (negocie em DeFi, gerencie criptoativos) sem expor chaves secretas. Essa arquitetura permite que agentes financeiros onchain executem transações reais com segurança, algo que seria muito perigoso em uma configuração típica de agente. O slogan da plataforma lista explicitamente o suporte para "carteiras" como um recurso importante. Um agente poderia, por exemplo, executar uma CLI para uma carteira Ethereum dentro de seu enclave, assinar transações e enviá-las, com a garantia de que, se o agente se comportar mal, ele ficará confinado à sua VM e as chaves nunca sairão do TEE. Navegador e automação web: Os agentes do CodecFlow podem controlar navegadores da Web completos em sua VM. O exemplo do Conductor demonstra um agente iniciando o Chrome e transmitindo sua tela para o Twitch em tempo real. Por meio do Playwright MCP, o agente pode navegar em sites, clicar em botões e coletar dados como um usuário humano. Isso é ideal para tarefas como web scraping por trás de logins, transações automatizadas na web ou teste de aplicativos da web. As estruturas tradicionais geralmente dependem de chamadas de API ou scripts de navegador headless simples; por outro lado, o CodecFlow pode executar um navegador real com uma interface de usuário visível, facilitando o manuseio de aplicativos da Web complexos (por exemplo, com desafios pesados de JavaScript ou CAPTCHA) sob controle de IA. Automação de GUI do mundo real (sistemas legados): Como cada agente tem um sistema operacional de desktop real, ele pode automatizar aplicativos GUI legados ou sessões de desktop remoto, funcionando essencialmente como automação de processos robóticos (RPA), mas impulsionados por IA. Por exemplo, um agente pode abrir uma planilha do Excel em sua VM do Windows ou fazer interface com um aplicativo de terminal antigo que não tenha API. O site da Codec menciona explicitamente a ativação da "automação legada". Isso abre o uso de IA para operar software que não é acessível por meio de APIs modernas, uma tarefa que seria muito hackeada ou insegura sem um ambiente contido. A integração noVNC incluída sugere que os agentes podem ser observados ou controlados via VNC, o que é útil para monitorar uma IA que aciona uma GUI. Simulando fluxos de trabalho SaaS: As empresas geralmente têm processos complexos que envolvem vários aplicativos SaaS ou sistemas legados. por exemplo, um funcionário pode pegar dados do Salesforce, combiná-los com dados de um ERP interno e enviar um resumo por e-mail para um cliente. O codec pode permitir que um agente de IA execute toda essa sequência fazendo login nesses aplicativos por meio de um navegador ou software cliente em sua VM, da mesma forma que um humano faria. Isso é como RPA, mas alimentado por um LLM que pode tomar decisões e lidar com variabilidade. É importante ressaltar que as credenciais para esses aplicativos podem ser fornecidas à VM com segurança (e até mesmo colocadas em um TEE), para que o agente possa usá-las sem nunca "ver" credenciais de texto não criptografado ou expô-las externamente. Isso pode acelerar a automação de tarefas rotineiras de back office e, ao mesmo tempo, satisfazer a TI de que cada agente é executado com privilégios mínimos e capacidade de auditoria total (já que todas as ações na VM podem ser registradas ou registradas). Roteiro - Lançar demonstração pública no final do mês - Comparação de recursos com outras plataformas semelhantes (sem concorrente web3) - Integração TAO - Grande parceria de jogos Em termos de originalidade, o Codec é construído sobre uma base de tecnologias existentes, mas as integra de uma maneira inovadora para o uso do agente de IA. A ideia de ambientes de execução isolados não é nova (contêineres, VMs e TEEs são padrão na computação em nuvem), mas aplicá-los a agentes autônomos de IA com uma camada de API contínua (MCP) é extremamente novo. A plataforma aproveita padrões e ferramentas abertas sempre que possível: ela usa servidores MCP como o Playwright da Microsoft para controle do navegador em vez de reinventar essa roda, e planeja oferecer suporte às micro-VMs Firecracker da AWS para uma virtualização mais rápida. Ele também bifurcou soluções existentes, como noVNC, para desktops de streaming. Demonstrar que o projeto está apoiado em tecnologia comprovada (Kubernetes, hardware de enclave, bibliotecas de código aberto), concentrando seu desenvolvimento original na lógica de cola e orquestração (o "molho secreto" é como tudo funciona junto). A combinação de componentes de código aberto e um próximo serviço de nuvem (sugerido pela menção de um utilitário de token $CODEC e acesso público ao produto) significa que o Codec em breve estará acessível de várias formas (tanto como serviço quanto auto-hospedado). Equipe Moyai: 15+ anos de experiência em desenvolvimento, atualmente liderando o desenvolvimento de IA na Elixir Games. lil'km: 5+ anos de desenvolvedor de IA, atualmente trabalhando com HuggingFace no projeto LeRobot. HuggingFace é uma grande empresa de robótica e Moyai trabalha como chefe de IA na elixir games (apoiada pela Square Enix e Solanafdn. Eu pessoalmente fiz videochamadas para toda a equipe e realmente gosto da energia que eles trazem. Meu amigo que os colocou no meu radar também conheceu todos eles no Token2049 e só tinha coisas boas a dizer. Considerações Finais Ainda há muito a cobrir, que guardarei para futuras atualizações e postagens no meu canal do Telegram. Há muito tempo acredito que a infraestrutura em nuvem é o futuro dos agentes operadores. Sempre respeitei o que a Nuit está construindo, mas o Codec é o primeiro projeto que me mostrou a convicção full-stack que eu estava procurando. A equipe é claramente formada por engenheiros de primeira linha. Eles disseram abertamente que o marketing não é sua força, e é provavelmente por isso que isso passou despercebido. Estarei trabalhando em estreita colaboração com eles para ajudar a moldar a estratégia GTM que realmente reflete a profundidade do que eles estão construindo. Com um valor de mercado de US$ 4 milhões e esse nível de infraestrutura, parece extremamente subvalorizado. Se eles puderem entregar um produto utilizável, acho que isso poderia facilmente marcar o início do próximo ciclo de infraestrutura de IA. Como sempre, há risco e, embora eu tenha examinado a equipe furtivamente nas últimas semanas, nenhum projeto é completamente à prova de tapete. Metas de preço? Muito mais alto.

Tldr sobre por que escolhi Codec > Nuit para operadores: O Codec usa uma arquitetura de três camadas (Máquina, Sistema, Inteligência) permitindo agentes isolados e de alto desempenho com controle nativo. Cada agente de codec é executado localmente usando um loop de VLA (Vision-Language-Action), reduzindo a latência e aumentando a confiabilidade. O modelo da Nuit depende da análise do navegador + chamadas de IA na nuvem, o que limita a flexibilidade e introduz fragilidade. O codec é dimensionado horizontalmente em milhares de agentes, sem estado compartilhado e modularidade tolerante a falhas.

11,11 mil

O conteúdo desta página é fornecido por terceiros. A menos que especificado de outra forma, a OKX não é a autora dos artigos mencionados e não reivindica direitos autorais sobre os materiais apresentados. O conteúdo tem um propósito meramente informativo e não representa as opiniões da OKX. Ele não deve ser interpretado como um endosso ou aconselhamento de investimento de qualquer tipo, nem como uma recomendação para compra ou venda de ativos digitais. Quando a IA generativa é utilizada para criar resumos ou outras informações, o conteúdo gerado pode apresentar imprecisões ou incoerências. Leia o artigo vinculado para mais detalhes e informações. A OKX não se responsabiliza pelo conteúdo hospedado em sites de terceiros. Possuir ativos digitais, como stablecoins e NFTs, envolve um risco elevado e pode apresentar flutuações significativas. Você deve ponderar com cuidado se negociar ou manter ativos digitais é adequado para sua condição financeira.