OpenAI ha appena confermato ... | Trissy OKX Feed

OpenAI ha appena confermato la mia tesi della stella polare per l'IA oggi rilasciando il loro agente operatore. Non solo questa è stata la mia tesi guida per $CODEC, ma anche per ogni altro investimento in IA che ho fatto, inclusi quelli all'inizio dell'anno durante la mania dell'IA. C'è stata molta discussione con Codec riguardo alla Robotica; mentre quel settore avrà presto la sua narrativa, il motivo sottostante per cui sono stato così ottimista su Codec fin dal primo giorno è dovuto a come la sua architettura alimenta gli agenti operatori. Le persone sottovalutano ancora quanto mercato sia in gioco costruendo software che funziona autonomamente, superando i lavoratori umani senza la necessità di costanti sollecitazioni o supervisione. Ho visto molte comparazioni con $NUIT. Prima di tutto voglio dire che sono un grande fan di ciò che Nuit sta costruendo e non desidero altro che il loro successo. Se digiti "nuit" nel mio telegram, vedrai che già ad aprile ho detto che se avessi dovuto tenere una moneta per diversi mesi sarebbe stata Nuit a causa della mia tesi sugli operatori. Nuit era il progetto operatore più promettente sulla carta, ma dopo un'ampia ricerca, ho scoperto che la loro architettura mancava della profondità necessaria per giustificare un investimento significativo o per mettere la mia reputazione dietro di essa. Tenendo presente questo, ero già consapevole delle lacune architettoniche nei team di agenti operativi esistenti e stavo attivamente cercando un progetto che le affrontasse. Poco dopo è apparso Codec (grazie a @0xdetweiler che ha insistito affinché guardassi più a fondo in loro) e questa è la differenza tra i due: $CODEC vs $NUIT L'architettura di Codec è costruita su tre livelli; Macchina, Sistema e Intelligenza, che separano infrastruttura, interfaccia ambientale e logica IA. Ogni agente operatore in Codec funziona nel proprio VM o contenitore isolato, consentendo prestazioni quasi native e isolamento dei guasti. Questo design a strati significa che i componenti possono scalare o evolversi indipendentemente senza rompere il sistema. L'architettura di Nuit segue un percorso diverso essendo più monolitica. Il loro stack ruota attorno a un agente browser web specializzato che combina parsing, ragionamento IA e azione. Ciò significa che analizzano profondamente le pagine web in dati strutturati per l'IA da consumare e si basa sull'elaborazione cloud per compiti pesanti di IA. L'approccio di Codec di incorporare un modello Vision-Language-Action (VLA) leggero all'interno di ogni agente significa che può funzionare completamente in locale. Questo non richiede costanti richieste al cloud per istruzioni, eliminando la latenza e evitando la dipendenza da uptime e larghezza di banda. L'agente di Nuit elabora i compiti convertendo prima le pagine web in un formato semantico e poi utilizzando un cervello LLM per capire cosa fare, che migliora nel tempo con l'apprendimento per rinforzo. Sebbene sia efficace per l'automazione web, questo flusso dipende da un'elaborazione pesante dell'IA sul lato cloud e da strutture di pagina predefinite. L'intelligenza locale del dispositivo di Codec significa che le decisioni avvengono più vicino ai dati, riducendo i costi e rendendo il sistema più stabile ai cambiamenti imprevisti (niente script fragili o assunzioni DOM). Gli operatori di Codec seguono un ciclo continuo di percepire-pensare-agire. Il livello macchina trasmette l'ambiente (ad es. un'app live o un feed robotico) al livello intelligenza tramite i canali ottimizzati del livello sistema, dando all'IA "occhi" sullo stato attuale. Il modello VLA dell'agente interpreta quindi insieme le immagini e le istruzioni per decidere un'azione, che il livello Sistema esegue tramite eventi di tastiera/mouse o controllo robotico. Questo ciclo integrato significa che si adatta agli eventi dal vivo, anche se l'interfaccia utente cambia, non interromperai il flusso. Per mettere tutto questo in un'analogia più semplice, pensa agli operatori di Codec come a un dipendente autosufficiente che si adatta alle sorprese sul lavoro. L'agente di Nuit è come un dipendente che deve fermarsi, descrivere la situazione a un supervisore al telefono e aspettare istruzioni. Senza scendere troppo in un buco tecnico, questo dovrebbe darti un'idea ad alto livello sul perché ho scelto Codec come la mia scommessa principale sugli operatori. Sì, Nuit ha il supporto di YC, un team eccezionale e un github di livello S. Anche se l'architettura di Codec è stata costruita tenendo presente la scalabilità orizzontale, il che significa che puoi distribuire migliaia di agenti in parallelo senza memoria condivisa o contesto di esecuzione tra gli agenti. Il team di Codec non è nemmeno composto da sviluppatori medi. La loro architettura VLA apre una moltitudine di casi d'uso che non erano possibili con i modelli di agenti precedenti a causa della visione attraverso i pixel, non degli screenshot. Potrei continuare, ma lo riserverò per post futuri.

Ambienti virtuali per agenti operatore: $CODEC La mia tesi centrale sull'esplosione dell'IA è sempre stata incentrata sull'ascesa degli agenti operatori. Ma per avere successo, questi agenti richiedono un accesso approfondito al sistema, che garantisca loro il controllo sul personal computer e sui dati sensibili, il che introduce seri problemi di sicurezza. Abbiamo già visto come aziende come OpenAI e altri giganti della tecnologia gestiscono i dati degli utenti. Mentre alla maggior parte delle persone non importa, gli individui che trarranno i maggiori benefici dagli agenti operatori, l'1% più ricco, lo fanno assolutamente. Personalmente, non c'è alcuna possibilità di dare a un'azienda come OpenAI l'accesso completo alla mia macchina, anche se ciò significa un aumento della produttività del 10×. Allora perché Codec? L'architettura di Codec è incentrata sul lancio di "desktop cloud" isolati e on-demand per gli agenti di intelligenza artificiale. Al centro c'è un servizio di orchestrazione basato su Kubernetes (nome in codice Captain) che esegue il provisioning di macchine virtuali leggere (VM) all'interno di pod Kubernetes. Ogni agente ottiene il proprio ambiente isolato a livello di sistema operativo (un'istanza completa del sistema operativo Linux) in cui può eseguire applicazioni, browser o qualsiasi codice, completamente in modalità sandbox da altri agenti e dall'host. Kubernetes gestisce la pianificazione, il ridimensionamento automatico e la riparazione automatica di questi pod di agenti, garantendo l'affidabilità e la capacità di attivare/disattivare molte istanze di agenti in base alle esigenze di carico Gli ambienti di esecuzione attendibili (TEE) vengono utilizzati per proteggere queste macchine virtuali, il che significa che il computer dell'agente può essere isolato crittograficamente, la memoria e l'esecuzione possono essere protette dal sistema operativo host o dal provider cloud. Questo è fondamentale per le attività sensibili: ad esempio, una VM in esecuzione in un'enclave potrebbe contenere le chiavi API o i segreti del portafoglio crittografico in modo sicuro. Quando un agente di intelligenza artificiale (un "cervello" basato su LLM) deve eseguire azioni, invia richieste API al servizio Captain, che quindi avvia o gestisce il pod VM dell'agente. Il flusso di lavoro: l'agente richiede una macchina, Captain (tramite Kubernetes) alloca un pod e collega un volume persistente (per il disco della VM). L'agente può quindi connettersi alla propria VM (tramite un canale sicuro o un'interfaccia di streaming) per emettere comandi. Captain espone gli endpoint per consentire all'agente di eseguire comandi della shell, caricare/scaricare file, recuperare registri e persino creare snapshot della VM per un successivo ripristino. Questa progettazione offre all'agente un sistema operativo completo in cui lavorare, ma con accesso controllato e verificato. Poiché è basato su Kubernetes, Codec può ridimensionare automaticamente orizzontalmente, se 100 agenti necessitano di ambienti, può pianificare 100 pod nel cluster e gestire gli errori riavviando i pod. La VM dell'agente può essere dotata di vari server MCP (come una "porta USB" per l'intelligenza artificiale). Ad esempio, il modulo Conductor di Codec è un contenitore che esegue un browser Chrome insieme a un server MCP di Microsoft Playwright per il controllo del browser. Ciò consente a un agente di intelligenza artificiale di aprire pagine Web, fare clic su collegamenti, compilare moduli e raschiare i contenuti tramite chiamate MCP standard, come se fosse un essere umano a controllare il browser. Altre integrazioni MCP potrebbero includere un MCP di filesystem/terminale (per consentire a un agente di eseguire i comandi CLI in modo sicuro) o MCP specifici per l'applicazione (per API cloud, database, ecc.). Essenzialmente, Codec fornisce i "wrapper" dell'infrastruttura (VM, enclavi, networking) in modo che i piani di agenti di alto livello possano essere eseguiti in sicurezza su software e reti reali. Casi d'uso Automazione del portafoglio: Il codec può incorporare portafogli o chiavi all'interno di una VM protetta da TEE, consentendo a un agente AI di interagire con le reti blockchain (fare trading su DeFi, gestire asset crittografici) senza esporre chiavi segrete. Questa architettura consente agli agenti finanziari onchain di eseguire transazioni reali in modo sicuro, cosa che sarebbe molto pericolosa in una tipica configurazione di agente. Lo slogan della piattaforma elenca esplicitamente il supporto per i "portafogli" come funzionalità chiave. Un agente potrebbe, ad esempio, eseguire una CLI per un portafoglio Ethereum all'interno della sua enclave, firmare transazioni e inviarle, con la certezza che se l'agente si comporta male, è confinato nella sua VM e le chiavi non lasciano mai il TEE. Automazione del browser e del web: Gli agenti CodecFlow possono controllare i Web browser completi nella macchina virtuale. L'esempio di Conductor mostra un agente che avvia Chrome e trasmette lo schermo a Twitch in tempo reale. Attraverso l'MCP di Playwright, l'agente può navigare nei siti Web, fare clic sui pulsanti e raschiare i dati proprio come un utente umano. Questo è l'ideale per attività come il web scraping dietro gli accessi, le transazioni web automatizzate o il test di app web. I framework tradizionali di solito si basano su chiamate API o semplici script di browser headless; al contrario, CodecFlow può eseguire un browser reale con un'interfaccia utente visibile, semplificando la gestione di applicazioni Web complesse (ad esempio con pesanti sfide JavaScript o CAPTCHA) sotto il controllo dell'intelligenza artificiale. Automazione GUI nel mondo reale (sistemi legacy): Poiché ogni agente dispone di un vero e proprio sistema operativo desktop, può automatizzare le applicazioni GUI legacy o le sessioni di desktop remoto, funzionando essenzialmente come l'automazione robotica dei processi (RPA) ma guidata dall'intelligenza artificiale. Ad esempio, un agente potrebbe aprire un foglio di calcolo Excel nella sua macchina virtuale Windows o interfacciarsi con una vecchia applicazione terminale che non dispone di API. Il sito di Codec menziona esplicitamente l'abilitazione dell'"automazione legacy". Questo apre la strada all'utilizzo dell'intelligenza artificiale per gestire software che non sono accessibili tramite le moderne API, un'attività che sarebbe molto complicata o pericolosa senza un ambiente contenuto. L'integrazione noVNC inclusa suggerisce che gli agenti possono essere osservati o controllati tramite VNC, il che è utile per monitorare un'intelligenza artificiale che guida una GUI. Simulazione dei flussi di lavoro SaaS: Le aziende hanno spesso processi complessi che coinvolgono più applicazioni SaaS o sistemi legacy. ad esempio, un dipendente potrebbe prendere i dati da Salesforce, combinarli con i dati di un ERP interno, quindi inviare via e-mail un riepilogo a un cliente. Il codec può consentire a un agente di intelligenza artificiale di eseguire l'intera sequenza accedendo effettivamente a queste app tramite un browser o un software client nella sua VM, proprio come farebbe un essere umano. Questo è come l'RPA, ma alimentato da un LLM in grado di prendere decisioni e gestire la variabilità. È importante sottolineare che le credenziali di queste app possono essere fornite alla macchina virtuale in modo sicuro (e persino racchiuse in un TEE), in modo che l'agente possa usarle senza mai "vedere" le credenziali in chiaro o esporle esternamente. Ciò potrebbe accelerare l'automazione delle attività di back office di routine, soddisfacendo al contempo l'IT che ogni agente viene eseguito con privilegi minimi e piena verificabilità (poiché ogni azione nella VM può essere registrata o registrata). Cartina stradale - Lancio della demo pubblica alla fine del mese - Confronto delle funzionalità con altre piattaforme simili (nessun concorrente web3) - Integrazione TAO - Ampia partnership di gioco In termini di originalità, Codec si basa su una base di tecnologie esistenti, ma le integra in un modo nuovo per l'utilizzo degli agenti di intelligenza artificiale. L'idea di ambienti di esecuzione isolati non è nuova (container, VM e TEE sono standard nel cloud computing), ma applicarli ad agenti di intelligenza artificiale autonomi con un livello API (MCP) senza soluzione di continuità è estremamente nuovo. La piattaforma sfrutta standard e strumenti aperti ove possibile: utilizza server MCP come Playwright di Microsoft per il controllo del browser invece di reinventare quella ruota e prevede di supportare le micro-VM Firecracker di AWS per una virtualizzazione più rapida. Ha anche biforcato soluzioni esistenti come noVNC per lo streaming di desktop. Dimostrare il progetto si basa su una tecnologia collaudata (Kubernetes, hardware enclave, librerie open source), concentrando il suo sviluppo originale sulla logica di colla e sull'orchestrazione (la "salsa segreta" è il modo in cui tutto funziona insieme). La combinazione di componenti open source e di un servizio cloud in arrivo (suggerito dalla menzione di un'utilità di token $CODEC e dell'accesso pubblico al prodotto) significa che Codec sarà presto accessibile in più forme (sia come servizio che self-hosted). Squadra Moyai: 15+ anni di esperienza come sviluppatore, attualmente alla guida dello sviluppo dell'intelligenza artificiale presso Elixir Games. lil'km: 5+ anni di sviluppo AI, attualmente lavora con HuggingFace al progetto LeRobot. HuggingFace è un'enorme azienda di robotica e Moyai lavora come responsabile dell'intelligenza artificiale presso Elixir Games (sostenuta da Square Enix e Solanafdn. Ho videochiamato personalmente l'intero team e mi piace molto l'energia che portano. Anche il mio amico che li ha messi sul mio radar li ha incontrati tutti a Token2049 e aveva solo cose positive da dire. Considerazioni finali C'è ancora molto da coprire, che conserverò per futuri aggiornamenti e post nel mio canale Telegram. Da tempo credo che l'infrastruttura cloud sia il futuro per gli agenti degli operatori. Ho sempre rispettato ciò che Nuit sta costruendo, ma Codec è il primo progetto che mi ha mostrato la convinzione full-stack che stavo cercando. Il team è chiaramente composto da ingegneri di alto livello. Hanno detto apertamente che il marketing non è il loro forte, motivo per cui probabilmente questo è passato inosservato. Lavorerò a stretto contatto con loro per contribuire a plasmare la strategia GTM che rifletta effettivamente la profondità di ciò che stanno costruendo. Con una capitalizzazione di mercato di 4 milioni di dollari e questo livello di infrastrutture, sembra enormemente sottovalutato. Se riusciranno a fornire un prodotto utilizzabile, penso che potrebbe facilmente segnare l'inizio del prossimo ciclo di infrastrutture AI. Come sempre, c'è un rischio e anche se ho controllato il team di nascosto nelle ultime settimane, nessun progetto è mai completamente a prova di tappeto. Obiettivi di prezzo? Molto più in alto.

Sintesi su perché ho scelto Codec > Nuit per gli Operatori: Codec utilizza un'architettura a tre livelli (Macchina, Sistema, Intelligenza) che consente agenti isolati e ad alte prestazioni con controllo nativo. Ogni agente Codec opera localmente utilizzando un ciclo Vision-Language-Action (VLA), riducendo la latenza e aumentando l'affidabilità. Il modello di Nuit dipende dal parsing del browser + chiamate AI nel cloud, il che limita la flessibilità e introduce fragilità. Codec si scala orizzontalmente su migliaia di agenti, senza stato condiviso e modularità tollerante ai guasti.

11.097

Il contenuto di questa pagina è fornito da terze parti. Salvo diversa indicazione, OKX non è l'autore degli articoli citati e non rivendica alcun copyright sui materiali. Il contenuto è fornito solo a scopo informativo e non rappresenta le opinioni di OKX. Non intende essere un'approvazione di alcun tipo e non deve essere considerato un consiglio di investimento o una sollecitazione all'acquisto o alla vendita di asset digitali. Nella misura in cui l'IA generativa viene utilizzata per fornire riepiloghi o altre informazioni, tale contenuto generato dall'IA potrebbe essere impreciso o incoerente. Leggi l'articolo collegato per ulteriori dettagli e informazioni. OKX non è responsabile per i contenuti ospitati su siti di terze parti. Gli holding di asset digitali, tra cui stablecoin e NFT, comportano un elevato grado di rischio e possono fluttuare notevolmente. Dovresti valutare attentamente se effettuare il trading o detenere asset digitali è adatto a te alla luce della tua situazione finanziaria.