1/ 🧵Tiefer eintauchen in unsere neue Arbeit zu zkGPT: Schnelle Nachweisführung von LLM-Inferenz mit Zero-Knowledge-Proofs. Warum? Dienstanbieter könnten ein kleineres/günstigeres Modell als versprochen bereitstellen. ZK ermöglicht es ihnen, die Richtigkeit zu beweisen, ohne die Modellparameter offenzulegen. 📄
2/ Das Problem: - LLMs = mächtig, aber kostspielig. - Anbieter könnten betrügen, indem sie kleinere Modelle verwenden. - Benutzer können nicht überprüfen, welches Modell verwendet wurde. ZK-Beweise lösen dies, aber aktuelle zkML-Systeme kommen bei echten LLMs nicht klar: - Keine Unterstützung für Transformer-Architekturen. - Riesige Beweiszeiten (Minuten→Stunden).
3/ Frühere Arbeiten: - ZKML (Eurosys’24): Allgemeines ML-Verifizierungsframework. Gut für kleine Modelle, aber zu langsam für LLMs. - Hao et al. (USENIX Security’24): Früher zkLLM-Versuch, immer noch ziemlich langsam (Tausende von Sekunden). - Beide leiden unter massivem Overhead nichtlinearer Schichten + schlechter Parallelisierung.
4/ Unsere Beiträge: 1. Effiziente Beweise für lineare und nichtlineare Schichten, die auf LLMs (z. B. GPT-2) zugeschnitten sind. 2. Einschränkungsfusion → reduziert den Overhead in nichtlinearen Schichten (wie GeLU). 3. Schaltkreisquetschen → erhöht die Parallelität bei der Beweisgenerierung. 4. Vollständige Implementierung, die für Transformatorblöcke optimiert ist.
5/ Ergebnisse: - Beweist die GPT-2-Inferenz in <25 Sekunden. - 279× schneller als Hao et al. (USENIX'24). - 185× schneller als ZKML (Eurosys'24). - Größenordnungen weniger Overhead als naive zk-transformer Implementierungen.
6/ Warum es wichtig ist: - Ermöglicht die praktische Bereitstellung von zkLLM – Sie können jetzt die Ausgabe eines LLM in Sekunden überprüfen. - Hält die Modellgewichte geheim. - Öffnet Türen für datenschutzfreundliche KI-Dienste mit kryptografischer Prüfbarkeit.
7/ Wichtige Erkenntnis: Kompiliere ein LLM nicht einfach naiv in einen Schaltkreis. Struktur ausnutzen: - Lineare Operationen (MatMul, LayerNorm) → benutzerdefinierte effiziente Einschränkungen. - Nichtlineare Operationen (GELU) → fusionierte Einschränkungen zur Reduzierung der Komplexität. - Parallelfreundliches Layout, um moderne Prover-Hardware maximal auszunutzen.
Original anzeigen
25.009
554
Der Inhalt dieser Seite wird von Drittparteien bereitgestellt. Sofern nicht anders angegeben, ist OKX nicht der Autor der zitierten Artikel und erhebt keinen Anspruch auf das Urheberrecht an den Materialien. Die Inhalte dienen ausschließlich zu Informationszwecken und spiegeln nicht die Ansichten von OKX wider. Sie stellen keine Form der Empfehlung dar und sind weder als Anlageberatung noch als Aufforderung zum Kauf oder Verkauf digitaler Assets zu verstehen. Soweit generative KI zur Bereitstellung von Zusammenfassungen oder anderen Informationen eingesetzt wird, kann der dadurch erzeugte Inhalt ungenau oder widersprüchlich sein. Mehr Infos findest du im verlinkten Artikel. OKX haftet nicht für Inhalte, die auf Drittpartei-Websites gehostet werden. Digitale Assets, einschließlich Stablecoins und NFT, bergen ein hohes Risiko und können stark schwanken. Du solltest sorgfältig überlegen, ob der Handel mit oder das Halten von digitalen Assets angesichts deiner finanziellen Situation für dich geeignet ist.