1/
đ§”plongĂ©e plus profonde dans notre nouveau travail sur zkGPT : Prouver l'infĂ©rence LLM rapidement avec des preuves Ă divulgation nulle de connaissance.
Pourquoi ? Les fournisseurs de services pourraient déployer un modÚle plus petit/moins cher que promis. ZK leur permet de prouver la justesse sans révéler les paramÚtres du modÚle.
đ
2/
Le problĂšme :
- Les LLMs = puissants mais coûteux.
- Les fournisseurs pourraient tricher en utilisant des modĂšles plus petits.
- Les utilisateurs ne peuvent pas vérifier quel modÚle a été utilisé.
Les preuves ZK résolvent ce problÚme, mais les systÚmes zkML actuels sont à la traßne avec de vrais LLMs :
- Pas de support pour les architectures de transformateurs.
- Temps de preuve Ă©normes (minutesâheures).
3/
Travaux antérieurs :
- ZKML (Eurosysâ24) : Cadre gĂ©nĂ©ral de vĂ©rification ML. Bon pour les petits modĂšles, mais trop lent pour les LLMs.
- Hao et al. (USENIX Securityâ24) : PremiĂšre tentative de zkLLM, encore assez lente (des milliers de secondes).
- Les deux souffrent d'un énorme surcoût des couches non linéaires + mauvaise parallélisation.
4/
Nos contributions :
1. Preuves efficaces pour les couches linéaires et non linéaires adaptées aux LLMs (par exemple, GPT-2).
2. Fusion de contraintes â rĂ©duction des surcoĂ»ts dans les couches non linĂ©aires (comme GeLU).
3. Compression de circuit â amĂ©liore le parallĂ©lisme dans la gĂ©nĂ©ration de preuves.
4. Mise en Ćuvre complĂšte optimisĂ©e pour les blocs de transformateur.
5/
Résultats :
- Prouve l'inférence GPT-2 en <25 secondes.
- 279Ă plus rapide que Hao et al. (USENIX'24).
- 185Ă plus rapide que ZKML (Eurosys'24).
- Des ordres de grandeur de moins de surcharge que les implémentations naïves de zk-transformer.
6/
Pourquoi c'est important :
- Permet le dĂ©ploiement pratique de zkLLM â vous pouvez maintenant vĂ©rifier la sortie d'un LLM en quelques secondes.
- Garde les poids du modĂšle secrets.
- Ouvre la voie à des services d'IA préservant la vie privée avec une auditabilité cryptographique.
7/
Aperçu clé :
Ne vous contentez pas de compiler naĂŻvement un LLM dans un circuit.
Exploitez la structure :
- OpĂ©rations linĂ©aires (MatMul, LayerNorm) â contraintes personnalisĂ©es efficaces.
- OpĂ©rations non linĂ©aires (GELU) â contraintes fusionnĂ©es pour rĂ©duire la complexitĂ©.
- Disposition favorable au parallélisme pour maximiser le matériel moderne de preuve.
25,01Â k
554
Le contenu de cette page est fourni par des tiers. Sauf indication contraire, OKX nâest pas lâauteur du ou des articles citĂ©s et ne revendique aucun droit dâauteur sur le contenu. Le contenu est fourni Ă titre dâinformation uniquement et ne reprĂ©sente pas les opinions dâOKX. Il ne sâagit pas dâune approbation de quelque nature que ce soit et ne doit pas ĂȘtre considĂ©rĂ© comme un conseil en investissement ou une sollicitation dâachat ou de vente dâactifs numĂ©riques. Dans la mesure oĂč lâIA gĂ©nĂ©rative est utilisĂ©e pour fournir des rĂ©sumĂ©s ou dâautres informations, ce contenu gĂ©nĂ©rĂ© par IA peut ĂȘtre inexact ou incohĂ©rent. Veuillez lire lâarticle associĂ© pour obtenir davantage de dĂ©tails et dâinformations. OKX nâest pas responsable du contenu hĂ©bergĂ© sur des sites tiers. La dĂ©tention dâactifs numĂ©riques, y compris les stablecoins et les NFT, implique un niveau de risque Ă©levĂ© et leur valeur peut considĂ©rablement fluctuer. Examinez soigneusement votre situation financiĂšre pour dĂ©terminer si le trading ou la dĂ©tention dâactifs numĂ©riques vous convient.