1/ 🧵profundizando en nuestro nuevo trabajo sobre zkGPT: Demostrando la inferencia de LLM de manera rápida con Pruebas de Conocimiento Cero. ¿Por qué? Los proveedores de servicios podrían implementar un modelo más pequeño/barato de lo prometido. ZK les permite probar la corrección sin revelar los parámetros del modelo. 📄
2/ El Problema: - LLMs = poderosos pero costosos. - Los proveedores podrían hacer trampa usando modelos más pequeños. - Los usuarios no pueden verificar qué modelo se utilizó. Las Pruebas ZK resuelven esto, pero los sistemas zkML actuales se ahogan con LLMs reales: - Sin soporte para arquitecturas de transformadores. - Tiempos de prueba enormes (minutos→horas).
3/ Trabajo previo: - ZKML (Eurosys’24): Marco de verificación de ML general. Bueno para modelos pequeños, pero demasiado lento para LLMs. - Hao et al. (USENIX Security’24): Primer intento de zkLLM, aún bastante lento (miles de segundos). - Ambos sufren de una gran sobrecarga de capas no lineales + mala paralelización.
4/ Nuestras contribuciones: 1. Pruebas eficientes para capas lineales y no lineales adaptadas a LLMs (por ejemplo, GPT-2). 2. Fusión de restricciones → reduce la sobrecarga en capas no lineales (como GeLU). 3. Compresión de circuitos → aumenta el paralelismo en la generación de pruebas. 4. Implementación de pila completa optimizada para bloques de transformadores.
5/ Resultados: - Prueba de inferencia de GPT-2 en <25 segundos. - 279× más rápido que Hao et al. (USENIX'24). - 185× más rápido que ZKML (Eurosys'24). - Órdenes de magnitud menos de sobrecarga que las implementaciones ingenuas de zk-transformer.
6/ Por qué es importante: - Permite el despliegue práctico de zkLLM: ahora puedes verificar la salida de un LLM en segundos. - Mantiene en secreto los pesos del modelo. - Abre puertas a servicios de IA que preservan la privacidad con auditoría criptográfica.
7/ Perspectiva clave: No solo compiles ingenuamente un LLM en un circuito. Explotar la estructura: - Operaciones lineales (MatMul, LayerNorm) → restricciones personalizadas eficientes. - Operaciones no lineales (GELU) → restricciones fusionadas para reducir la complejidad. - Diseño amigable con el paralelismo para maximizar el hardware moderno de prueba.
Mostrar original
24.99 k
554
El contenido al que estás accediendo se ofrece por terceros. A menos que se indique lo contrario, OKX no es autor de la información y no reclama ningún derecho de autor sobre los materiales. El contenido solo se proporciona con fines informativos y no representa las opiniones de OKX. No pretende ser un respaldo de ningún tipo y no debe ser considerado como un consejo de inversión o una solicitud para comprar o vender activos digitales. En la medida en que la IA generativa se utiliza para proporcionar resúmenes u otra información, dicho contenido generado por IA puede ser inexacto o incoherente. Lee el artículo enlazado para más detalles e información. OKX no es responsable del contenido alojado en sitios de terceros. Los holdings de activos digitales, incluidos stablecoins y NFT, suponen un alto nivel de riesgo y pueden fluctuar mucho. Debes considerar cuidadosamente si el trading o holding de activos digitales es adecuado para ti según tu situación financiera.