1/
🧵profundizando en nuestro nuevo trabajo sobre zkGPT: Demostrando la inferencia de LLM de manera rápida con Pruebas de Conocimiento Cero.
¿Por qué? Los proveedores de servicios podrían implementar un modelo más pequeño/barato de lo prometido. ZK les permite probar la corrección sin revelar los parámetros del modelo.
📄
2/
El Problema:
- LLMs = poderosos pero costosos.
- Los proveedores podrían hacer trampa usando modelos más pequeños.
- Los usuarios no pueden verificar qué modelo se utilizó.
Las Pruebas ZK resuelven esto, pero los sistemas zkML actuales se ahogan con LLMs reales:
- Sin soporte para arquitecturas de transformadores.
- Tiempos de prueba enormes (minutos→horas).
3/
Trabajo previo:
- ZKML (Eurosys’24): Marco de verificación de ML general. Bueno para modelos pequeños, pero demasiado lento para LLMs.
- Hao et al. (USENIX Security’24): Primer intento de zkLLM, aún bastante lento (miles de segundos).
- Ambos sufren de una gran sobrecarga de capas no lineales + mala paralelización.
4/
Nuestras contribuciones:
1. Pruebas eficientes para capas lineales y no lineales adaptadas a LLMs (por ejemplo, GPT-2).
2. Fusión de restricciones → reduce la sobrecarga en capas no lineales (como GeLU).
3. Compresión de circuitos → aumenta el paralelismo en la generación de pruebas.
4. Implementación de pila completa optimizada para bloques de transformadores.
5/
Resultados:
- Prueba de inferencia de GPT-2 en <25 segundos.
- 279× más rápido que Hao et al. (USENIX'24).
- 185× más rápido que ZKML (Eurosys'24).
- Órdenes de magnitud menos de sobrecarga que las implementaciones ingenuas de zk-transformer.
6/
Por qué es importante:
- Permite el despliegue práctico de zkLLM: ahora puedes verificar la salida de un LLM en segundos.
- Mantiene en secreto los pesos del modelo.
- Abre puertas a servicios de IA que preservan la privacidad con auditoría criptográfica.
7/
Perspectiva clave:
No solo compiles ingenuamente un LLM en un circuito.
Explotar la estructura:
- Operaciones lineales (MatMul, LayerNorm) → restricciones personalizadas eficientes.
- Operaciones no lineales (GELU) → restricciones fusionadas para reducir la complejidad.
- Diseño amigable con el paralelismo para maximizar el hardware moderno de prueba.
24.99 k
554
El contenido al que estás accediendo se ofrece por terceros. A menos que se indique lo contrario, OKX no es autor de la información y no reclama ningún derecho de autor sobre los materiales. El contenido solo se proporciona con fines informativos y no representa las opiniones de OKX. No pretende ser un respaldo de ningún tipo y no debe ser considerado como un consejo de inversión o una solicitud para comprar o vender activos digitales. En la medida en que la IA generativa se utiliza para proporcionar resúmenes u otra información, dicho contenido generado por IA puede ser inexacto o incoherente. Lee el artículo enlazado para más detalles e información. OKX no es responsable del contenido alojado en sitios de terceros. Los holdings de activos digitales, incluidos stablecoins y NFT, suponen un alto nivel de riesgo y pueden fluctuar mucho. Debes considerar cuidadosamente si el trading o holding de activos digitales es adecuado para ti según tu situación financiera.