1/ 🧵mergulhando mais fundo no nosso novo trabalho sobre zkGPT: Provando a inferência LLM rapidamente com Provas de Conhecimento Zero. Por quê? Os prestadores de serviços podem implantar um modelo menor/mais barato do que o prometido. ZK permite que eles provem a correção sem revelar os parâmetros do modelo. 📄
2/ O Problema: - LLMs = poderosos, mas caros. - Os fornecedores podem enganar ao executar modelos menores. - Os utilizadores não conseguem verificar qual modelo foi utilizado. As Provas ZK resolvem isso, mas os sistemas zkML atuais falham com LLMs reais: - Sem suporte para arquiteturas de transformadores. - Tempos de prova enormes (minutos→horas).
3/ Trabalho anterior: - ZKML (Eurosys’24): Estrutura geral de verificação de ML. Boa para modelos pequenos, mas muito lenta para LLMs. - Hao et al. (USENIX Security’24): Tentativa inicial de zkLLM, ainda bastante lenta (milhares de segundos). - Ambos sofrem de uma enorme sobrecarga de camadas não lineares + má paralelização.
4/ As nossas contribuições: 1. Provas eficientes para camadas lineares e não lineares adaptadas a LLMs (por exemplo, GPT-2). 2. Fusão de restrições → reduz a sobrecarga em camadas não lineares (como GeLU). 3. Compressão de circuitos → aumenta o paralelismo na geração de provas. 4. Implementação de pilha completa otimizada para blocos de transformadores.
5/ Resultados: - Prova de inferência do GPT-2 em <25 segundos. - 279× mais rápido que Hao et al. (USENIX'24). - 185× mais rápido que ZKML (Eurosys'24). - Ordem de magnitude menos sobrecarga do que implementações ingênuas de zk-transformer.
6/ Por que isso é importante: - Permite a implementação prática de zkLLM — agora você pode verificar a saída de um LLM em segundos. - Mantém os pesos do modelo em segredo. - Abre portas para serviços de IA que preservam a privacidade com auditabilidade criptográfica.
7/ Insight chave: Não compile um LLM em um circuito de forma ingênua. Explore a estrutura: - Operações lineares (MatMul, LayerNorm) → restrições personalizadas eficientes. - Operações não lineares (GELU) → restrições fundidas para reduzir a complexidade. - Layout amigável para paralelismo para maximizar o hardware moderno de provadores.
Mostrar original
25 mil
554
O conteúdo apresentado nesta página é fornecido por terceiros. Salvo indicação em contrário, a OKX não é o autor dos artigos citados e não reivindica quaisquer direitos de autor nos materiais. O conteúdo é fornecido apenas para fins informativos e não representa a opinião da OKX. Não se destina a ser um endosso de qualquer tipo e não deve ser considerado conselho de investimento ou uma solicitação para comprar ou vender ativos digitais. Na medida em que a IA generativa é utilizada para fornecer resumos ou outras informações, esse mesmo conteúdo gerado por IA pode ser impreciso ou inconsistente. Leia o artigo associado para obter mais detalhes e informações. A OKX não é responsável pelo conteúdo apresentado nos sites de terceiros. As detenções de ativos digitais, incluindo criptomoedas estáveis e NFTs, envolvem um nível de risco elevado e podem sofrer grandes flutuações. Deve considerar cuidadosamente se o trading ou a detenção de ativos digitais é adequado para si à luz da sua condição financeira.