1/
🧵mergulhando mais fundo no nosso novo trabalho sobre zkGPT: Provando a inferência LLM rapidamente com Provas de Conhecimento Zero.
Por quê? Os prestadores de serviços podem implantar um modelo menor/mais barato do que o prometido. ZK permite que eles provem a correção sem revelar os parâmetros do modelo.
📄
2/
O Problema:
- LLMs = poderosos, mas caros.
- Os fornecedores podem enganar ao executar modelos menores.
- Os utilizadores não conseguem verificar qual modelo foi utilizado.
As Provas ZK resolvem isso, mas os sistemas zkML atuais falham com LLMs reais:
- Sem suporte para arquiteturas de transformadores.
- Tempos de prova enormes (minutos→horas).
3/
Trabalho anterior:
- ZKML (Eurosys’24): Estrutura geral de verificação de ML. Boa para modelos pequenos, mas muito lenta para LLMs.
- Hao et al. (USENIX Security’24): Tentativa inicial de zkLLM, ainda bastante lenta (milhares de segundos).
- Ambos sofrem de uma enorme sobrecarga de camadas não lineares + má paralelização.
4/
As nossas contribuições:
1. Provas eficientes para camadas lineares e não lineares adaptadas a LLMs (por exemplo, GPT-2).
2. Fusão de restrições → reduz a sobrecarga em camadas não lineares (como GeLU).
3. Compressão de circuitos → aumenta o paralelismo na geração de provas.
4. Implementação de pilha completa otimizada para blocos de transformadores.
5/
Resultados:
- Prova de inferência do GPT-2 em <25 segundos.
- 279× mais rápido que Hao et al. (USENIX'24).
- 185× mais rápido que ZKML (Eurosys'24).
- Ordem de magnitude menos sobrecarga do que implementações ingênuas de zk-transformer.
6/
Por que isso é importante:
- Permite a implementação prática de zkLLM — agora você pode verificar a saída de um LLM em segundos.
- Mantém os pesos do modelo em segredo.
- Abre portas para serviços de IA que preservam a privacidade com auditabilidade criptográfica.
7/
Insight chave:
Não compile um LLM em um circuito de forma ingênua.
Explore a estrutura:
- Operações lineares (MatMul, LayerNorm) → restrições personalizadas eficientes.
- Operações não lineares (GELU) → restrições fundidas para reduzir a complexidade.
- Layout amigável para paralelismo para maximizar o hardware moderno de provadores.
25 mil
554
O conteúdo apresentado nesta página é fornecido por terceiros. Salvo indicação em contrário, a OKX não é o autor dos artigos citados e não reivindica quaisquer direitos de autor nos materiais. O conteúdo é fornecido apenas para fins informativos e não representa a opinião da OKX. Não se destina a ser um endosso de qualquer tipo e não deve ser considerado conselho de investimento ou uma solicitação para comprar ou vender ativos digitais. Na medida em que a IA generativa é utilizada para fornecer resumos ou outras informações, esse mesmo conteúdo gerado por IA pode ser impreciso ou inconsistente. Leia o artigo associado para obter mais detalhes e informações. A OKX não é responsável pelo conteúdo apresentado nos sites de terceiros. As detenções de ativos digitais, incluindo criptomoedas estáveis e NFTs, envolvem um nível de risco elevado e podem sofrer grandes flutuações. Deve considerar cuidadosamente se o trading ou a detenção de ativos digitais é adequado para si à luz da sua condição financeira.