Post-mortem dell'incidente di rete: bug nel campionamento dei validatori
I. Riepilogo
Il 26 giugno 2025 alle 2:40 AM UTC, la rete principale Flare ha subito un breve blackout, causando un'interruzione temporanea nella produzione di blocchi. Il problema è stato identificato come un bug noto e già corretto nel meccanismo di campionamento dei validatori ereditato da una dipendenza upstream. Un aggiornamento di rete pre-pianificato e auditato contenente la correzione è stato implementato in anticipo, ripristinando con successo la funzionalità della rete entro le 11:15 AM UTC del 26 giugno 2025.
II. Causa principale
Il blackout è stato innescato da un bug nel software client go-flare v1.10, originato da una dipendenza upstream di Avalanche (avalanchego). Il bug si trovava nell'algoritmo di campionamento dei validatori, che è critico per la produzione di blocchi e la selezione dei peer. Sotto specifiche condizioni di rete, il peso cumulativo di tutti i validatori ha superato il valore massimo per un intero firmato a 64 bit (MaxInt64). Questo ha causato un errore errOutOfRange, portando alla chiusura dei nodi validatori. La perdita di questi validatori ha interrotto la capacità della rete di produrre nuovi blocchi.
III. Risoluzione
Il bug sottostante era già stato corretto in avalanchego v1.11.0, che ha aggiornato la logica di campionamento per supportare il tipo di dato uint64 più grande. Flare aveva proattivamente auditato e preparato la sua corrispondente release v1.11 in anticipo rispetto al programma originale. In risposta all'incidente, questo aggiornamento pianificato è stato implementato come patch di emergenza. Il nuovo software è stato distribuito con successo, risolvendo l'errore e ripristinando la stabilità e le operazioni della rete.
IV. Prossimi passi
Il successo dell'implementazione di questo aggiornamento ha migliorato la resilienza e la stabilità della rete, posizionandola per gestire la crescita futura. Abbiamo rivisto il nostro processo di risposta agli incidenti per garantire un rapido dispiegamento di patch critiche se dovessero verificarsi situazioni simili.
Estendiamo la nostra gratitudine ai nostri fornitori di infrastruttura e alla comunità più ampia per la loro pronta risposta e supporto, che sono stati fondamentali per la rapida risoluzione di questo incidente.
Mostra originale54.119
439
Il contenuto di questa pagina è fornito da terze parti. Salvo diversa indicazione, OKX non è l'autore degli articoli citati e non rivendica alcun copyright sui materiali. Il contenuto è fornito solo a scopo informativo e non rappresenta le opinioni di OKX. Non intende essere un'approvazione di alcun tipo e non deve essere considerato un consiglio di investimento o una sollecitazione all'acquisto o alla vendita di asset digitali. Nella misura in cui l'IA generativa viene utilizzata per fornire riepiloghi o altre informazioni, tale contenuto generato dall'IA potrebbe essere impreciso o incoerente. Leggi l'articolo collegato per ulteriori dettagli e informazioni. OKX non è responsabile per i contenuti ospitati su siti di terze parti. Gli holding di asset digitali, tra cui stablecoin e NFT, comportano un elevato grado di rischio e possono fluttuare notevolmente. Dovresti valutare attentamente se effettuare il trading o detenere asset digitali è adatto a te alla luce della tua situazione finanziaria.