Coinbase (Nasdaq: COIN) ha dimostrato ancora una volta ai trader di criptovalute come un hardware cloud lento possa compromettere anche un exchange veloce. Sembra che la strategia di cambio di strategia basata sull'intelligenza artificiale possa essere stata la mossa peggiore dell'azienda.
Venerdì, la società ha dichiarato che un guasto al sistema di raffreddamento di Amazon Web Services (Nasdaq: AMZN) ha contribuito a causare un'interruzione di diverse ore che ha colpito le negoziazioni, l'accesso alle borse e gli aggiornamenti dei saldi sulla sua piattaforma.
Il problema è iniziato intorno alle 23:50 UTC del 7 maggio, quando i sistemi di monitoraggio interni hanno rilevato una diffusa serie di errori nella generazione dei preventivi all'interno dei sistemi aziendali.
A quel punto, gli ingegneri hanno creato diversi incidenti di livello Sev1 e i clienti hanno già subito ripercussioni in termini di servizi come il trading spot, Coinbase Prime, International, derivati, Retail, Advanced e Institutional exchange.
Brian Armstrong, CEO di Coinbase, ha scritto su X che la sua azienda "ha subito un'interruzione di servizio" e che un evento del genere "non è mai accettabile". Secondo lui, la causa era "il surriscaldamento di una stanza in un data center AWS dovuto al guasto di diversi sistemi di raffreddamento".
Secondo Brian, l'azienda si assicura che tutti i suoi servizi siano progettati in modo tale da non andare offline in caso di guasto di una zona di disponibilità di AWS. La maggior parte dei servizi è strutturata in questo modo, ad eccezione dell'Exchange, che utilizza un'infrastruttura diversa a causa delle sue elevate esigenze di latenza.
Coinbase attribuisce il malfunzionamento dei sistemi di raffreddamento AWS al blocco dei sistemi di quotazione prima della mezzanotte UTC.
Come riportato in precedenza da Cryptopolitan, Coinbase sta pianificando di licenziare 700 dipendenti, pari a circa il 14% della forza lavoro totale. Questa decisione è stata presa nell'ottica di sostituire i processi manuali con l'intelligenza artificiale.
Rob Witoff, responsabile della piattaforma di Coinbase, ha fornito i dettagli tecnici della questione. Secondo lui, l'interruzione è durata a lungo e ha interessato "il trading, l'accesso agli exchange e l'aggiornamento dei saldi".
L'allarme iniziale è scattato alle 23:50 UTC a causa di errori di quotazione provenienti dai sistemi interni. È seguita immediatamente un'analisi di gravità 1. Secondo Rob, la causa del problema è stata un "evento termico" in una piccola percentuale di rack in una delle strutture di AWS us-east-1.
Una struttura di questo tipo per l'infrastruttura di scambio si è rivelata molto utile. Rob ha affermato che Coinbase mantiene la propria infrastruttura di scambio in un'unica zona di disponibilità, poiché il settore attribuisce grande importanza alla velocità.
Inoltre, l'azienda dispone di una copia di backup distribuita di questa infrastruttura di scambio in caso di scenari simili. Tuttavia, il guasto di una parte dell'infrastruttura di scambio in questione al momento non è rimasto circoscritto ai suoi confini, prolungando il processo di risoluzione della situazione.
Due componenti si sono guastati. Si è verificato un malfunzionamento nell'hardware sottostante al motore corrispondente. Pertanto, prima di ogni altra cosa, è stato necessario eseguire operazioni di ripristino e failover.
Inoltre, il cluster Kafka distribuito, incaricato della condivisione delle informazioni tra tutti i sistemi dell'organizzazione, si è bloccato. Il ripristino delle partizioni Kafka su un nuovo broker hardware ha richiesto un'operazione complessa, con un volume di dati pari a diversi TiB.
Gli ingegneri ricostruiscono il quorum e riattivano i mercati di Coinbase tramite le modalità di sola cancellazione e asta.
Il motore di matching era responsabile del più grande volume di scambi. Il motore di matching elabora gli ordini e gestisce i registri degli ordini. Il sistema opera in un cluster distribuito e richiede il raggiungimento del quorum prima di poter scegliere un leader ed eseguire le transazioni in sicurezza.
Poiché non tutti i nodi sono rimasti funzionanti a causa delle limitazioni del data center durante l'interruzione, non è stato possibile raggiungere il quorum, impedendo così le attività di trading sulle piattaforme Retail, Advanced e Institutional.
Rob ha spiegato che i team di supporto e di ingegneria reperibili dovevano eseguire le procedure di ripristino d'emergenza dell'azienda, garantire il quorum e valutare lo stato di salute del sistema in condizioni infrastrutturali difficili.
Secondo lui, il team ha dovuto sviluppare, testare, implementare e convalidare una soluzione gestendo al contempo l'interruzione del servizio su vasta scala. Kafka avrebbe richiesto un lungo intervento manuale di ripristino, poiché la sua architettura partizionata gestisce migliaia di terabyte al giorno.
Si sono verificati alcuni problemi con i flussi di saldo in ritardo a causa di un malfunzionamento di Kafka. Rob ha affermato che questi problemi con i saldi sono scomparsi dopo la sincronizzazione della replica. Secondo Coinbase, non si è verificata alcuna perdita di dati.
Quando il motore di matching è tornato operativo, i mercati non sono stati riattivati simultaneamente. Prima, Coinbase ha impostato tutti i prodotti in modalità di sola cancellazione, ha verificato lo stato dei prodotti, ha impostato tutti i mercati in modalità asta e, infine, ha abilitato il trading su Coinbase Exchange.
Inoltre, Rob ha sottolineato che i clienti non dovrebbero essere temporaneamente bloccati fuori dai loro account. Coinbase ha assicurato a tutti che l'azienda fornirà una spiegazione dettagliata dell'accaduto entro poche settimane.
Tuttavia, Josh Ellithorpe ha smentito le voci dopo aver letto il post di Rob su Twitter. Come ha affermato, "nessuno ha programmato qualcosa che poi è andato storto. Un 'non ingegnere' non ha rilasciato codice di produzione e mandato in tilt il motore di trading. Non è stato intenzionale. Non è successo perché Coinbase non avesse progettato un sistema di failover. Le cose su larga scala accadono, non lasciatevi ingannare da chi si atteggia a esperto".
Se desideri un approccio più tranquillo al mondo delle criptovalute DeFi , senza la solita frenesia, inizia con questo video gratuito.