Google og Facebook ser en økende trend med at CPU-kjerner oppfører seg inkonsekvent, derfor ber de nå en samlet bransje om å samle seg og jobbe mot problemet sammen.
Google og Facebook ser en økende trend med at CPU-kjerner oppfører seg inkonsekvent, derfor ber de nå en samlet bransje om å samle seg og jobbe mot problemet sammen.

Annonse


Feil i CPU-kjerner leder til krypterte data som kun kan dekrypteres av synderen selv

Dagens datamaskiner er ikke nøyaktige nok – regnefeil oppstår i økende grad og Google og Facebook oppfordrer teknologibedrifter til å samarbeide for å bedre forstå hvorfor og hvordan dette kan bekjempes.

Feil har alltid vært der

Teknologien vi nå stoler på har blitt så avansert, og skal vi tro rapporter fra selskaper som Google og Facebook så har de blitt så avanserte at vi ikke lenger kan stole på at de utfører kalkulasjonene vi setter de til på en forutsigbar måte. Feil i CPUer har vært med oss så lenge vi har hatt CPUer, og de kan oppstå av mange ulike grunner og er ikke bare begrenset til feil i design, men også miljømessige forhold som temperatur eller fysiske feil i brikkene som igjen gir feil i utregninger.

Tidligere har det vært slik at det kun har vært de mest sensitive utregningene som måtte gjennomgå kontroller selv om systemene ser ut til å fungere som de skal, med andre ord har vi har stort sett behandlet datamaskiner som ufeilbarlige. Men i det siste så har noen av verdens største konsumenter av datakraft, Facebook og Google, oppdaget feil i en størrelsesorden som nå gjør at de ber en samlet teknologibransje om å gå sammen for å finne ut hva som kan gjøres for å bedre situasjonen.

CPU-kjerner som ikke gjør det de får beskjed om er i bunn og grunn det problemet handler om. Kilde: Google

Hele konseptet vi nå ser er såpass nytt at man ikke har et eget ord for det enda, Google har valgt å kalle kjerner som oppfører seg på denne måten som “mercurial”, på norsk vil det kunne oversettes til inkonsekvente-kjerner.

Annonse


I denne videoen kan høre Peter Hochschild fortelle om Google sine erfaringer med problemet. Kilde: YouTube / Google

– Eventyret vårt begynte med at årvåkne produksjonsteam i økende grad klaget over tilbakevendende maskiner som ødela data,” sa Peter Hochschild, en Google-ingeniør, i en video presentert som en del av HotOS (20) -konferansen 2021 denne uken.

Videre legger Hochschild til at “Disse maskinene ble troverdig anklaget for å ødelegge flere forskjellige stabile, godt feilsøkte store applikasjoner. Hver maskin ble anklaget gjentatte ganger av uavhengige team, men konvensjonell diagnostikk fant ingenting galt med dem.”

Kritiske feil kan oppstå

Både Google og Facebook har gitt ut rapporter om emnet og problemet men det gjenstår mye arbeid før man kan håpe på at man finner en løsning. Facebook sin rapport om emnet har fått navnet “Silent Data Corruption at Scale” mens Google sin rapport har fått navnet “Cores that dont count

En av situasjonene som Hochschild beskriver er hvor en av kjernene som ble testet og gjennomgått hadde feilet på kalkuleringer tilknyttet kryptering. Den hadde gjort det på en slik måte at kun den kunne dekryptere dataene igjen.

Den Google-ansatte Hochschild beskrev problemet som et “automatisk uregelmessige ransomware-angrep”.

Ideelt sett vil Google gjerne få på plass automatiserte metoder for å identifisere disse inkonsekvente kjernene og har foreslått strategier som CPU-testing gjennom hele brikkens livssyklus, i stedet for å bare stole på testing utført før distribusjon. Teknologi-giganten er for tiden avhengig av menneskedrevet testing, noe som ikke er spesielt nøyaktig, fordi verktøy og teknikker for å identifisere inkonsekvente kjerner fortsatt er noe man jobber med å definere.

“Vår nylige erfaring er at omtrent halvparten av disse menneskelig-identifiserte kjernene faktisk vist seg å være inkonsekvente ved dypere etterforskning – vi må trekke ut ’tilståelser’ via videre testing (ofte etter først å ha utviklet en ny automatiserbar test),” forklarer Googles forskere . “Den andre halvdelen er en blanding av falske positive og begrenset mulighet til å reprodusere feilene”

Hva tenker du om dette? Del gjerne dine tanker om emnet med andre lesere i kommentarfeltet!

Annonse