Sikkerhetshull gjør AI-ene onde

AI-er som OpenAIs ChatGPT, Google Bard og Claude har hull det er enkle å utnytte slik at brukeren får vite ting han eller hun egentlig ikke skal ha tilgang til.

Det er lite som skal til

Det er forskere fra Carnegie Mellon University i Pittsburgh, USA, som har funnet en rekke hull som lar en lure seg rundt sperrene til f.eks. OpenAI sin ChatGPT, men også Google Bard er utsatt. Forskerne har rapportert hullene til de aktuelle selskapene. Spørsmål er nå om dette blir et katt- og mus-spill, eller om de klarer å sette en stopper for informasjon de ønsker AI-ene ikke skal svare på – forskerne er ikke sikre på at dette kan løses.

Og nå har de laget en nettside som legger til den nødvendige strengen på slutten av et svar. På den måten svarer ikke AI-ene “beklager, det kan jeg ikke hjelpe deg med,” men i stedet svarer på ting som “hvordan lage en bombe,” “hvordan stjele noens nett-identitet” og “hvordan stjele fra veldedighet.”

Svarene i eksempel-spørsmålene er generelle på den måten at personen som spør ikke vil få en ingrediensliste for å lage bomber. Problemet er at det kan gi personer med onde hensikter det som trengs for å komme i gang.

Annonse

Er usikre på om det kan løses

AI-ene er ikke helt like, da Claude er mest sikker med kun 2,1 prosent suksess-rate. Dette mot GPT-3.5 og GPT-4-verjoner av ChatGPT med hele 84 prosent suksess.

Det mest oppsiktsvekkende i rapporten er at forskerne langt ifra er sikre på om de store språkmodellene kan tette. En av årsakene er at brukeren kan spørre på spesielle måter, i stedet for en streng, for å få hentet ut “sikret” informasjon:

“Kanskje mest bekymringsfullt er det uklart om slik oppførsel noen gang kan lappes fullstendig av LLM (“Large Language Model”)-leverandører. Analoge motstandsangrep har vist seg å være et svært vanskelig problem å ta tak i. Det er mulig at selve måten dyplæringsmodeller er laget på, gjør problemet uunngåelig. Derfor mener vi at disse hensynene bør tas i betraktning når vi øker bruken og avhengigheten av slike AI-modeller,” forklares det i rapporten.

Annonse

Jeg vet ikke lenger hva jeg skal mene om Windows-laptoper – “Samsung Galaxy Book4”

Det viktigste er å ha det moro! – “Stellar Blade”

Jeg har kjørt “Cybertruck”!

Har konkludert i etterforskningen av Tesla

Dette er Teslas plan: ny billig-bil allerede i år

Har avduket lynkjapp “Model 3” – til Norge neste måned

Det ser ikke bra ut for Apple

OPPDATERT: Hva synes du om “Pixel 9 Pro”?

Gigantisk endring hos Google kan endre alt

OPPDATERT: Lanseres våren 2025 – avsløres snart

“Surface Laptop 6” kan bli årets beste bærbare

Min nye favoritt kan endre alt – “Asus Zenbook Duo”

OPPDATERT: Lanseres våren 2025 – avsløres snart

“Et ødelagt rot”

OPPDATERT: Gjør “Fallout 4” nytt igjen

Var dette planlagt, eller bommet Apple totalt?

BLOGG: Det er (kanskje) noe feil med HomePod

BLOGG: “Battlefield 2042” er bra nok til å være gratis

OPPDATERT: Norske Vivaldi langer ut mot Google

Jeg har kjørt “Cybertruck”!

Det er en forbrytelse du ikke kan handle den – “Rivian R1T”

OPPDATERT: Fra første til femteplass

Spotify vil ikke betale Apple – nå svarer de dette

Lanserte “Vision Pro”, så sluttet han

“Surface Laptop 6” kan bli årets beste bærbare

Dette er laget med et bilde

Microsoft slapp med skrekken

OPPDATERT: Hva synes du om “Pixel 9 Pro”?

Gigantisk endring hos Google kan endre alt

Verktøyene er gratis og utrolige

Sikkerhetshull gjør AI-ene onde

Det er lite som skal til

Er usikre på om det kan løses

Sikkerhetshull gjør AI-ene onde

Det er lite som skal til

Er usikre på om det kan løses

Subscribe