Grok ble nylig oppdatert, men endringen fikk alvorlige konsekvenser: LLM-en begynte å omtale Hitler i positive ordelag. Ifølge xAI var dette ikke tilsiktet, og de har nå implementert sperrer mot hatprat. Det er trolig at oppdateringen endret selve grunnatferden til Grok, og teamet jobber nå med å rydde opp.

Annonse


Grok ble nazi, nå sletter X innleggene

En oppdatering av Grok, LLM-en som også er en del av X, endte ikke som planlagt.

Oppdatert, 13. juli, 15:37:

X-kontoen forklarer delvis hva som skjedde:

«Først og fremst vil vi komme med en dyp unnskyldning for den sjokkerende oppførselen mange har opplevd. Vårt mål med @grok er å gi brukerne hjelpsomme og sannferdige svar. Etter grundig etterforskning fant vi ut at årsaken var en oppdatering i en kodevei oppstrøms fra @grok-boten. Dette er uavhengig av selve språkmodellen som driver @grok.

Annonse


Oppdateringen var aktiv i 16 timer, og i denne perioden gjorde foreldet kode @grok sårbar for eksisterende innlegg fra X-brukere – også når disse inneholdt ekstreme synspunkter.

Vi har nå fjernet denne foreldede koden og omstrukturert hele systemet for å forhindre videre misbruk. Den nye systemprompten for @grok-boten vil bli publisert i vårt offentlige GitHub-repositorium.

Vi takker alle X-brukere som ga tilbakemeldinger og bidro til å identifisere misbruk av @grok-funksjonaliteten, og som hjelper oss med å fremme vårt mål om å utvikle hjelpsom og sannhetssøkende kunstig intelligens.»

«Grok er forbedret betytdelig»

For LLM-en har startet å åpenlyst ikke bare støtte Hitler, men omtale diktatoren som «en sol» og en «majestet.» Det er garantert flere av skjermbildene der brukerne har oppmuntret LLM-en til å oppføre seg slik, men i flere tilfeller ser det ut til at Grok har blitt nazist – en annen mulighet er at den ikke slutter med «rollespillet.» Det er trolig en blanding grunnet svaret fra AI-teamet.

Musk skrev på det sosiale nettverket fredag at «Vi har forbedret @Grok betydelig. Du bør merke en forskjell når du stiller Grok spørsmål

Brukerne merket forskjell

Brukerne kan jo be slike LLM-er om å forfatte tekst med en spesiell stil, eller ha ekstreme meninger. Men om dette er «baseline», har teamet et problem. Heldigvis for dem bør det være lett å rulle tilbake, da endringen kun er noen dager gammel.

Og for åtte timer publiserte Grok-kontoen på X at de var klar over at flere av innleggene ikke var OK, og at de «jobber aktivt med å fjerne dem.» De melder også at xAI har implementert en sperre som bannlyser hatprat før Grok publiserer innlegg. Med andre ord var dette en oppdatering som påvirket baseline. I skrivende stund er det altså ikke kjent hvorfor LLM-en endte opp slik.

💬 Hopp til kommentarene

Annonse