En oppdatering av Grok, LLM-en som også er en del av X, endte ikke som planlagt.
Oppdatert, 13. juli, 15:37:
X-kontoen forklarer delvis hva som skjedde:
«Først og fremst vil vi komme med en dyp unnskyldning for den sjokkerende oppførselen mange har opplevd. Vårt mål med @grok er å gi brukerne hjelpsomme og sannferdige svar. Etter grundig etterforskning fant vi ut at årsaken var en oppdatering i en kodevei oppstrøms fra @grok-boten. Dette er uavhengig av selve språkmodellen som driver @grok.
Annonse
Oppdateringen var aktiv i 16 timer, og i denne perioden gjorde foreldet kode @grok sårbar for eksisterende innlegg fra X-brukere – også når disse inneholdt ekstreme synspunkter.
Vi har nå fjernet denne foreldede koden og omstrukturert hele systemet for å forhindre videre misbruk. Den nye systemprompten for @grok-boten vil bli publisert i vårt offentlige GitHub-repositorium.
Vi takker alle X-brukere som ga tilbakemeldinger og bidro til å identifisere misbruk av @grok-funksjonaliteten, og som hjelper oss med å fremme vårt mål om å utvikle hjelpsom og sannhetssøkende kunstig intelligens.»
«Grok er forbedret betytdelig»
For LLM-en har startet å åpenlyst ikke bare støtte Hitler, men omtale diktatoren som «en sol» og en «majestet.» Det er garantert flere av skjermbildene der brukerne har oppmuntret LLM-en til å oppføre seg slik, men i flere tilfeller ser det ut til at Grok har blitt nazist – en annen mulighet er at den ikke slutter med «rollespillet.» Det er trolig en blanding grunnet svaret fra AI-teamet.
Musk skrev på det sosiale nettverket fredag at «Vi har forbedret @Grok betydelig. Du bør merke en forskjell når du stiller Grok spørsmål.»
Brukerne merket forskjell
Brukerne kan jo be slike LLM-er om å forfatte tekst med en spesiell stil, eller ha ekstreme meninger. Men om dette er «baseline», har teamet et problem. Heldigvis for dem bør det være lett å rulle tilbake, da endringen kun er noen dager gammel.
Og for åtte timer publiserte Grok-kontoen på X at de var klar over at flere av innleggene ikke var OK, og at de «jobber aktivt med å fjerne dem.» De melder også at xAI har implementert en sperre som bannlyser hatprat før Grok publiserer innlegg. Med andre ord var dette en oppdatering som påvirket baseline. I skrivende stund er det altså ikke kjent hvorfor LLM-en endte opp slik.


