Google har annonsert Gemini 2.5.
Topper tester og «tenker»
Og nå tør selskapet bruke betegnelsen «tenkende» om en LLM-modell: «Gemini 2.5 er en tenkende modell, utviklet for å løse stadig mer komplekse problemer. Vår første 2.5-modell, Gemini 2.5 Pro Experimental, leder på vanlige testmålinger med betydelige marginer og demonstrerer sterke evner innen resonnering og koding,» heter det i pressemeldingen, og de legger til at «modellen er i stand til å resonnere gjennom tankene sine før de svarer, noe som gir bedre ytelse og økt nøyaktighet.»
Dette melder Google om tilgjengelighet: «Utviklere og bedrifter kan allerede nå begynne å eksperimentere med Gemini 2.5 Pro i Google AI Studio, og brukere av Gemini Advanced kan velge modellen i nedtrekksmenyen på både datamaskin og mobil. Den blir tilgjengelig på Vertex AI i løpet av de kommende ukene.»
Selskapet trekker også frem kraftig ytelse og det at Gemini støtter tekst, lyd, vilde og video:
- Sterk ytelse i tester: Topper LMArena og andre AI-benchmarks innen koding, matematikk og vitenskap.
- Avansert koding: Vesentlig forbedret kodegenerering, transformasjon og redigering sammenlignet med 2.0.
- SWE-Bench-resultat: Scorer 63,8 % i SWE-Bench Verified med tilpasset agent – en bransjestandard.
- Multimodal forståelse: Håndterer tekst, lyd, bilde, video og hele kodebaser.
- Lang kontekstforståelse: 1 million tokens tilgjengelig nå, 2 millioner på vei.
- Skaper komplekse apper: Egner seg for utvikling av webapper og agentbasert programvare.
- Forbedret etter-trening: Kombinerer forbedret basemodell med bedre post-treningsteknikker.
- Ingen behov for kostbare test-teknikker: Ledende ytelse uten metoder som «majority voting».

Lær noe nytt om LLM-er
«I lang tid har vi utforsket måter å gjøre LLM-er smartere og bedre til å resonnere på, ved hjelp av teknikker som forsterkningslæring og «chain-of-thought»-prompting. Basert på dette introduserte vi nylig vår første tenkende modell, Gemini 2.0 Flash Thinking.»
Annonse
Men hva innebærer disse vanskelige begrepene? Vi måtte rett og slett spørre ChatGPT:
- Forsterkningslæring (reinforcement learning): En metode hvor KI lærer ved å prøve og feile, og får «belønning» for gode handlinger. Dette gjør at modellen gradvis forbedrer seg selv.
- Chain-of-thought prompting: En teknikk der modellen blir oppmuntret til å tenke steg-for-steg når den løser problemer, i stedet for å hoppe rett til svaret. Dette gir mer presise og logiske svar.
- Gemini 2.0 Flash Thinking: Dette var deres første modell som kombinerte disse metodene for å simulere «tenkning» før den svarer – altså en mer menneskelig og gjennomtenkt prosess i AI-modellen.
«Gemini 2.5 Pro Experimental» er også lansert som den mest avanserte for komplekse oppgaver: «Den topper LMArena-rangeringen – som måler menneskelige preferanser – med god margin, noe som tyder på en svært kapabel modell med høy kvalitet i uttrykk og stil. 2.5 Pro viser også sterke evner innen resonnering og koding, og leder på vanlige tester i programmering, matematikk og vitenskap,» skryter Google, så får vi håpe at det største problemet, hallusinasjoner, er langt mindre fremtredende.


