Best på alt

OpenAIs nye ChatGPT 4.5-modell som ble introdusert sent i februar har fått kjørt seg i flere AI-tester.

Grok 3 slått av ChatGPT 4.5

GPT-4.5 har inntatt førsteplassen i Chatbot Arena, en plattform hvor brukere stemmer frem de beste språkmodellene. Med over 3 200 stemmer topper GPT-4.5 rangeringen, særlig innen Style Control og Multi-Turn-interaksjoner. Dette betyr at modellen ikke bare genererer mer sammenhengende og kontekstbevisste svar over flere meldinger, men også kan tilpasse tonen og stilen sin bedre enn tidligere versjoner.

I SimpleQA-benchmarken, som vurderer faktuell nøyaktighet, oppnådde GPT-4.5 en imponerende treffprosent på 62,5 %. Dette er betydelig høyere enn forgjengerne:

GPT-4o (38,2 %)
OpenAI o1 (47 %)
Hallusinasjonsraten har sunket til 37,1 % – ned fra 61,8 % i forrige modell

I PersonQA-testen, som måler modellens evne til å besvare personrelaterte spørsmål uten å generere feilinformasjon, presterte GPT-4.5 også på topp. Modellen viste høyere nøyaktighet og lavere feilrate sammenlignet med OpenAIs tidligere modeller, noe som gjør den mer pålitelig for spørsmål om enkeltpersoner og offentlige figurer.

ChatGPT 4.5 er best i samtlige av disse testene og er på topp i «Style Control»*:

Flere-svar-interaksjoner (Multi-Turn)
Krevende forespørsler (Hard Prompts)
Koding
Matematikk
Kreativ skriving
Instruksjonsfølge (Instruction Following)
Lengre forespørsler (Longer Query)

* Style Control-rangeringen handler om LLM-en sin evne til å tilpasse og variere skrivestilen basert på ønsker og kontekst – dette inkluderer evnen til å skrive formelt eller uformelt, imitere spesifikke sjangre eller toneleier, samt tilpasse seg ulike skrivemønstre eller dialekter.

Best på alt

Grok 3 slått av ChatGPT 4.5

I SimpleQA-benchmarken, som vurderer faktuell nøyaktighet, oppnådde GPT-4.5 en imponerende treffprosent på 62,5 %. Dette er betydelig høyere enn forgjengerne:

ChatGPT 4.5 er best i samtlige av disse testene og er på topp i «Style Control»*:

💬 Hopp til kommentarene

Subscribe