ChatGPTs nye oppdatering gjør det mulig å bruke stemmemodus direkte i det samme chattevinduet som tekst, slik at du kan snakke, se svar i sanntid og kombinere stemme, tekst og bilder uten å bytte modus. Opplevelsen blir mer sømløs og naturlig, spesielt når man vil starte med stemme og avslutte med tekst eller visuelle elementer.

Annonse


«Har totalt endret opplevelsen min»

Det som tilsynelatende ser ut som en filleoppdatering av ChatGPT-appen, har for mange endret måten de bruker LLM-en på.

OpenAI sin lille-store ChatGPT-oppdatering er klar

OpenAI har nemlig bakt inn stemmemoduset i samme vindu der man skriver til AI-en, eller «den store språkmodellen», om du vil:

Du kan nå bruke ChatGPT Voice rett i chatten – uten egen modus. Du kan snakke, se svarene komme opp fortløpende, bla gjennom tidligere meldinger og se visuelle elementer som bilder og kart i sanntid.

Slik fungerer det:

9to5Mac-redaktør Ben Lovejoy er en av de som mener at dette er fremtiden til Apples Siri, og at selskapet må gjøre dette, og enda mer, for å lykkes:

«Hvis Siri skal levere på alle løftene Apple har kommet med, må den gjøre nettopp dette, og mer. Vi må kunne gi en stemmekommando og få ikke bare talte svar, men også at den manipulerer tekst og bilder.»

Han legger til at det er den sømløse overgangen som er så nyttig: «For det andre forbedret det brukervennligheten. Det er åpenbart raskere og mer praktisk å bare snakke til en AI enn å skrive og lese tekstsvar, i hvert fall for visse typer oppgaver. Men det finnes situasjoner der tekst og visuell interaksjon er mer passende, og selv om det var fint å ha valget, kunne det være frustrerende når du fikk gjort 95 prosent av jobben med stemmen, men likevel måtte bytte til tekst for ting som å be ChatGPT lage et bilde.»

Annonse


Lovejoy mener også «den hellige gral» for AI må oppfylles på Apples enheter, og med det mener han, og vi, at Siri må fungere på tvers av apper, booke fly og spørre om du også vil ha et hotell som matcher flytidene, selv om det kanskje er snakk om prissøk, hotell og fly-app.

Lekkasjene går på at Apple har valgt Googles Gemini som stor språkmodell, og at denne modellen kommer til å kjøre på Apples egne servere, naturlig nok, slik at selskapet kan garantere det personvernet de ønsker å tilby. Fra før av er det kjent at Microsoft baker inn en lokal språkmodell i Windows, som kjører lokalt, og som er bedre enn OpenAI GPT-4o.

💬 Hopp til kommentarene

Annonse