OPPDATERT: Derfor roser Nvidia sjokk-konkurrenten

DeepSeek (som er på 1. plass over gratisapper til iPhone i USA), den kinesiske og åpne kildekodebaserte AI-plattformen, har lansert sin nyeste modell: “Janus-Pro-7B”.

Oppdatert, 13:05:

Nvidia skryter av DeepSeek i en uttalelse ovenfor CNBC, men påpeker at det «kreves et betydelig antall Nvidia GPU-er.» Dette etter at aksjekursen til California-selskapet falt med 17 prosent etter at R1-modellen ble lansert forrige uke. Nvidia påpeker at det kinesiske selskapet som USA har et eksportforbud mot, har brukt lovlig maskinvare, mao. har de brukt og bruker Nvidia-produkter:

«DeepSeek er et fremragende AI-framsteg og et perfekt eksempel på Test Time Scaling. DeepSeeks arbeid viser hvordan nye modeller kan skapes ved hjelp av denne teknikken, ved å utnytte allment tilgjengelige modeller og beregningskraft som er fullt ut i samsvar med eksportkontroll. Inference krever et betydelig antall NVIDIA GPU-er og høyytelses nettverk. Vi har nå tre skaleringslover: pre-trening og post-trening, som fortsetter, og ny test-time scaling.»

Annonse

Sam Altman:

deepseek's r1 is an impressive model, particularly around what they're able to deliver for the price.

we will obviously deliver much better models and also it's legit invigorating to have a new competitor! we will pull up some releases.
— Sam Altman (@sama) January 28, 2025

Ny modell skjønner tekst, genererer bilder

Den nye modellen overgår eller matcher «spesialiserte modeller for spesifikke oppgaver,» heter det fra DeepSeek som fremhever at bruksområdene er kreativ innholdsskaping og analyse:

Janus-Pro er en nyskapende autoregressiv plattform som forener multimodal forståelse og generering. Den løser begrensningene i tidligere tilnærminger ved å dele opp visuell koding i separate prosesser, samtidig som den bruker en enkelt, forent transformerarkitektur for behandling. Denne oppdelingen reduserer ikke bare konflikten mellom den visuelle koderens roller i forståelse og generering, men øker også plattformens fleksibilitet. Janus-Pro overgår tidligere forente modeller og matcher eller overgår ytelsen til oppgavespesifikke modeller. Med sin enkelhet, høye fleksibilitet og effektivitet er Janus-Pro en sterk kandidat for neste generasjons forente multimodale modeller.

deepseek itavisen — DeepSeek, topp gratis iPhone-app i USA, lanserer “Janus-Pro-7B”, en åpen kildekode-basert AI-modell. Den kombinerer tekst- og bildeforståelse, overgår visstnok spesialiserte modeller eller matcher dem, og tilbyr avansert bildebehandling, tekst-til-bilde-generering og konkurransedyktige priser. Bilde: ITavisen

Dette i motsetning til den første R1-lanseringen vi omtalte i går morges. Den er nemlig god, som OpenAI sin o1 på matte, koding og resonnement. Også denne er åpen kildekode og leveres med en teknisk rapport. «Inkluderer modeller i størrelsene 32B og 70B, som matcher ytelsen til OpenAI-o1-mini,» mener DeepSeek.

Funksjoner, «Janus-Pro-7B:»

Multimodal forståelse:
Tolker og analyserer tekst og bilder sammen.
Multimodal generering:
Genererer både tekst og bilder av høy kvalitet.
Avansert bildebehandling:
Støtter bildestørrelser opp til 384 x 384 piksler via en dedikert visjonskoder (SigLIP-L).
Tekst-til-bilde-generering:
Bruker avanserte tokenizers for effektiv bildegenerering.
Forent arkitektur:
Kombinerer ulike oppgaver (forståelse og generering) i én modell, noe som gir enkelhet og fleksibilitet.

OPPDATERT: Derfor roser Nvidia sjokk-konkurrenten

Ny modell skjønner tekst, genererer bilder

Funksjoner, «Janus-Pro-7B:»

R1:

💬 Hopp til kommentarene

Subscribe