DeepSeek (som er på 1. plass over gratisapper til iPhone i USA), den kinesiske og åpne kildekodebaserte AI-plattformen, har lansert sin nyeste modell: “Janus-Pro-7B”.
Oppdatert, 13:05:
Nvidia skryter av DeepSeek i en uttalelse ovenfor CNBC, men påpeker at det «kreves et betydelig antall Nvidia GPU-er.» Dette etter at aksjekursen til California-selskapet falt med 17 prosent etter at R1-modellen ble lansert forrige uke. Nvidia påpeker at det kinesiske selskapet som USA har et eksportforbud mot, har brukt lovlig maskinvare, mao. har de brukt og bruker Nvidia-produkter:
«DeepSeek er et fremragende AI-framsteg og et perfekt eksempel på Test Time Scaling. DeepSeeks arbeid viser hvordan nye modeller kan skapes ved hjelp av denne teknikken, ved å utnytte allment tilgjengelige modeller og beregningskraft som er fullt ut i samsvar med eksportkontroll. Inference krever et betydelig antall NVIDIA GPU-er og høyytelses nettverk. Vi har nå tre skaleringslover: pre-trening og post-trening, som fortsetter, og ny test-time scaling.»
Annonse
Sam Altman:

Ny modell skjønner tekst, genererer bilder
Den nye modellen overgår eller matcher «spesialiserte modeller for spesifikke oppgaver,» heter det fra DeepSeek som fremhever at bruksområdene er kreativ innholdsskaping og analyse:
Janus-Pro er en nyskapende autoregressiv plattform som forener multimodal forståelse og generering. Den løser begrensningene i tidligere tilnærminger ved å dele opp visuell koding i separate prosesser, samtidig som den bruker en enkelt, forent transformerarkitektur for behandling. Denne oppdelingen reduserer ikke bare konflikten mellom den visuelle koderens roller i forståelse og generering, men øker også plattformens fleksibilitet. Janus-Pro overgår tidligere forente modeller og matcher eller overgår ytelsen til oppgavespesifikke modeller. Med sin enkelhet, høye fleksibilitet og effektivitet er Janus-Pro en sterk kandidat for neste generasjons forente multimodale modeller.

Dette i motsetning til den første R1-lanseringen vi omtalte i går morges. Den er nemlig god, som OpenAI sin o1 på matte, koding og resonnement. Også denne er åpen kildekode og leveres med en teknisk rapport. «Inkluderer modeller i størrelsene 32B og 70B, som matcher ytelsen til OpenAI-o1-mini,» mener DeepSeek.

Funksjoner, «Janus-Pro-7B:»
- Multimodal forståelse:
- Tolker og analyserer tekst og bilder sammen.
- Multimodal generering:
- Genererer både tekst og bilder av høy kvalitet.
- Avansert bildebehandling:
- Støtter bildestørrelser opp til 384 x 384 piksler via en dedikert visjonskoder (SigLIP-L).
- Tekst-til-bilde-generering:
- Bruker avanserte tokenizers for effektiv bildegenerering.
- Forent arkitektur:
- Kombinerer ulike oppgaver (forståelse og generering) i én modell, noe som gir enkelhet og fleksibilitet.


R1:







