Det er flere gratis program som lar deg laste ned og kjøre åpne språkmodeller direkte på din egen PC, helt uten abonnement, sky eller konto. Du installerer det som et vanlig program, velger modell fra en liste, og deretter laster du f.eks. ned Ollama ned språkmodellen du ønsker. Hvilken bør du velge? Fortsett å lese, så guider vi deg.
Oppdatert, 31. mars, 11:30:
Ollama har nettopp rullet ut en stor oppdatering som gjør ytelsen på Apple Silicon betydelig bedre. Endringen kommer via MLX, Apples eget rammeverk for maskinlæring, og gjelder alle Mac-er med M-brikke. På M5, M5 Pro og M5 Max utnyttes i tillegg nye GPU Neural Accelerators, som gir raskere responstid og høyere generasjonshastighet.
Oppdateringen introduserer også NVFP4-støtte, som gir bedre modellkvalitet med lavere minnebruk, samt forbedret hurtigbuffer som gjør koding og agentbaserte oppgaver mer effektive. Bufferen gjenbrukes nå på tvers av samtaler, noe som betyr færre lastetider og mer responsiv bruk generelt.
Annonse
Vil du teste den nye ytelsen, støtter denne forhåndsversjonen Qwen3.5-35B-A3B-modellen, men du trenger en Mac med minst 32 GB unified memory.
Kjøp din egen LLM: Ingen API-nøkler. Ingen kredittkort. Ingen begrensninger
Ollama fungerer med det meste av populære verktøy, og er utrolig enkelt å starte med. Du kan koble det til en enkel chat-klient som Open WebUI, bruke det sammen med dokumenter og søk, eller integrere det i kode- og automasjonsverktøy som LangChain, LlamaIndex eller n8n – eller bare kjøre programmet som det er med et samtalevindu. Dette er rett og slett det samme som å ha en privat versjon av ChatGPT installert lokalt som man bestemmer over og som er gratis, og du kan utvide funktionaliteten:

Samtidig begynner abonnementene å svi. ChatGPT Plus, Claude Pro og Gemini Advanced koster fort flere tusenlapper i året, samtidig som reklamen er på vei. Etter to til tre år har du i praksis betalt like mye som et helt skjermkort, uten å eie noe som helst. Du ser sikkert hvor vi er på vei: det kan lønne seg å handle et skjermkort med minst 12GB RAM, selv om du ikke er gamer: etter noen år har du spart inn kostnaden.

RAM eller VRAM – derfor spiller det en rolle
Du trenger ikke et dyrt skjermkort for å kjøre AI lokalt, selv om mange tror det. Det stemmer, men ikke helt, for alle moderne språkmodeller kan kjøres på helt vanlig prosessor og maskinens RAM, akkurat som andre programmer. Forskjellen handler først og fremst om hastighet.
Kjører du modellene kun på CPU og vanlig RAM, vil de svare litt tregere, men de fungerer fortsatt helt fint til skriving, oppsummeringer, koding og dokumentanalyse. Et dedikert skjermkort med mye VRAM gjør derimot at alt går betydelig raskere og mer flytende, spesielt med større modeller.
Har du mye tradisjonell RAM, for eksempel 32 eller 48 GB RAM, kan du allerede kjøre ganske store modeller uten å oppgradere. Et kraftig skjermkort er først og fremst en komfort- og ytelsesoppgradering, ikke et krav for å komme i gang.
Hvilken PC trenger du for å kjøre AI lokalt?
I dag kan du faktisk komme langt med en helt vanlig PC. Vi skal vise deg hvor mye RAM/VRAM som er anbefalt for hvilke modeller, og hvilke modeller som er best på hva.
Vi må også skjønne hva 120b eller 20 b betyr. Når du ser slike modellnavn, så handler det ikke om versjonsnummer, men størrelse. Tallet viser hvor mange milliarder parametere modellen har, altså hvor «stor hjerne» den har. Jo høyere tall, desto mer avansert kan modellen være.

Startnivå: 8 – 16 GB RAM eller 6 til 8 GB VRAM – fungerer, men begrenset
- qwen3:4b
- qwen3:8b
- gemma3:4b
- deepseek-r1:8b
Dette er fint til korte spørsmål, oppsummeringer og enkel tekst, men kan ikke erstatte større skymodeller.
Best for mest: 24 – 32 GB RAM eller 8 til 12 GB VRAM – «sweet spot» for entusiaster
Med rundt 12 GB VRAM for eksempel RTX 3060 eller 4070 kan du kjøre 8B til 14B-modeller fullt i minnet.
- gemma3:12b
- gpt-oss:20b
- qwen3:14b
- qwen3-coder:14–30b
48 GB RAM eller mer
Med mye systemminne kan du kjøre store 27B til 30B-modeller selv uten enormt skjermkort. Det gir merkbart bedre kvalitet på svarene.
- gemma3:27b
- qwen3:30b
- qwen3-coder:30b
- gpt-oss:20b
En lokal AI er ikke perfekt – dette må du vite er forskjellene fra ChatGPT
Å kjøre språkmodeller lokalt gir deg full kontroll, men det er ikke helt det samme som å bruke tjenester som ChatGPT, Claude eller Gemini – ingenting er perfekt, spesielt ikke når det er gratis, men de to måtene har ganske forskjellige styrker og samtidige svakheter.
Med skybasert AI har man tilgang til de største og nyeste modellene som hele tiden oppgraderes, kobles til nettsøk og mer, inkludert samarbeidstjenester. Du får det beste med en gang til enhver tid, men alt du skrives sendes til et selskap.

En Lokal AI er helt motsatt: du kjører alt på din egen maskin. Dokumenter, kode og private data forlater aldri PC-en, du slipper abonnement, og du kan bruke modellen så mye du vil uten begrensninger eller kø. Til gjengjeld må du leve med litt tregere hastighet på svak maskinvare, og modellene er ofte mindre enn de aller største skyvariantene.
Dette gjør modellene ulike med egne styrker og svakheter, men vi mener det er lite å tape på å evt. teste en lokal-AI, og se om den gjør det du ønsker. Om ikke kan du jo prøve et av de rimeligere skybaserte AI-abonnementene for å sammenligne.


