Kód skopírovaný do schránky!

Spustite AI modely lokálne pomocou Ollama

Jednoduchý návod na inštaláciu a prevádzkovanie Ollama na Windows 10/11 a Debian/Ubuntu systémoch

Čo je Ollama?

Ollama je nástroj, ktorý umožňuje spúšťať LLM (Large Language Models) modely lokálne na vašom počítači. To znamená, že môžete využívať silu AI bez potreby internetového pripojenia a bez odosielania vašich dát externým službám.

Vďaka Ollama môžete jednoducho sťahovať, spúšťať a používať rôzne modely ako Gemma, Phi a mnoho ďalších, ktoré sú optimalizované aj pre bežný hardware.

Hardvérové požiadavky

Pre bezproblémový chod menších modelov v Ollama budete potrebovať:

  • RAM: minimálne 8GB, odporúčané 16GB
  • GPU: nie je nutné, ale NVIDIA GPU s aspoň 4GB VRAM výrazne zrýchli inferenčný čas
  • Disk: aspoň 10GB voľného miesta (závisí od veľkosti modelov)
  • CPU: moderný CPU s aspoň 4 jadrami

Inštalácia na Windows 10/11

Ollama pre Windows je dostupný ako jednoduchý inštalátor:

  1. Navštívte oficiálnu stránku https://ollama.com/download

  2. Stiahnite inštalátor pre Windows

  3. Spustite stiahnutý .exe súbor a postupujte podľa inštalačných pokynov

  4. Po inštalácii by sa mal Ollama spustiť automaticky a objaví sa v systémovom paneli

Poznámka: Na Windows 10/11 je Ollama dostupný ako GUI aplikácia, takže väčšina interakcií prebieha cez grafické rozhranie.

Konfigurácia GPU akcelerácie (voliteľné)

Pre využitie NVIDIA GPU (ak ju máte):

  1. Uistite sa, že máte nainštalované najnovšie NVIDIA ovládače
  2. Nainštalujte CUDA Toolkit 11.8 alebo novší z NVIDIA stránky

Inštalácia na Debian/Ubuntu

Pre inštaláciu Ollama na Debian alebo Ubuntu systémoch:

# Inštalácia cez oficiálny skript curl -fsSL https://ollama.com/install.sh | sh

Alternatívne môžete Ollama nainštalovať manuálne:

# Stiahnite najnovšiu verziu wget https://github.com/ollama/ollama/releases/latest/download/ollama-linux-amd64 # Nastavte práva na spustenie chmod +x ollama-linux-amd64 # Presuňte do /usr/local/bin pre globálny prístup sudo mv ollama-linux-amd64 /usr/local/bin/ollama

Spustenie Ollama na pozadí ako služby:

# Vytvorenie systemd služby sudo tee /etc/systemd/system/ollama.service > /dev/null << 'EOF' [Unit] Description=Ollama Service After=network.target [Service] ExecStart=/usr/local/bin/ollama serve Restart=always User=$USER Environment="HOME=/home/$USER" [Install] WantedBy=default.target EOF # Povolenie a spustenie služby sudo systemctl enable ollama sudo systemctl start ollama

Konfigurácia GPU akcelerácie na Linuxe (voliteľné)

Pre NVIDIA GPU:

# Inštalácia NVIDIA ovládačov sudo apt update sudo apt install -y nvidia-driver-545 nvidia-cuda-toolkit

Odporúčané modely s nízkymi nárokmi

Nasledujúce modely sú vhodné pre systémy s obmedzenými zdrojmi (najviac 16GB RAM):

Gemma3 4b

Menší model od Google vhodný pre základné úlohy.

  • Veľkosť: ~4GB
  • RAM: 6-8GB
  • Príkaz na stiahnutie:
ollama pull gemma3:4b

Phi-2

Microsoft model s dobrou rovnováhou medzi výkonom a nárokmi.

  • Veľkosť: ~2.7GB
  • RAM: 6-8GB
  • Príkaz na stiahnutie:
ollama pull phi

Llama 3 8B

Menšia verzia populárneho Llama 3 modelu od Meta.

  • Veľkosť: ~4.7GB
  • RAM: 8-12GB
  • Príkaz na stiahnutie:
ollama pull llama3:8b

Tinyllama

Ultra-kompaktný model pre systémy s obmedzenými zdrojmi.

  • Veľkosť: ~1.1GB
  • RAM: 4-6GB
  • Príkaz na stiahnutie:
ollama pull tinyllama

Použitie Ollama

Základné príkazy

Stiahnutie a spustenie modelu:

# Stiahnutie modelu ollama pull gemma:2b # Spustenie chatu s modelom ollama run gemma:2b

Zoznam všetkých dostupných modelov:

ollama list

Zmazanie modelu:

ollama rm gemma:2b

Použitie API

Ollama poskytuje jednoduché REST API, ktoré môžete použiť vo vlastných aplikáciách:

# Príklad cURL požiadavky curl -X POST http://localhost:11434/api/generate -d '{ "model": "gemma:2b", "prompt": "Vysvetli, čo je to umelá inteligencia." }'

Príklad v PHP:

<?php $data = [ 'model' => 'gemma:2b', 'prompt' => 'Vysvetli, čo je to umelá inteligencia.' ]; $options = [ 'http' => [ 'method' => 'POST', 'header' => 'Content-Type: application/json', 'content' => json_encode($data) ] ]; $context = stream_context_create($options); $result = file_get_contents('http://localhost:11434/api/generate', false, $context); $response = json_decode($result, true); echo $response['response']; ?>

Webové rozhranie

Pre jednoduchšie používanie môžete využiť neoficiálne webové rozhranie OpenWebUI:

# Inštalácia cez Docker docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main

Po inštalácii navštívte http://localhost:3000 a pripojte sa k vášmu Ollama serveru.

Časté otázky (FAQ)

Uistite sa, že máte nainštalované správne NVIDIA ovládače a CUDA. Na Windows môžete skontrolovať, či je GPU detekovaná príkazom nvidia-smi v príkazovom riadku. Na Linuxe môžete vyskúšať príkaz ollama serve s premennou OLLAMA_USE_CUDA=1.

Závisí od modelov, ktoré chcete používať. Menšie modely ako Phi-2 alebo Gemma 2B potrebujú 2-4GB, zatiaľ čo väčšie modely môžu vyžadovať 10-20GB alebo viac.

Áno, akonáhle model stiahnete, Ollama funguje úplne offline. Jedinou výnimkou sú modely, ktoré pre svoju funkcionalitu vyžadujú externé API (napr. pre vyhľadávanie).

Obsah

Rýchle tipy
  • Menšie modely fungujú rýchlejšie na slabšom hardware
  • GPU významne zrýchli generovanie odpovedí
  • Pre najlepší výkon na CPU používajte quantizované modely (označené ako :q4_K_M)