🦙 Встановлення Ollama

Запускайте потужні ШІ-моделі на власному комп'ютері — безкоштовно, приватно та без інтернету. Ollama робить локальний ШІ простим як ніколи.

Чому варто обрати Ollama?

Шість причин, чому мільйони обирають локальні моделі замість хмарних сервісів

🆓

Повністю безкоштовно

Жодних підписок, жодних лімітів, жодних прихованих платежів. Завантажте модель — і вона ваша назавжди.

🔒

Дані залишаються на вашому комп'ютері

Ваші запити та відповіді never не передаються на сторонні сервери. Повна конфіденційність — ідеально для роботи з чутливими даними.

Швидко — моделі працюють локально

Жодних затримок мережі. Час відповіді залежить лише від вашого процесора чи GPU, а не від завантаженості хмарного сервера.

🌐

Не потрібен інтернет після завантаження

Одноразово завантажте модель — потім працюйте офлайн: в літаку, в поїзді, у кабінеті без Wi-Fi.

🔧

Прості команди: ollama run llama3

Жодних складних конфігурацій. Одна команда — і модель запущена. Інтерфейс терміналу або API — вибір за вами.

🔮

Qwen 3.6 — агента та кодування

Нове покоління Qwen для agentic coding та міркування. Розміри 27B та 35B — інтелект моделі на рівні GPT-4, але локально на вашому комп'ютері.

Популярні моделі

Найвідоміші моделі, доступні через Ollama — оберіть під свою задачу

🧠

DeepSeek R1

Розмір: 1.5B / 7B / 8B / 14B / 32B / 70B / 671B
Призначення: Міркування та аналіз, найкраща з відкритих reasoning-моделей
Команда: ollama run deepseek-r1

🦙

Llama 3.1

Розмір: 8B / 70B / 405B параметрів
Призначення: Загальне використання, розмови, аналіз тексту, tools
Команда: ollama run llama3.1

Gemma 4

Розмір: E2B / E4B / 12B / 26B (MoE) / 31B
Призначення: Vision+reasoning від Google, мультимодальність, працює на одному GPU
Команда: ollama run gemma4

🌊

Mistral Medium 3.5

Розмір: 128B
Призначення: Флагманська модель Mistral з vision, tools та thinking
Команда: ollama run mistral-medium-3.5

🔮

Qwen 3.6

Розмір: 27B / 35B
Призначення: Agentic coding, міркування, збереження контексту thinking
Команда: ollama run qwen3.6

💎

Kimi K2.6

Розмір: cloud only
Призначення: Агентна модель: кодування, дизайн, мультіагентні системи
Команда: ollama run kimi-k2.6

🧊

Granite 4.1

Розмір: 3B / 8B / 30B параметрів
Призначення: Підприємницька модель від IBM: код, RAG, tools, JSON
Команда: ollama run granite4.1

Nemotron 3 Ultra

Розмір: cloud only
Призначення: Модель NVIDIA для агентних workflows, tools та thinking
Команда: ollama run nemotron-3-ultra

🔬

DeepSeek V4 Flash

Розмір: 284B (13B activated), cloud only
Призначення: MoE-модель з 1M контекстом, швидкий reasoning
Команда: ollama run deepseek-v4-flash

💡 Порада: Повний каталог моделей з фільтрами за розміром та призначенням — на ollama.com/library.

Встановлення Ollama

Покрокові інструкції для Linux, macOS та Windows

🐧 Linux

  1. 1

    Встановіть Ollama через офіційний скрипт

    Відкрийте термінал і виконайте команду:

    bash
    curl -fsSL https://ollama.com/install.sh | sh
  2. 2

    Завантажте модель

    Після встановлення автоматично запуститься сервер. Тепер завантажте потрібну модель:

    bash
    ollama pull llama3.1
  3. 3

    Запустіть модель

    Почніть розмову з моделлю прямо в терміналі:

    bash
    ollama run llama3.1

🍎 macOS

  1. 1

    Встановіть через Homebrew (рекомендовано)

    Якщо у вас встановлено Homebrew:

    bash
    brew install ollama

    Або завантажте dmg-файл з ollama.com/download і перетягніть Ollama в Applications.

  2. 2

    Запустіть додаток Ollama

    Відкрийте Ollama з Applications — в меню-барі з'явиться іконка 🦙. Сервер запуститься автоматично.

  3. 3

    Завантажте та запустіть модель

    bash
    ollama pull llama3.1
    ollama run llama3.1

🪟 Windows

  1. 1

    Завантажте інсталятор

    Завантажте OllamaSetup.exe з ollama.com/download і запустіть інсталяцію.

  2. 2

    Запустіть Ollama

    Після встановлення відкрийте Ollama з меню Пуск. Сервер запуститься у системному треї.

  3. 3

    Завантажте та запустіть модель

    powershell
    ollama pull llama3.1
    ollama run llama3.1
⚠️ Альтернатива для Windows — WSL: Якщо ви користуєтесь WSL (Windows Subsystem for Linux), ви можете встановити Ollama всередині WSL через Linux-скрипт curl -fsSL https://ollama.com/install.sh | sh. Це дасть доступ до GPU через CUDA, якщо ваш драйвер NVIDIA це підтримує.

Основні команди

Все, що потрібно знати для початку роботи з Ollama

📋 ollama list — Список завантажених моделей

Показує всі моделі, які вже завантажені на вашому комп'ютері, з їхніми розмірами.

bash
$ ollama list
NAME            ID              SIZE    MODIFIED
llama3.1:8b     91d8e329d3f3    4.7 GB  3 days ago
mistral:7b      61e88e884f5c    4.1 GB  1 week ago
phi3:3.8b       a3s6f8e7d2b1    2.3 GB  2 hours ago

⬇️ ollama pull — Завантажити модель

Завантажує модель з бібліотеки на ваш комп'ютер. Вкажіть ім'я моделі:

bash
$ ollama pull llama3.1
pulling manifest
pulling 6a039... 100% ▕██████████▏ 4.7 GB/4.7 GB
verifying sha256
success!

🚀 ollama run — Запустити модель

Запускає інтерактивну сесію чату з моделлю у терміналі. Якщо модель ще не завантажена — автоматично завантажить її.

bash
$ ollama run llama3.1
>>> Привіт! Розкажи про себе.
Привіт! Я — модель Llama 3.1 від Meta...
>>> /bye

🗑️ ollama rm — Видалити модель

Видаляє завантажену модель з диска, звільняючи місце.

bash
$ ollama rm phi3
deleted phi3

🎨 Modelfile — Налаштування моделі

Створіть власну модель на основі існуючої з іншим системним промптом, параметрами та форматами:

modelfile
FROM llama3.1

# Встановіть системний промпт
SYSTEM Ти — українськомовний асистент. Відповідай українською.

# Параметри генерації
PARAM temperature 0.7
PARAM top_p 0.9

Створіть та запустіть кастомну модель:

bash
$ ollama create my-ukrainian -f Modelfile
$ ollama run my-ukrainian
💡 API: Ollama автоматично запускає HTTP API на http://localhost:11434. Ви можете надсилати запити з будь-якої мови програмування:
bash
curl http://localhost:11434/api/generate -d '{
  "model": "llama3.1",
  "prompt": "Розкажи жарт українською",
  "stream": false
}'

Ollama vs ChatGPT vs хмарні API

Порівняння трьох підходів до використання ШІ-моделей

Критерій Ollama 🦙 ChatGPT 💬 Хмарні API ☁️
💰 Вартість Безкоштовно Від $20/міс (Plus) Оплата за токен
🔒 Приватність 100% локально Дані на серверах OpenAI Дані на стороні провайдера
⚡ Швидкість (латентність) Мінімальна (локально) Залежить від мережі Залежить від мережі
🌐 Офлайн ✅ Так ❌ Ні ❌ Ні
🔧 Кастомізація ✅ Повна (Modelfile) ❌ Обмежена ❌ Мінімальна
🧠 Розмір моделі 1.5B–671B (локально) ~1T+ (хмарна) ~1T+ (хмарна)
🖥️ Вимоги до заліза Потрібен GPU/CPU + RAM Будь-який браузер Будь-який HTTP-клієнт
🔄 Оновлення моделей Вручну ollama pull Автоматично Автоматично
✅ Висновок: Ollama — найкращий вибір, якщо вам потрібні приватність, безкоштовність, офлайн-доступ або кастомізація. Хмарні сервіси виграють лише за розміром моделі та зручністю «з коробки».

Часті запитання

Відповіді на найпоширеніші питання про Ollama

CPU: Будь-який сучасний багатоядерний процесор (4+ ядер).

RAM: Мінімум 8 ГБ (16+ ГБ для моделей 13B+).

GPU (опціонально): NVIDIA з CUDA + 8+ ГБ VRAM значно прискорить генерацію. Моделі працюють і на CPU, але повільніше.

Диск: 5–50 ГБ вільного місця залежно від кількості моделей.

Так! Більшість сучасних моделей (Llama 3.1, Mistral, Gemma 2) добре розуміють і генерують український текст. Для найкращих результатів:

  • Вкажіть мову в системному промпті через Modelfile
  • Формулюйте запити чітко українською
  • Більші моделі (70B) розуміють українську краще за малі (7B)

Так! Ollama працює як сервер, тому ви можете підключити будь-який GUI-клієнт:

  • Open WebUI — веб-інтерфейс, схожий на ChatGPT
  • AnythingLLM — десктопний додаток з RAG
  • LMStudio — зручний GUI для локальних моделей
  • Chatbox — легкий клієнт для чату

Видалити: ollama rm назва_моделі — модель буде видалено з диска.

Оновити: ollama pull назва_моделі — якщо на сервері є новіша версія, вона буде завантажена. Старий шар залишається, поки на нього є посилання.

Так, Ollama автоматично використовує CPU, якщо GPU недоступний. Генерація буде повільнішою (2–10 токенів/с замість 20–80), але цілком придатною для роботи. Для кращої швидкості на CPU обирайте компактні моделі: Phi-3 (3.8B), Gemma 2 (2B), Qwen 2 (0.5B–1.5B).

Поділіться з друзями

👁 Переглядів: —