Запускайте потужні ШІ-моделі на власному комп'ютері — безкоштовно, приватно та без інтернету. Ollama робить локальний ШІ простим як ніколи.
Шість причин, чому мільйони обирають локальні моделі замість хмарних сервісів
Жодних підписок, жодних лімітів, жодних прихованих платежів. Завантажте модель — і вона ваша назавжди.
Ваші запити та відповіді never не передаються на сторонні сервери. Повна конфіденційність — ідеально для роботи з чутливими даними.
Жодних затримок мережі. Час відповіді залежить лише від вашого процесора чи GPU, а не від завантаженості хмарного сервера.
Одноразово завантажте модель — потім працюйте офлайн: в літаку, в поїзді, у кабінеті без Wi-Fi.
ollama run llama3Жодних складних конфігурацій. Одна команда — і модель запущена. Інтерфейс терміналу або API — вибір за вами.
Нове покоління Qwen для agentic coding та міркування. Розміри 27B та 35B — інтелект моделі на рівні GPT-4, але локально на вашому комп'ютері.
Найвідоміші моделі, доступні через Ollama — оберіть під свою задачу
Розмір: 1.5B / 7B / 8B / 14B / 32B / 70B / 671B
Призначення: Міркування та аналіз, найкраща з відкритих reasoning-моделей
Команда: ollama run deepseek-r1
Розмір: 8B / 70B / 405B параметрів
Призначення: Загальне використання, розмови, аналіз тексту, tools
Команда: ollama run llama3.1
Розмір: E2B / E4B / 12B / 26B (MoE) / 31B
Призначення: Vision+reasoning від Google, мультимодальність, працює на одному GPU
Команда: ollama run gemma4
Розмір: 128B
Призначення: Флагманська модель Mistral з vision, tools та thinking
Команда: ollama run mistral-medium-3.5
Розмір: 27B / 35B
Призначення: Agentic coding, міркування, збереження контексту thinking
Команда: ollama run qwen3.6
Розмір: cloud only
Призначення: Агентна модель: кодування, дизайн, мультіагентні системи
Команда: ollama run kimi-k2.6
Розмір: 3B / 8B / 30B параметрів
Призначення: Підприємницька модель від IBM: код, RAG, tools, JSON
Команда: ollama run granite4.1
Розмір: cloud only
Призначення: Модель NVIDIA для агентних workflows, tools та thinking
Команда: ollama run nemotron-3-ultra
Розмір: 284B (13B activated), cloud only
Призначення: MoE-модель з 1M контекстом, швидкий reasoning
Команда: ollama run deepseek-v4-flash
Покрокові інструкції для Linux, macOS та Windows
Відкрийте термінал і виконайте команду:
curl -fsSL https://ollama.com/install.sh | sh
Після встановлення автоматично запуститься сервер. Тепер завантажте потрібну модель:
ollama pull llama3.1
Почніть розмову з моделлю прямо в терміналі:
ollama run llama3.1
Якщо у вас встановлено Homebrew:
brew install ollama
Або завантажте dmg-файл з ollama.com/download і перетягніть Ollama в Applications.
Відкрийте Ollama з Applications — в меню-барі з'явиться іконка 🦙. Сервер запуститься автоматично.
ollama pull llama3.1
ollama run llama3.1
Завантажте OllamaSetup.exe з ollama.com/download і запустіть інсталяцію.
Після встановлення відкрийте Ollama з меню Пуск. Сервер запуститься у системному треї.
ollama pull llama3.1
ollama run llama3.1
curl -fsSL https://ollama.com/install.sh | sh. Це дасть доступ до GPU через CUDA, якщо ваш драйвер NVIDIA це підтримує.
Все, що потрібно знати для початку роботи з Ollama
ollama list — Список завантажених моделейПоказує всі моделі, які вже завантажені на вашому комп'ютері, з їхніми розмірами.
$ ollama list
NAME ID SIZE MODIFIED
llama3.1:8b 91d8e329d3f3 4.7 GB 3 days ago
mistral:7b 61e88e884f5c 4.1 GB 1 week ago
phi3:3.8b a3s6f8e7d2b1 2.3 GB 2 hours ago
ollama pull — Завантажити модельЗавантажує модель з бібліотеки на ваш комп'ютер. Вкажіть ім'я моделі:
$ ollama pull llama3.1
pulling manifest
pulling 6a039... 100% ▕██████████▏ 4.7 GB/4.7 GB
verifying sha256
success!
ollama run — Запустити модельЗапускає інтерактивну сесію чату з моделлю у терміналі. Якщо модель ще не завантажена — автоматично завантажить її.
$ ollama run llama3.1
>>> Привіт! Розкажи про себе.
Привіт! Я — модель Llama 3.1 від Meta...
>>> /bye
ollama rm — Видалити модельВидаляє завантажену модель з диска, звільняючи місце.
$ ollama rm phi3
deleted phi3
Створіть власну модель на основі існуючої з іншим системним промптом, параметрами та форматами:
FROM llama3.1
# Встановіть системний промпт
SYSTEM Ти — українськомовний асистент. Відповідай українською.
# Параметри генерації
PARAM temperature 0.7
PARAM top_p 0.9
Створіть та запустіть кастомну модель:
$ ollama create my-ukrainian -f Modelfile
$ ollama run my-ukrainian
http://localhost:11434. Ви можете надсилати запити з будь-якої мови програмування:
curl http://localhost:11434/api/generate -d '{
"model": "llama3.1",
"prompt": "Розкажи жарт українською",
"stream": false
}'
Порівняння трьох підходів до використання ШІ-моделей
| Критерій | Ollama 🦙 | ChatGPT 💬 | Хмарні API ☁️ |
|---|---|---|---|
| 💰 Вартість | Безкоштовно | Від $20/міс (Plus) | Оплата за токен |
| 🔒 Приватність | 100% локально | Дані на серверах OpenAI | Дані на стороні провайдера |
| ⚡ Швидкість (латентність) | Мінімальна (локально) | Залежить від мережі | Залежить від мережі |
| 🌐 Офлайн | ✅ Так | ❌ Ні | ❌ Ні |
| 🔧 Кастомізація | ✅ Повна (Modelfile) | ❌ Обмежена | ❌ Мінімальна |
| 🧠 Розмір моделі | 1.5B–671B (локально) | ~1T+ (хмарна) | ~1T+ (хмарна) |
| 🖥️ Вимоги до заліза | Потрібен GPU/CPU + RAM | Будь-який браузер | Будь-який HTTP-клієнт |
| 🔄 Оновлення моделей | Вручну ollama pull |
Автоматично | Автоматично |
Відповіді на найпоширеніші питання про Ollama
CPU: Будь-який сучасний багатоядерний процесор (4+ ядер).
RAM: Мінімум 8 ГБ (16+ ГБ для моделей 13B+).
GPU (опціонально): NVIDIA з CUDA + 8+ ГБ VRAM значно прискорить генерацію. Моделі працюють і на CPU, але повільніше.
Диск: 5–50 ГБ вільного місця залежно від кількості моделей.
Так! Більшість сучасних моделей (Llama 3.1, Mistral, Gemma 2) добре розуміють і генерують український текст. Для найкращих результатів:
Так! Ollama працює як сервер, тому ви можете підключити будь-який GUI-клієнт:
Видалити: ollama rm назва_моделі — модель буде видалено з диска.
Оновити: ollama pull назва_моделі — якщо на сервері є новіша версія, вона буде завантажена. Старий шар залишається, поки на нього є посилання.
Так, Ollama автоматично використовує CPU, якщо GPU недоступний. Генерація буде повільнішою (2–10 токенів/с замість 20–80), але цілком придатною для роботи. Для кращої швидкості на CPU обирайте компактні моделі: Phi-3 (3.8B), Gemma 2 (2B), Qwen 2 (0.5B–1.5B).