Kilo Code + Ollama: установка локальной модели gpt-oss на Windows Печать
Добавил(а) microsin   

В этом обзоре рассматривается процесс установки и запуска локальной модели ИИ gpt-oss:20b в конфигурации Ollama + Kilo Code на операционной системе Windows 11.

1. Загрузите установщик Ollama на Windows [2]:

Загрузится OllamaSetup.exe размером примерно 2 гигабайта. Запустите этот файл, начнется процесс распаковки и установки. После установки появится вот такое окно, которое предлагает запустить одну из систем ИИ, это окно можно закрыть, оно не понадобится:

Ollama select model AI dialog

В трее появится значок Ollama:

Ollama tree icon

2. Откройте окно терминала cmd.exe, и введите команду для загрузки модели (в этом примере загрузится локальная модель gpt-oss:20b):

ollama pull gpt-oss:20b

Замечание: команда ollama pull будет работать, когда Ollama запущена в фоновом режиме (о чем сигнализирует значок в трее). Если Ollama не запущена, то перед запуском команды ollama pull нужно запустить команду ollama serve.

Команда ollama pull запустит процесс загрузки модели, который может занять по времени несколько десятков минут (в зависимости от скорости сети).

Ollama pull gpt oss

Примечание: по умолчанию модель скачивается в каталог %USERPROFILE%\.ollama\models. Вы также можете выбрать другую модель для загрузки, в зависимости от доступной аппаратной конфигурации вашего компьютера [3].

3. Теперь можно сконфигурировать Kilo Code (подразумевается, что официальное расширение Kilo Code для VS Code вы уже установили). Откройте корневой каталог какого-нибудь вашего проекта, надо которым работаете. Запустите VS Code:

code .

4. Хотя документация Kilo Code указывает, что он поддерживает Ollama, на практике подключение локальных моделей может быть неочевидным из-за изменений в интерфейсе. Вот два основных способа настроить модель `gpt-oss:20b`:

Это самый простой метод, если вы используете расширение VS Code. Несмотря на то, что в интерфейсе нет отдельной кнопки "Ollama", последние версии Kilo Code позволяют добавить любого провайдера с API, совместимым с OpenAI. Ollama полностью соответствует этому стандарту.

1. Откройте боковую панель Kilo Code в VS Code и нажмите на иконку шестеренки (⚙️), чтобы открыть настройки.

Ollama Kilo Code setup1 Ollama Kilo Code setup2

2. Перейдите на вкладку "Providers". Прокрутите список популярных провайдеров в самый низ. Вы должны увидеть пункт "Custom provider" с кнопкой "Connect". Нажмите на неё.

3. В открывшемся окне заполните поля для вашего локального Ollama:

Provider ID: введите уникальный идентификатор, например, `my-ollama`.
Display name: введите любое понятное имя, например, `Мой локальный Ollama`.
Base URL: это самый важный шаг. Введите адрес вашего Ollama-сервера. По умолчанию это http://localhost:11434/v1 (обратите внимание на `/v1` на конце, так как Kilo ожидает OpenAI-совместимую конечную точку).
API Key: поле можно оставить пустым, так как локальному серверу не требуется ключ.
Models: после того как вы введете корректный `Base URL`, в списке Models введите "ID" (которое вы ввели в поле Provider ID) и "Name" (которое вы ввели в поле Display name) и нажмите на "Submit".

Ollama Kilo Code setup3

Ваш кастомный провайдер появится в списке.

4. Теперь в основном окне чата Kilo Code выберите в выпадающем списке моделей вашу новую модель `my-ollama/gpt-oss:20b`.

Ollama gpt oss select

Если по какой-то причине UI не работает или вы предпочитаете ручную настройку, вы можете отредактировать конфигурационный файл проекта или глобальные настройки Kilo Code.

1. Откройте командную палитру (`Ctrl+Shift+P` или `Cmd+Shift+P`) и найдите команду "Kilo Code: Open User Settings (JSON)".

2. Добавьте следующий блок в файл конфигурации kilo.jsonc. Это пример из официальной документации, адаптированный под вашу модель:

{
"$schema": "https://app.kilo.ai/config.json",
"model": "ollama/gpt-oss:20b",
"provider": {
"ollama": {
"options": {
"baseURL": "http://localhost:11434"
},
"models": {
"gpt-oss:20b": {
"name": "GPT-OSS 20B",
"tool_call": true, // Проверьте, поддерживает ли ваша модель вызов инструментов
"limit": {
"context": 32768, // Укажите реальный контекст вашей модели
"output": 8192 // Максимальное количество токенов в ответе
}
}
}
}
} }

Важный момент: в этом случае используется ID провайдера `ollama`, но на практике в текущих версиях расширения `Custom provider` работает надежнее.

[Другие вопросы, связанные с установкой Ollama]

● Модель не отвечает или подвисает после запроса "hi": ваша модель `gpt-oss:20b` может быть слишком большой для вашего оборудования (CPU), и ей требуется больше времени на "размышления". Kilo Code имеет жесткое ограничение таймаута в 300 секунд (5 минут) для API-запросов. Если модель не укладывается в это время, запрос будет прерван. Решением может быть использование более легкой модели или менее требовательной задачи для начала.

● Нет пункта "Custom provider": убедитесь, что у вас установлена последняя версия расширения Kilo Code. Эта функция активно добавлялась в марте-апреле 2026 года.

● Ошибка при попытке использовать провайдера "ollama": Некоторые пользователи сообщают, что встроенный провайдер Ollama может работать некорректно. В этом случае метод с `Custom provider`, описанный первым, является самым надёжным решением.

[Размер контекста]

По умолчанию Ollama обрезает промты до очень короткой длины, что обсуждается в документации [4]. Для получения приемлемых результатов вам потребуется как минимум 32 КБ памяти, но увеличение размера контекста повышает потребление памяти и может снизить производительность в зависимости от вашего оборудования.

Чтобы настроить контекстное окно, установите параметр "Размер контекстного окна (num_ctx)" ("Context Window Size (num_ctx)") в настройках поставщика API.

Как это сделать: откройте окно настроек Ollama (доступное через значок в трее), и ползунком Context length установите желаемый размер:

Ollama Context Window Size

[Таймаут]

По умолчанию таймаут запросов (API requests) наступит после истечения 10 минут. Локальные модели могут довольно медленно обрабатывать запросы, так что если вы сталкиваетесь с таймаутом, то можете его увеличить через панель расширений VS Code Extensions -> Kilo Code gear menu -> Settings -> API Request Timeout.

К сожалению, судя по доступной документации, расширение Kilo Code не имеет встроенной функции автоматического сохранения каждого диалога в файл с именем типа `.kilo/YYMMDDhhmmss_dialog.txt`.

Однако вы можете добиться цели (иметь сохраняемую историю переписки) двумя способами. Самый надёжный из них описан первым.

Способ 1: использование «Рабочих чатов» (Workspace Chats) — рекомендуемый.

Это встроенная функция Kilo Code для долгосрочного хранения разговоров в рамках проекта. Это самый близкий аналог того, что вы хотите, и он работает стабильно.

1. Создайте рабочий чат: начиная новый разговор о вашем проекте, используйте опцию «New Workspace Chat» (обычно это значок `+` на боковой панели Kilo Code).

2. Назовите сессию: дайте чату осмысленное имя, например `2026-05-30_ollama-debug` или `Настройка_модели_30_05_26`.

3. История сохранится автоматически: все чаты, связанные с вашей рабочей областью VS Code, автоматически сохраняются расширением. Вы можете в любой момент вернуться к любому прошлому разговору через панель истории чатов.

4. Где лежат файлы (необязательно): точное место хранения этих файлов в документации не указано, и доступ к ним для пользователя не предусмотрен. Расширение управляет ими само. Возможность экспортировать чат в файл — это известный запрос пользователей, но на данный момент он не реализован.

Способ 2: ручной экспорт.

Это единственный способ напрямую получить текст диалога в файл, который вы контролируете. Но он полностью ручной.

1. Выделите и скопируйте: Когда диалог дойдёт до нужного момента, просто выделите весь текст в панели чата и скопируйте его (`Ctrl+C` / `Cmd+C`).

2. Создайте файл вручную: в проводнике VS Code или в терминале создайте нужную папку (`.kilo/`) и файл с именем по вашему шаблону (например, `20260530143000_dialog.md`).

3. Вставьте и сохраните: вставьте скопированный диалог в новый файл и сохраните его (`Ctrl+S` / `Cmd+S`).

Почему нет автоматического сохранения в файлы. Согласно документации, Kilo Code построен вокруг более структурированной модели данных, а не простых текстовых файлов для истории:

● Централизованная конфигурация: все настройки хранятся в одном файле `kilo.jsonc`. История сессий сохраняется во внутреннем состоянии расширения, чтобы поддерживать такие функции, как возобновление старых чатов.
● Система плагинов: расширение имеет архитектуру, позволяющую создавать плагины. Отсутствие встроенной функции авто-экспорта говорит о том, что она не является приоритетной для разработчиков.

Итог: для вашей задачи лучшая стратегия — использовать «Рабочие чаты» как основной метод. Это даст вам надёжную постоянную историю без какой-либо ручной работы.

Если же вам абсолютно необходим обычный текстовый файл именно в папке .kilo/ с именем по шаблону, вам придётся каждый раз копировать и вставлять диалог вручную.

Как альтернативу, вы можете поискать в маркете расширений VS Code или на GitHub-странице Kilo Code плагин сообщества, который добавляет функцию авто-экспорта чатов, может кто-то это уже реализовал.

Если ваша модель Ollama не видна в диалоге выбора модели (Kilo model picker), зарегистрируйте модель в с своем файле конфигурации kilo.jsonc:

{
"model": "ollama/my-finetune:latest",
"provider": {
"ollama": {
"models": {
"my-finetune:latest": {
"name": "My Fine-tuned Model",
"tool_call": true,
"limit": {
"context": 32768,
"output": 8192,
},
},
},
},
}, }

Впечатления от модели gpt-oss:20b: работает шустренько, быстрее чем облачная. Но тупая... Постоянно тыкать носом её надо и направлять, путается с простейшими задачами.

См. Custom Models [5] для дополнительной информации по конфигурируемым полям и примерам. Также см. официальную документацию Ollama на предмет установки, конфигурирования и использования Ollama.

[Ссылки]

1. Using Ollama With Kilo Code.
2. Download Ollama.
3. Kilo Code: выбор конфигурации для домашнего компьютера.
4. How can I specify the context window size?
5. Kilo Custom Models.
6. Ollama's documentation.