Таймауты, токены и расход контекста

Как устроены ограничения при работе с моделями: что такое токены, почему ответ может обрываться или прерываться по таймауту, как большой контекст влияет на стоимость и скорость, и что делать.

1Токены и контекст — простыми словами

Модели считают и оплачивают работу в «токенах» (примерно части слов; для русского текста токенов на тот же текст обычно больше, чем для английского). В каждый запрос входят: системная инструкция, контекст проекта (описание, tone of voice, аудитория, запреты, маркетинговый и доп. контекст, текст файлов-контекста), сам материал/тема и затем ответ модели. Чем больше входной контекст и длиннее ответ — тем больше токенов и тем дороже и медленнее запрос.

2Таймаут запроса

Если модель не отвечает за отведённое время, запрос прерывается, и в журнале «Запросы к моделям» появляется «Ошибка: The operation was aborted due to timeout». Это не ответ модели, а защита от зависаний. По умолчанию лимит — 45 секунд; он настраивается администратором через переменную окружения LLM_TIMEOUT_MS. Частые причины: медленная или «думающая» модель, очень большой промпт, перегрузка провайдера, проблемы сети до API.

3Лимит длины ответа (обрыв на полуслове)

У ответа модели есть лимит длины в токенах (max_tokens). Если ответ в него не помещается, он обрывается — в журнале видно, что текст заканчивается на полуслове. Для обычных постов лимита хватает; для длинных структурных ответов (например, «Улучшить проект» или импорт из сайта) сервис запрашивает увеличенный лимит. Если вы всё же видите обрыв — сократите контекст или выберите модель с большим лимитом ответа.

4Большой контекст = больше расход и медленнее

Внимание: всё, что лежит в контексте проекта, отправляется модели при КАЖДОЙ генерации. Длинные «Доп. контекст» и «Маркетинговый контекст», а также загруженные файлы (.md/.pdf, до ~20 000 символов с файла) увеличивают каждый запрос — это повышает расход токенов (деньги) и время ответа, а также приближает таймаут. Несколько больших файлов на проект могут заметно удорожить регулярную генерацию.

5Как выйти из ситуации

1) Сократите контекст: уберите лишние или объёмные файлы-контекст, ужмите «Доп.»/«Маркетинговый контекст» до сути. 2) Выберите более быструю/лёгкую модель (например, lite-режим) в настройках проекта. 3) Если ответы реально длинные — попросите администратора поднять LLM_TIMEOUT_MS. 4) Проверьте, что задан рабочий ключ выбранной модели (Профиль → ключи) и есть доступ к API. 5) Повторите попытку позже, если провайдер был перегружен.

6Контроль расходов на токены

Чтобы расходы были предсказуемыми: задайте «Лимиты генерации» (черновиков за сутки и за 7 дней) в настройках проекта — при достижении лимита генерация приостанавливается. Следите за разделом «Запросы к моделям»: там виден каждый реальный вызов с запросом и ответом — удобно оценить объём и найти раздутые промпты. Держите контекст лаконичным: качество промпта важнее его длины.

Не нашли ответ? Напишите нам — поможем.

Связаться с поддержкой