SYSTEM ONLINE · build / v1.0 · region / RU · CIS · last index sync / 04.06.2026 / 13:09 UTC
· войти →
cyber-index.ru
исследование 3 июня 2026

AI TRiSM и LLM Security: как защитить модели от prompt injection

AI TRiSM (Trust, Risk and Security Management — управление доверием, рисками и безопасностью ИИ) — это не один продукт, а дисциплина и набор практик, которые делают внедрение языковых моделей (LLM) управляемым и безопасным. Она отвечает на простой вопрос: как пускать большие языковые модели в продакшен так, чтобы они не сливали данные, не выполняли чужие инструкции и не выдавали выдуманные факты за правду. **Если коротко:** у LLM свой класс угроз — prompt injection (внедрение инструкций), утечка конфиденциальных данных, jailbreak (обход ограничений) и галлюцинации. Их нельзя закрыть одним межсетевым экраном: нужна многослойная защита — guardrails (фильтры на входе и выходе), разграничение доступа, проверка ответов и мониторинг. Ниже разбираем, что входит в AI TRiSM, какие угрозы из [OWASP Top 10 для LLM](https://owasp.org/www-project-top-10-for-large-language-model-applications/) встречаются чаще всего, какой контрмерой закрывается каждая, и как выглядит чек-лист безопасного внедрения. Сравнить поставщиков по подтверждённым сигналам можно в [рейтинге AI и LLM Security](/rating/ai-llm-security).

10 мин. чтения Блоки данных: 6 Позиции: не продаются Авторы: Ирина Карпова
shortlist

Рейтинги подрядчиков по теме исследования

Если после чтения нужен короткий список исполнителей, начните с профильных рейтингов cyber-index.ru: в них видны компании, кейсы, интервью, категории экспертизы и доверительный индекс.

methodology

Как проверять выводы исследования

Используйте материал как основу для shortlist: сопоставьте выводы с профилями компаний, связанными рейтингами, кейсами, интервью клиентов и источниками. Если в статье есть список источников, начинайте проверку с него; если источников мало, дополнительно запросите у подрядчика методику, baseline и примеры работ.

E-E-A-T

Авторы и проверка материала

У каждого исследования есть персональные авторы, профиль экспертизы, дата публикации, список источников и редакционная проверка выводов.

Experience

Авторы закреплены по теме исследования и опираются на практические разборы страниц, кейсов, источников и рыночных выборок.

Expertise

В профиле автора указаны зона экспертизы, роль в редакции, регалии и темы, за которые он отвечает.

Authoritativeness

Материалы связаны с методологией cyber-index.ru, внутренними рейтингами, карточками компаний и источниками.

Trust

Позиции не продаются, выводы отделены от рекламы, а проверяемые утверждения поддержаны источниками и датами обновления.

Что такое AI TRiSM простыми словами

AI TRiSM — это рамка управления ИИ-системами, охватывающая четыре связки: доверие (trust), риск (risk), безопасность (security) и управление (management). Идея в том, что модель в продакшене — это не «чёрный ящик, который что-то отвечает», а актив, который нужно контролировать на всех слоях: данные, сама модель, приложение-обёртка и взаимодействие с пользователем.

На практике AI TRiSM раскладывается на несколько рабочих направлений:

- **Объяснимость и прозрачность.** Понимать, почему модель выдала такой ответ, и уметь это показать аудиту и регулятору. - **ModelOps / жизненный цикл.** Версионирование моделей и промптов, контроль качества, откат при деградации. - **Безопасность приложения и данных.** Защита от специфичных для LLM атак, разграничение доступа, контроль того, какие данные попадают в модель и из неё. - **Управление рисками и комплаенс.** Оценка рисков использования ИИ, политики, журналы, соответствие требованиям к обработке персональных данных и отраслевым нормам.

LLM Security — это «безопасность» внутри этой рамки: конкретные угрозы языковых моделей и контрмеры против них. Именно на ней мы дальше и сосредоточимся.

AI TRiSM и LLM Security: коротко в цифрах

Уровней защиты 4

Данные, модель, приложение-обёртка, взаимодействие с пользователем

Топ-угроз LLM 10

По классификации OWASP Top 10 для LLM-приложений

Точек контроля 2

Фильтрация на входе (промпт) и на выходе (ответ модели)

База для комплаенса реестры

Реестр отечественного ПО и реестр сертифицированных СЗИ ФСТЭК

Главные угрозы LLM: prompt injection, утечки, jailbreak, галлюцинации

У языковых моделей нет жёсткой границы между «инструкцией» и «данными»: и то и другое — просто текст. Отсюда вырастает большинство специфичных угроз. Опираемся на классификацию [OWASP Top 10 для LLM](https://owasp.org/www-project-top-10-for-large-language-model-applications/) и выделяем четыре, с которыми сталкиваются чаще всего:

- **Prompt injection (внедрение инструкций).** Злоумышленник прячет команды в тексте — в сообщении пользователя или в данных, которые модель читает (письмо, веб-страница, документ в RAG). Модель воспринимает их как легитимную инструкцию и, например, игнорирует системный промпт или выдаёт то, что не должна. Бывает прямой (в запросе) и непрямой (через внешний контент). - **Утечка чувствительных данных.** Модель может выдать в ответе персональные данные, коммерческую тайну, фрагменты обучающей выборки или содержимое системного промпта. Риск растёт, когда в контекст подмешиваются внутренние документы без разграничения доступа. - **Jailbreak (обход ограничений).** Специально сконструированные запросы заставляют модель обойти встроенные правила безопасности и сгенерировать запрещённый или вредный контент. По сути — частный, «лобовой» случай prompt injection против правил модели. - **Галлюцинации.** Модель уверенно выдаёт правдоподобный, но неверный ответ — выдуманные факты, ссылки, цифры. Для бизнес-сценариев (поддержка, юридические или медицинские подсказки) это прямой источник ошибок и репутационных рисков.

К этому списку OWASP добавляет и другие риски: отравление обучающих данных, небезопасную обработку выводов модели нижестоящими системами, чрезмерные полномочия ИИ-агента (excessive agency), уязвимости плагинов и цепочки поставки моделей. Полный разбор — в статье [OWASP Top 10 для LLM](/research/owasp-top-10-llm-ugrozy).

Угрозы LLM: относительная распространённость в реальных внедрениях

Редакционная оценка частоты встречаемости класса угроз по открытым материалам и классификации OWASP. Это не статистика инцидентов и не вендорский бенчмарк, а ориентир для приоритизации защиты.

Prompt injection (прямой и непрямой) 90 /100
90 /100
Галлюцинации и недостоверные ответы 85 /100
85 /100
Утечка чувствительных данных 75 /100
75 /100
Jailbreak / обход ограничений 70 /100
70 /100
Небезопасная обработка вывода модели 55 /100
55 /100
Чрезмерные полномочия ИИ-агента 45 /100
45 /100

Guardrails и контрмеры: как строится защита LLM

Защита языковой модели — многослойная. Ни один отдельный механизм не закрывает все угрозы, поэтому контрмеры выстраивают по принципу эшелонированной обороны: на входе, на выходе и вокруг модели.

- **Guardrails на входе.** Фильтрация и нормализация запроса: распознавание попыток prompt injection и jailbreak, отсечение запрещённых тем, проверка вложенного во внешний контент. Сюда же — изоляция пользовательского ввода от системных инструкций. - **Guardrails на выходе.** Проверка ответа до того, как он уйдёт пользователю или в смежную систему: маскирование персональных данных (PII), отсев токсичного контента, валидация формата, контроль на утечку системного промпта. - **Разграничение доступа и контекста.** Модель видит только те данные, к которым у конкретного пользователя есть права; RAG-источники фильтруются по правам доступа, а не «всё всем». - **Снижение галлюцинаций.** Привязка ответов к проверяемым источникам (grounding/RAG), требование цитат, оценка уверенности, человек в контуре (human-in-the-loop) для критичных решений. - **Ограничение полномочий агента.** Принцип наименьших привилегий для инструментов и плагинов, подтверждение опасных действий, журналирование вызовов. - **Мониторинг и журналы.** Логирование промптов и ответов, обнаружение аномалий, алерты, обратная связь для дообучения фильтров — основа для аудита и комплаенса.

Угроза → контрмера: таблица соответствия

Угроза LLM Что происходит Базовая контрмера Слой защиты
Prompt injection (прямой) Команды в запросе подменяют системную инструкцию Изоляция ввода, input-guardrails, детектирование инъекций Вход
Prompt injection (непрямой) Инструкции спрятаны во внешнем контенте (RAG, письма, сайты) Санитизация и разметка источников, недоверие к внешнему тексту Вход / данные
Утечка данных Модель выдаёт PII, тайны, системный промпт Маскирование PII на выходе, разграничение доступа к контексту Выход / данные
Jailbreak Запрос обходит встроенные правила безопасности Усиленные guardrails, ред-тиминг, классификатор запрещённых тем Вход / выход
Галлюцинации Уверенный, но недостоверный ответ Grounding/RAG, цитаты, human-in-the-loop, оценка уверенности Модель / процесс
Небезопасная обработка вывода Ответ модели исполняется смежной системой как код/команда Валидация и экранирование вывода, sandbox Выход / интеграция
Чрезмерные полномочия агента Агент выполняет лишние или опасные действия Наименьшие привилегии, подтверждение действий, журналы Приложение

Чек-лист безопасного внедрения LLM

Классифицируйте данные определите, какие данные модель может видеть и отдавать, и где проходит граница конфиденциальности.
Изолируйте ввод от инструкций отделяйте пользовательский текст и внешний контент от системного промпта.
Поставьте input-guardrails детектирование prompt injection, jailbreak и запрещённых тем на входе.
Поставьте output-guardrails маскирование PII, фильтр токсичности, контроль утечки системного промпта на выходе.
Разграничьте доступ к контексту RAG-источники и инструменты доступны строго по правам пользователя.
Снизьте галлюцинации привязка к источникам, цитаты и human-in-the-loop для критичных решений.
Ограничьте полномочия агента наименьшие привилегии для плагинов и подтверждение опасных действий.
Включите мониторинг и журналы логируйте промпты, ответы и аномалии для аудита и реагирования.
Проведите ред-тиминг проверьте систему атаками до запуска, а не после инцидента.
Сверьте комплаенс статус ПО в реестре и сертификация под требования регулятора и обработку ПДн.

Как внедрить AI TRiSM: 6 шагов

  1. 01 Инвентаризация ИИ-сценариев

    Перечислите, где и зачем используются LLM, какие данные в них попадают и кто к ним обращается.

  2. 02 Оценка рисков

    Сопоставьте каждый сценарий с угрозами OWASP Top 10 для LLM и зафиксируйте критичность.

  3. 03 Проектирование guardrails

    Определите фильтры на входе и выходе, политики доступа и правила работы с источниками.

  4. 04 Пилот и ред-тиминг

    Разверните защиту на ограниченном сценарии, атакуйте её сами, замерьте ложные срабатывания.

  5. 05 Мониторинг и реагирование

    Подключите журналирование, алерты и процесс разбора инцидентов с LLM.

  6. 06 Управление жизненным циклом

    Версионируйте модели и промпты, пересматривайте риски при обновлениях, документируйте для аудита.

Как мы оцениваем поставщиков

cyber-index.ru не продаёт места в рейтинге. Решения AI Security и LLM Security сравниваются по проверяемым сигналам: подтверждённые внедрения и кейсы, отзывы и интервью клиентов, внешняя репутация, специализация, прозрачность и свежесть данных. Поэтому статью стоит читать в связке с [рейтингом AI и LLM Security](/rating/ai-llm-security): здесь — понятия и угрозы, там — сравнение конкретных компаний по подтверждённым фактам.

Следующий шаг

Разобрались с понятиями и угрозами — переходите к сравнению поставщиков: **[рейтинг AI и LLM Security →](/rating/ai-llm-security)**. Полезно прочитать рядом: [как выбрать платформу AI Security и guardrails](/research/kak-vybrat-ai-security-platformu), [рейтинг решений AI Security и LLM Security 2026](/research/reyting-ai-llm-security-2026) и [OWASP Top 10 для LLM: разбор угроз и контрмер](/research/owasp-top-10-llm-ugrozy).

Частые вопросы

Чем AI TRiSM отличается от LLM Security?

AI TRiSM — это широкая рамка управления ИИ: доверие, риск, безопасность и управление жизненным циклом моделей. LLM Security — её часть, посвящённая конкретным угрозам языковых моделей (prompt injection, утечки, jailbreak, галлюцинации) и контрмерам против них.

Что такое prompt injection и почему его трудно закрыть?

Это атака, при которой вредоносные инструкции прячутся в тексте запроса или во внешних данных, и модель выполняет их как легитимные. Сложность в том, что для LLM инструкция и данные — один и тот же текст, поэтому одной проверкой это не лечится: нужны изоляция ввода, guardrails и недоверие к внешнему контенту.

Можно ли полностью убрать галлюцинации?

Полностью — нет, но их частоту и последствия снижают: привязкой ответов к проверяемым источникам (RAG/grounding), требованием цитат, оценкой уверенности и участием человека в контуре для критичных решений.

Что такое guardrails и где они работают?

Guardrails — это фильтры и правила вокруг модели. Они работают на входе (распознают инъекции, jailbreak, запрещённые темы) и на выходе (маскируют персональные данные, отсекают токсичный контент, проверяют формат и утечки). Это два обязательных рубежа защиты LLM.

Как AI TRiSM связан с требованиями регуляторов в России?

Через данные и комплаенс: если LLM обрабатывает персональные данные или работает на значимых объектах, важны разграничение доступа, журналирование и статус используемого ПО. Проверяйте наличие решений в [реестре отечественного ПО](https://reestr.digital.gov.ru/) и сертификацию под вашу задачу.

Где сравнить конкретные платформы AI Security между собой?

В рейтинге AI и LLM Security — там поставщики ранжированы по подтверждённым сигналам, а не по рекламе.

verification

Источники и метод проверки

AI TRiSM (Trust, Risk and Security Management — управление доверием, рисками и безопасностью ИИ) — это не один продукт, а дисциплина и набор практик, которые делают внедрение языковых моделей (LLM) управляемым и безопасным. Она отвечает на простой вопрос: как пускать большие языковые модели в продакшен так, чтобы они не сливали данные, не выполняли чужие инструкции и не выдавали выдуманные факты за правду. **Если коротко:** у LLM свой класс угроз — prompt injection (внедрение инструкций), утечка конфиденциальных данных, jailbreak (обход ограничений) и галлюцинации. Их нельзя закрыть одним межсетевым экраном: нужна многослойная защита — guardrails (фильтры на входе и выходе), разграничение доступа, проверка ответов и мониторинг. Ниже разбираем, что входит в AI TRiSM, какие угрозы из [OWASP Top 10 для LLM](https://owasp.org/www-project-top-10-for-large-language-model-applications/) встречаются чаще всего, какой контрмерой закрывается каждая, и как выглядит чек-лист безопасного внедрения. Сравнить поставщиков по подтверждённым сигналам можно в [рейтинге AI и LLM Security](/rating/ai-llm-security).

next step

Сравнить подрядчиков по рейтингу

Исследование помогает сформулировать критерии. Для короткого списка используйте категории рейтинга и карточки компаний.

Рейтинг AI и LLM Security