исследование 3 июня 2026

AI TRiSM и LLM Security: как защитить модели от prompt injection

AI TRiSM (Trust, Risk and Security Management — управление доверием, рисками и безопасностью ИИ) — это не один продукт, а дисциплина и набор практик, которые делают внедрение языковых моделей (LLM) управляемым и безопасным. Она отвечает на простой вопрос: как пускать большие языковые модели в продакшен так, чтобы они не сливали данные, не выполняли чужие инструкции и не выдавали выдуманные факты за правду. **Если коротко:** у LLM свой класс угроз — prompt injection (внедрение инструкций), утечка конфиденциальных данных, jailbreak (обход ограничений) и галлюцинации. Их нельзя закрыть одним межсетевым экраном: нужна многослойная защита — guardrails (фильтры на входе и выходе), разграничение доступа, проверка ответов и мониторинг. Ниже разбираем, что входит в AI TRiSM, какие угрозы из [OWASP Top 10 для LLM](https://owasp.org/www-project-top-10-for-large-language-model-applications/) встречаются чаще всего, какой контрмерой закрывается каждая, и как выглядит чек-лист безопасного внедрения. Сравнить поставщиков по подтверждённым сигналам можно в [рейтинге AI и LLM Security](/rating/ai-llm-security).

10 мин. чтения Блоки данных: 6 Позиции: не продаются

Короткий вывод

security context

Визуальный контекст исследования

Изображение помогает быстро считать тему материала: инфраструктура, данные, доступы и контрольные точки, которые важно проверить перед выбором решения.

Тематическое фото для исследования: AI TRiSM и LLM Security: как защитить модели от prompt injection — Тематическая иллюстрация к исследованию: AI TRiSM и LLM Security: как защитить модели от prompt injection. panumas nikhomkhai / Pexels

shortlist

Рейтинги подрядчиков по теме исследования

Если после чтения нужен короткий список исполнителей, начните с профильных рейтингов cyber-index.ru: в них видны компании, кейсы, интервью, категории экспертизы и доверительный индекс.

NGFW, UTM и межсетевые экраны Next-generation firewalls, UTM, классические межсетевые экраны и шлюзы защиты периметра. WAF и API Security Web Application Firewall, защита API, анализ трафика приложений и блокировка атак на веб-сервисы. EPP, EDR, XDR и антивирусная защита Защита рабочих станций и серверов, EPP, EDR, XDR, антивирусная защита, расследование и реагирование на конечных точках. SIEM и log management Сбор, нормализация, хранение и корреляция событий безопасности, SIEM и управление журналами. Threat Intelligence Данные о киберугрозах, индикаторы компрометации, профили атакующих и аналитика угроз. PAM Privileged Access Management: контроль, изоляция, аудит и ротация привилегированных доступов. DLP Data Loss Prevention: предотвращение утечек данных, контроль каналов передачи и расследование инцидентов.

cluster

Соседние исследования по теме

Материалы того же направления помогают собрать единый shortlist: сравните подходы, критерии выбора и подтверждения по смежным задачам ИБ.

Рейтинг решений AI Security и LLM Security 2026Рейтинг решений AI Security и LLM Security 2026: критерии сравнения, ориентир по российски... OWASP Top 10 для LLM: разбор угроз и контрмерOWASP Top 10 для LLM — объясняем простыми словами: суть, как работает и на что смотреть пр... Как выбрать платформу AI Security и guardrails для LLMКак выбрать платформу AI Security и guardrails для LLM: критерии выбора, сравнение вариант...

methodology

Как проверять выводы исследования

Используйте материал как основу для shortlist: сопоставьте выводы с профилями компаний, связанными рейтингами, кейсами, интервью клиентов и источниками. Если в статье есть список источников, начинайте проверку с него; если источников мало, дополнительно запросите у подрядчика методику, baseline и примеры работ.

Что такое AI TRiSM простыми словами

AI TRiSM — это рамка управления ИИ-системами, охватывающая четыре связки: доверие (trust), риск (risk), безопасность (security) и управление (management). Идея в том, что модель в продакшене — это не «чёрный ящик, который что-то отвечает», а актив, который нужно контролировать на всех слоях: данные, сама модель, приложение-обёртка и взаимодействие с пользователем.

На практике AI TRiSM раскладывается на несколько рабочих направлений:

- **Объяснимость и прозрачность.** Понимать, почему модель выдала такой ответ, и уметь это показать аудиту и регулятору. - **ModelOps / жизненный цикл.** Версионирование моделей и промптов, контроль качества, откат при деградации. - **Безопасность приложения и данных.** Защита от специфичных для LLM атак, разграничение доступа, контроль того, какие данные попадают в модель и из неё. - **Управление рисками и комплаенс.** Оценка рисков использования ИИ, политики, журналы, соответствие требованиям к обработке персональных данных и отраслевым нормам.

LLM Security — это «безопасность» внутри этой рамки: конкретные угрозы языковых моделей и контрмеры против них. Именно на ней мы дальше и сосредоточимся.

AI TRiSM и LLM Security: коротко в цифрах

Уровней защиты 4

Данные, модель, приложение-обёртка, взаимодействие с пользователем

Топ-угроз LLM 10

По классификации OWASP Top 10 для LLM-приложений

Точек контроля 2

Фильтрация на входе (промпт) и на выходе (ответ модели)

База для комплаенса реестры

Реестр отечественного ПО и реестр сертифицированных СЗИ ФСТЭК

Главные угрозы LLM: prompt injection, утечки, jailbreak, галлюцинации

У языковых моделей нет жёсткой границы между «инструкцией» и «данными»: и то и другое — просто текст. Отсюда вырастает большинство специфичных угроз. Опираемся на классификацию [OWASP Top 10 для LLM](https://owasp.org/www-project-top-10-for-large-language-model-applications/) и выделяем четыре, с которыми сталкиваются чаще всего:

- **Prompt injection (внедрение инструкций).** Злоумышленник прячет команды в тексте — в сообщении пользователя или в данных, которые модель читает (письмо, веб-страница, документ в RAG). Модель воспринимает их как легитимную инструкцию и, например, игнорирует системный промпт или выдаёт то, что не должна. Бывает прямой (в запросе) и непрямой (через внешний контент). - **Утечка чувствительных данных.** Модель может выдать в ответе персональные данные, коммерческую тайну, фрагменты обучающей выборки или содержимое системного промпта. Риск растёт, когда в контекст подмешиваются внутренние документы без разграничения доступа. - **Jailbreak (обход ограничений).** Специально сконструированные запросы заставляют модель обойти встроенные правила безопасности и сгенерировать запрещённый или вредный контент. По сути — частный, «лобовой» случай prompt injection против правил модели. - **Галлюцинации.** Модель уверенно выдаёт правдоподобный, но неверный ответ — выдуманные факты, ссылки, цифры. Для бизнес-сценариев (поддержка, юридические или медицинские подсказки) это прямой источник ошибок и репутационных рисков.

К этому списку OWASP добавляет и другие риски: отравление обучающих данных, небезопасную обработку выводов модели нижестоящими системами, чрезмерные полномочия ИИ-агента (excessive agency), уязвимости плагинов и цепочки поставки моделей. Полный разбор — в статье [OWASP Top 10 для LLM](/research/owasp-top-10-llm-ugrozy).

Угрозы LLM: относительная распространённость в реальных внедрениях

Редакционная оценка частоты встречаемости класса угроз по открытым материалам и классификации OWASP. Это не статистика инцидентов и не вендорский бенчмарк, а ориентир для приоритизации защиты.

Prompt injection (прямой и непрямой) 90 /100

90 /100

Галлюцинации и недостоверные ответы 85 /100

85 /100

Утечка чувствительных данных 75 /100

75 /100

Jailbreak / обход ограничений 70 /100

70 /100

Небезопасная обработка вывода модели 55 /100

55 /100

Чрезмерные полномочия ИИ-агента 45 /100

45 /100

Guardrails и контрмеры: как строится защита LLM

Защита языковой модели — многослойная. Ни один отдельный механизм не закрывает все угрозы, поэтому контрмеры выстраивают по принципу эшелонированной обороны: на входе, на выходе и вокруг модели.

- **Guardrails на входе.** Фильтрация и нормализация запроса: распознавание попыток prompt injection и jailbreak, отсечение запрещённых тем, проверка вложенного во внешний контент. Сюда же — изоляция пользовательского ввода от системных инструкций. - **Guardrails на выходе.** Проверка ответа до того, как он уйдёт пользователю или в смежную систему: маскирование персональных данных (PII), отсев токсичного контента, валидация формата, контроль на утечку системного промпта. - **Разграничение доступа и контекста.** Модель видит только те данные, к которым у конкретного пользователя есть права; RAG-источники фильтруются по правам доступа, а не «всё всем». - **Снижение галлюцинаций.** Привязка ответов к проверяемым источникам (grounding/RAG), требование цитат, оценка уверенности, человек в контуре (human-in-the-loop) для критичных решений. - **Ограничение полномочий агента.** Принцип наименьших привилегий для инструментов и плагинов, подтверждение опасных действий, журналирование вызовов. - **Мониторинг и журналы.** Логирование промптов и ответов, обнаружение аномалий, алерты, обратная связь для дообучения фильтров — основа для аудита и комплаенса.

Угроза → контрмера: таблица соответствия

Угроза LLM	Что происходит	Базовая контрмера	Слой защиты
Prompt injection (прямой)	Команды в запросе подменяют системную инструкцию	Изоляция ввода, input-guardrails, детектирование инъекций	Вход
Prompt injection (непрямой)	Инструкции спрятаны во внешнем контенте (RAG, письма, сайты)	Санитизация и разметка источников, недоверие к внешнему тексту	Вход / данные
Утечка данных	Модель выдаёт PII, тайны, системный промпт	Маскирование PII на выходе, разграничение доступа к контексту	Выход / данные
Jailbreak	Запрос обходит встроенные правила безопасности	Усиленные guardrails, ред-тиминг, классификатор запрещённых тем	Вход / выход
Галлюцинации	Уверенный, но недостоверный ответ	Grounding/RAG, цитаты, human-in-the-loop, оценка уверенности	Модель / процесс
Небезопасная обработка вывода	Ответ модели исполняется смежной системой как код/команда	Валидация и экранирование вывода, sandbox	Выход / интеграция
Чрезмерные полномочия агента	Агент выполняет лишние или опасные действия	Наименьшие привилегии, подтверждение действий, журналы	Приложение

Чек-лист безопасного внедрения LLM

Классифицируйте данные определите, какие данные модель может видеть и отдавать, и где проходит граница конфиденциальности.

Изолируйте ввод от инструкций отделяйте пользовательский текст и внешний контент от системного промпта.

Поставьте input-guardrails детектирование prompt injection, jailbreak и запрещённых тем на входе.

Поставьте output-guardrails маскирование PII, фильтр токсичности, контроль утечки системного промпта на выходе.

Разграничьте доступ к контексту RAG-источники и инструменты доступны строго по правам пользователя.

Снизьте галлюцинации привязка к источникам, цитаты и human-in-the-loop для критичных решений.

Ограничьте полномочия агента наименьшие привилегии для плагинов и подтверждение опасных действий.

Включите мониторинг и журналы логируйте промпты, ответы и аномалии для аудита и реагирования.

Проведите ред-тиминг проверьте систему атаками до запуска, а не после инцидента.

Сверьте комплаенс статус ПО в реестре и сертификация под требования регулятора и обработку ПДн.

Как внедрить AI TRiSM: 6 шагов

01 Инвентаризация ИИ-сценариев
Перечислите, где и зачем используются LLM, какие данные в них попадают и кто к ним обращается.
02 Оценка рисков
Сопоставьте каждый сценарий с угрозами OWASP Top 10 для LLM и зафиксируйте критичность.
03 Проектирование guardrails
Определите фильтры на входе и выходе, политики доступа и правила работы с источниками.
04 Пилот и ред-тиминг
Разверните защиту на ограниченном сценарии, атакуйте её сами, замерьте ложные срабатывания.
05 Мониторинг и реагирование
Подключите журналирование, алерты и процесс разбора инцидентов с LLM.
06 Управление жизненным циклом
Версионируйте модели и промпты, пересматривайте риски при обновлениях, документируйте для аудита.

Как мы оцениваем поставщиков

cyber-index.ru не продаёт места в рейтинге. Решения AI Security и LLM Security сравниваются по проверяемым сигналам: подтверждённые внедрения и кейсы, отзывы и интервью клиентов, внешняя репутация, специализация, прозрачность и свежесть данных. Поэтому статью стоит читать в связке с [рейтингом AI и LLM Security](/rating/ai-llm-security): здесь — понятия и угрозы, там — сравнение конкретных компаний по подтверждённым фактам.

Следующий шаг

Разобрались с понятиями и угрозами — переходите к сравнению поставщиков: **[рейтинг AI и LLM Security →](/rating/ai-llm-security)**. Полезно прочитать рядом: [как выбрать платформу AI Security и guardrails](/research/kak-vybrat-ai-security-platformu), [рейтинг решений AI Security и LLM Security 2026](/research/reyting-ai-llm-security-2026) и [OWASP Top 10 для LLM: разбор угроз и контрмер](/research/owasp-top-10-llm-ugrozy).

Частые вопросы

Чем AI TRiSM отличается от LLM Security?

AI TRiSM — это широкая рамка управления ИИ: доверие, риск, безопасность и управление жизненным циклом моделей. LLM Security — её часть, посвящённая конкретным угрозам языковых моделей (prompt injection, утечки, jailbreak, галлюцинации) и контрмерам против них.

Что такое prompt injection и почему его трудно закрыть?

Это атака, при которой вредоносные инструкции прячутся в тексте запроса или во внешних данных, и модель выполняет их как легитимные. Сложность в том, что для LLM инструкция и данные — один и тот же текст, поэтому одной проверкой это не лечится: нужны изоляция ввода, guardrails и недоверие к внешнему контенту.

Можно ли полностью убрать галлюцинации?

Полностью — нет, но их частоту и последствия снижают: привязкой ответов к проверяемым источникам (RAG/grounding), требованием цитат, оценкой уверенности и участием человека в контуре для критичных решений.

Что такое guardrails и где они работают?

Guardrails — это фильтры и правила вокруг модели. Они работают на входе (распознают инъекции, jailbreak, запрещённые темы) и на выходе (маскируют персональные данные, отсекают токсичный контент, проверяют формат и утечки). Это два обязательных рубежа защиты LLM.

Как AI TRiSM связан с требованиями регуляторов в России?

Через данные и комплаенс: если LLM обрабатывает персональные данные или работает на значимых объектах, важны разграничение доступа, журналирование и статус используемого ПО. Проверяйте наличие решений в [реестре отечественного ПО](https://reestr.digital.gov.ru/) и сертификацию под вашу задачу.

Где сравнить конкретные платформы AI Security между собой?

В рейтинге AI и LLM Security — там поставщики ранжированы по подтверждённым сигналам, а не по рекламе.

verification

Источники и метод проверки

source Единый реестр российского ПО Минцифры России source Государственный реестр сертифицированных средств защиты информации ФСТЭК России source OWASP Top 10 для LLM-приложений OWASP Foundation

Рейтинг AI и LLM Security Сравнить поставщиков по подтверждённым сигналам Как выбрать платформу AI Security и guardrails для LLM Рейтинг решений AI Security и LLM Security 2026 OWASP Top 10 для LLM: разбор угроз и контрмер