Автоматическая классификация данных для требований 152-ФЗ
Чтобы выполнять требования 152-ФЗ, оператор сначала должен **знать, где лежат персональные данные (ПДн) и к какой категории они относятся**. На практике вручную это не сделать: данные расползаются по файловым шарам, базам, почте и облакам. Автоматическая классификация находит и размечает ПДн по содержимому и контексту — и превращает абстрактные обязанности в конкретный список объектов с метками и мерами защиты. **Если коротко:** классификация — это фундамент комплаенса по 152-ФЗ и основа для DLP, DCAP и DSPM. Без карты данных нельзя ни корректно определить уровень защищённости ИСПДн, ни доказать выполнение мер регулятору. Ниже — зачем это нужно, какие категории ПДн различает закон, какими методами работает классификация (правила, словари, ML, отпечатки) и как спланировать проект. Сравнить поставщиков по подтверждённым сигналам можно в [рейтинге DSPM, DCAP и DAG](/rating/data-security-dspm-dcap-dag).
Визуальный контекст исследования
Изображение помогает быстро считать тему материала: инфраструктура, данные, доступы и контрольные точки, которые важно проверить перед выбором решения.
Рейтинги подрядчиков по теме исследования
Если после чтения нужен короткий список исполнителей, начните с профильных рейтингов cyber-index.ru: в них видны компании, кейсы, интервью, категории экспертизы и доверительный индекс.
Как проверять выводы исследования
Используйте материал как основу для shortlist: сопоставьте выводы с профилями компаний, связанными рейтингами, кейсами, интервью клиентов и источниками. Если в статье есть список источников, начинайте проверку с него; если источников мало, дополнительно запросите у подрядчика методику, baseline и примеры работ.
Зачем нужна классификация данных для 152-ФЗ
152-ФЗ обязывает оператора обеспечивать безопасность персональных данных и принимать меры по их защите. Но любая мера — обезличивание, разграничение доступа, шифрование, контроль утечек — начинается с простого вопроса: **где именно лежат эти данные и насколько они чувствительны?** Пока на него нет ответа, требования закона остаются на бумаге.
Автоматическая классификация решает три практические задачи:
- **Инвентаризация ПДн.** Найти все хранилища, где есть персональные данные, включая «теневые» копии, выгрузки и забытые архивы. - **Определение категории и уровня защищённости.** От категории ПДн (специальные, биометрические, иные) и числа субъектов зависит требуемый уровень защищённости ИСПДн — а значит, и набор мер. - **Доказуемость для регулятора.** Карта данных с метками и привязанными мерами — это аргумент при проверке Роскомнадзора и основа для модели угроз.
> Первоисточник требований — [Федеральный закон № 152-ФЗ «О персональных данных»](https://www.consultant.ru/document/cons_doc_LAW_61801/). > Статус и сертификацию средств защиты сверяйте в > [реестре отечественного ПО](https://reestr.digital.gov.ru/) и > [реестре сертифицированных СЗИ ФСТЭК](https://reestr.fstec.ru/).
Какие категории персональных данных различает закон
152-ФЗ выделяет несколько категорий ПДн, и от категории напрямую зависит строгость требований. Классификатор должен уметь различать их по содержимому, иначе все данные получат одинаковый — обычно завышенный или заниженный — режим защиты.
| Категория ПДн | Что относится | Примеры маркеров для классификации |
|---|---|---|
| Общедоступные | Раскрыты субъектом или по его согласию | Публичные профили, открытые справочники |
| Иные (общие) | Большинство учётных и контактных данных | ФИО, телефон, e-mail, адрес, паспорт, ИНН, СНИЛС |
| Специальные | Раса, нацпринадлежность, здоровье, судимость и т. п. | Диагнозы, медкарты, сведения о судимости |
| Биометрические | Характеристики, используемые для идентификации | Фото для распознавания, отпечатки, голос |
Методы автоматической классификации: как это работает
Зрелые системы классификации комбинируют несколько движков — ни один по отдельности не даёт нужной точности. Важно понимать сильные и слабые стороны каждого метода, чтобы настроить их под свои данные и снизить долю ложных срабатываний.
- **Правила и регулярные выражения.** Ловят структурированные форматы: ИНН, СНИЛС, номера карт, паспорта. Быстры и точны на шаблонных данных, но слепы к контексту. - **Словари и справочники.** Списки терминов, ФИО, медицинских понятий. Хорошо дополняют правила, требуют поддержки и локализации под русский язык. - **Машинное обучение (ML/NLP).** Классифицирует по смыслу и контексту, различает «случайное число» и реальный СНИЛС, находит специальные категории в свободном тексте. Требует обучения и проверки на ваших данных. - **Цифровые отпечатки (fingerprinting).** Помечают конкретные эталонные документы и их производные (выгрузки, фрагменты), что критично для контроля копий ПДн.
Сильные стороны методов классификации ПДн
Усреднённая редакционная оценка применимости метода к задачам 152-ФЗ по открытым данным. Это не вендорский бенчмарк и не заменяет пилот на ваших данных.
Категория данных → метки → меры защиты
Смысл классификации — не просто «найти ПДн», а связать находку с действием. Каждой категории присваивается метка (тег), а к метке привязываются технические и организационные меры. Это и есть мост между 152-ФЗ и реальной защитой.
| Категория данных | Метка (тег) | Типовые меры защиты |
|---|---|---|
| Иные ПДн (контакты, реквизиты) | PII-General | Разграничение доступа, журналирование, контроль выгрузок |
| Специальные категории | PII-Sensitive | Шифрование, строгий доступ по ролям, запрет внешней передачи (DLP) |
| Биометрические данные | PII-Biometric | Изолированное хранение, согласие субъекта, усиленный аудит |
| Платёжные данные | PII-Financial | Маскирование, контроль доступа, мониторинг операций |
| Общедоступные / неПДн | Public / None | Базовый режим, исключение из лишних ограничений |
Связь с DLP, DCAP и DSPM
Классификация почти никогда не существует сама по себе — она питает другие классы защитных систем актуальными метками. Без неё DLP блокирует «всё подряд» или пропускает важное, а DCAP не понимает, чей доступ критичен.
- **DLP.** Метки классификатора задают политики: что нельзя пересылать наружу, копировать на флешку или печатать. Классификация повышает точность и снижает ложные блокировки. - **DCAP.** Видит, кто имеет доступ к размеченным ПДн, выявляет избыточные права и аномальные обращения именно к чувствительным данным. - **DSPM.** Даёт карту данных и оценку рисков на уровне хранилищ, включая облака, опираясь на ту же классификацию.
Подробнее о разделении ролей — в статье [DCAP, DSPM и DAG: чем отличаются и зачем нужны вместе с DLP](/research/dcap-dspm-dag-otlichiya).
Чек-лист проекта классификации данных под 152-ФЗ
Как развернуть классификацию: 5 шагов
-
01
Инвентаризация источников
Соберите список всех мест, где могут быть ПДн, включая теневые копии и архивы.
-
02
Пилот на срезе
Запустите классификатор на репрезентативной выборке, оцените точность и ложные срабатывания.
-
03
Тонкая настройка
Доработайте правила, словари и ML-модели под вашу терминологию и форматы документов.
-
04
Интеграция с защитой
Передайте метки в DLP, DCAP и DSPM, привяжите политики к категориям.
-
05
Эксплуатация
Настройте регулярное переразметку, мониторинг и отчётность для проверок регулятора.
Как мы оцениваем поставщиков
cyber-index.ru не продаёт места в рейтинге. Поставщики сравниваются по проверяемым сигналам: подтверждённые внедрения и кейсы, отзывы и интервью клиентов, внешняя репутация, специализация, прозрачность и свежесть данных. Поэтому статью стоит читать в связке с [рейтингом DSPM, DCAP и DAG](/rating/data-security-dspm-dcap-dag): здесь — методы и критерии, там — сравнение конкретных компаний по подтверждённым фактам.
Следующий шаг
Разобрались с методами и категориями — переходите к сравнению поставщиков: **[рейтинг DSPM, DCAP и DAG →](/rating/data-security-dspm-dcap-dag)**. Полезно прочитать рядом: [DCAP, DSPM и DAG: чем отличаются](/research/dcap-dspm-dag-otlichiya), [рейтинг российских DCAP-систем](/research/reyting-dcap-sistem-rossiya) и [российский аналог Varonis для DAG](/research/analog-varonis-dag-rossiya).
Частые вопросы
Зачем нужна классификация данных, если есть DLP?
DLP без классификации работает вслепую: либо блокирует лишнее, либо пропускает важное. Классификация даёт меткам смысл — DLP понимает, что именно защищать, и это резко снижает ложные срабатывания и повышает точность политик.
Какие категории ПДн важнее всего различать для 152-ФЗ?
В первую очередь — специальные и биометрические данные: для них закон предъявляет более строгие требования. Их выделение влияет на уровень защищённости ИСПДн и набор обязательных мер, поэтому ошибка в категоризации здесь стоит дороже всего.
Можно ли обойтись только правилами и регулярными выражениями?
Для структурированных данных (ИНН, СНИЛС, номера карт) правила работают отлично, но они слепы к контексту и не находят специальные категории в свободном тексте. Зрелые проекты комбинируют правила, словари, ML и цифровые отпечатки.
Классификация — это разовый проект или постоянный процесс?
Постоянный. Данные создаются и копируются непрерывно, поэтому разметку нужно обновлять инкрементально. Разовая инвентаризация устаревает за недели и не годится как доказательство для регулятора.
Где сравнить конкретных поставщиков между собой?
В рейтинге DSPM, DCAP и DAG — там компании ранжированы по подтверждённым сигналам, а не по рекламе.
Источники и метод проверки
Чтобы выполнять требования 152-ФЗ, оператор сначала должен **знать, где лежат персональные данные (ПДн) и к какой категории они относятся**. На практике вручную это не сделать: данные расползаются по файловым шарам, базам, почте и облакам. Автоматическая классификация находит и размечает ПДн по содержимому и контексту — и превращает абстрактные обязанности в конкретный список объектов с метками и мерами защиты. **Если коротко:** классификация — это фундамент комплаенса по 152-ФЗ и основа для DLP, DCAP и DSPM. Без карты данных нельзя ни корректно определить уровень защищённости ИСПДн, ни доказать выполнение мер регулятору. Ниже — зачем это нужно, какие категории ПДн различает закон, какими методами работает классификация (правила, словари, ML, отпечатки) и как спланировать проект. Сравнить поставщиков по подтверждённым сигналам можно в [рейтинге DSPM, DCAP и DAG](/rating/data-security-dspm-dcap-dag).