Обзор современных методов защиты и обработки данных

Простая маскировка уже не обеспечивает достаточный уровень защиты персональных данных и не гарантирует невозможность их обратной идентификации. На фоне роста киберугроз и ужесточения требований регуляторов компании все чаще пересматривают подходы к обезличиванию и обращают внимание на более сложные методы обработки информации, включая синтетические данные.

Федеральный закон № 152-ФЗ «О персональных данных», ведущий свою историю с июля 2006 г., а очередные изменения к которому вступили в силу в мае и в сентябре 2025 г., до сих пор считается одним из самых сложных и непонятных для исполнения. Эта проблема уже поднималась в материале «Защита персональных данных — это не проект, а процесс», опубликованном в IT-World 9 апреля 2026 года. Там же разбиралось, почему компаниям до сих пор приходится уточнять, какие сведения относятся к персональным данным и где проходит граница между отдельным признаком и идентифицирующей комбинацией.

Затрагивались в интервью и такие вопросы: «Как правильно обезличить данные? Имеются ли на этот счет у бизнеса какие-то инструкции или правила, или каждый действует, как умеет?». Вот как отвечает на них эксперт в сфере ИБ консалтинговой компании RTM Group Евгений Царёв:

«Роскомнадзор составил документ, в котором описаны механики и методы обезличивания. Но при этом в действительности критериев обезличивания как таковых нет. Иными словами, невозможно понять, в достаточной ли степени данные обезличены…».

Поднимается в интервью и ряд других интересных проблем. Ведь киберзлодеи не дремлют и постоянно совершенствуют методы взлома как баз данных вообще, так баз, содержащих персональные данные (ПДн), в частности (cм. например, февральскую публикацию «Хакеры предложат право выкупа. Рост штрафов за утечку персональных данных приведет к учащению шантажа».

Множество таблиц, содержащих информацию о размерах штрафов за утечку ПДн для физических и юридических лиц (в ряде случаев они могут достигать сотен миллионов рублей) можно найти в обзоре «Что ждет бизнес после 30 мая: новые штрафы за персональные данные и как их избежать».

Необходимость правильной деперсонализации данных увеличивается и потому, что, как совершенно справедливо отмечает бизнес-консультант по безопасности Positive Technologies Алексей Лукацкий:

«Государства по всему миру переходят от разовых уведомлений о киберинцидентах к модели непрерывной осведомленности — с быстрыми сигналами, регулярными обновлениями и централизованным сбором данных. Это меняет не только требования регуляторов, но и саму логику работы бизнеса с инцидентами…»

В стремлении понять ситуацию и «увидеть лес за ИБ-деревьями» давно зрела у меня идея нарисовать красивое и наглядное эволюционное древо развития средств деперсонализации данных с указанием хотя бы приблизительного времени появления всех его стволов, ветвей, веточек и листьев. Рассуждал я примерно так: эволюция органической жизни на Земле идет по пути увеличения количества классов, видов и подвидов. Которые, в свою очередь, произошли от биологической сущности, жившей 3,5–3,8 миллиарда лет тому назад и получившей имя LUCA (аббревиатура от английского Last Universal Common Ancestor, что переводится на русский как «Последний универсальный общий предок»). Логично предположить, что и эволюция средств деперсонализации данных идет по пути увеличения количества видов этих средств: от простейших «одноклеточных моделей» до сложнейших структур, обладающих весьма развитым искусственным интеллпектом. А уж в каком сочетании «листочки» этого этого эволюционного древа будут компоноваться в конкретном продукте (тиражируемом или самописном), зависит от назначения данного продукта и области его применения.

В полной мере реализовать данную идею пока не удалось. Но, благодаря беседам с ИБ-специалистами «Астры», «Гарды» «Перфоманс Лаб» и InfoWatch, основные этапы эволюции средств деперсонализации данных прояснились.

От простой маскировки к синтетическим данным

По мнению экспертов команды ООО «РуБэкап» (входит в «Группу Астра»), эволюция методов деперсонализации данных прошла путь от простого удаления имен до сложных математических моделей и генеративного ИИ. Ключевой драйвер изменений — развитие деанонимизации. Простые методы перестали работать, так как хакеры научились восстанавливать личность по пересечению нескольких обезличенных наборов.

В 2026 году 99% методов, основанных на удалении или простом хешировании, считаются неработающими. Исследования показывают, что при наличии всего 8–15 атрибутов, таких как пол, возраст, индекс, образование, профессия, семья, доходы, устройство, можно деанонимизировать любого человека в большой выборке.

В 2026 г. единственный способ гарантированно не нарушать 152-ФЗ это работать с синтетическими данными, которые не являются ПДн в принципе. По сути это переход от простой маскировки данных к их полной замене искусственными наборами, которые сохраняют статистические свойства оригинала, но не содержат реальной информации о людях.Синтетические данные становятся стратегической альтернативой традиционному обезличиванию, особенно в финтехе и медицине. В Едином реестре отечественного ПО на текущий момент фактически нет полностью созревших средств деперсонализации, использующих ИИ для генерации синтетических наборов данных.

Статическое и динамическое маскирование

Руководитель направления по защите баз данных компании «Гарда» Дмитрий Ларин обращает внимание на то, что требования Федерального закона № 152-ФЗ распространяются и на обезличенные данные. Потому что сам процесс обезличивания также считается обработкой персональных данных и требует соблюдения всех требований. Такова логика регулятора. По его мнению, в настоящее время можно выделить два базовых подхода к деперсонализации данных – статическое (Static Data Masking) и динамическое (Dynamic Data Masking) маскирование данных. Он говорит:

«По нашей статистике за 2024-2025 годы, более 80% внедрений в крупных российских компаниях начинаются с применения статического маскирования в dev/test-средах, еще около 20% запросов приходится на динамическое маскирование – в основном, от владельцев BI-систем и дашбордов для построения отчетности и предоставления данных внешним подрядчикам. Оба подхода зарекомендовали себя: первый – для снижения рисков при разработке и тестировании, второй – для контроля доступа в боевой среде».

Если же говорить об основных основных этапа, через которые прошли технологии деперсонализации, то таковых, по мнению Дмитрия Ларина, можно выделить три:

1) Ручное создание правил деперсонализации и их поддержка (например, скрипты на Python / SQL). Триггеры их появления – это отсутствие готовых инструментов и небольшой объем данных. Однако, когда база данных вырастает до 1-2 ТБ и более 300 таблиц, ручное поддержание правил может потребовать до 50-80 человеко-часов в месяц. На практике встречались компании, где команда из четырех инженеров занималась только этой работой.

2)Специализированные решения, предлагаемые компаниями, специализирующимися на разработке ПО. Триггерами их появления стал резкий рост числа инцидентов с попаданием персональных данных в тестовые контуры. По нашим данным, до 60% компаний сталкиваются с утечкой тестовых данных, содержащих реальные ФИО и паспортные данные.

3) Использование инструментов искусственного интеллекта для поиска данных, подлежащих деперсонализации. Триггером развития этого этапа стали сложности поиска ФИО по регулярным выражениям. Если изменяется морфология или используются семантически близкие сущности, то информацию почти невозможно найти. В нашей практике использование технологий ИИ сокращает ложные срабатывания с 30-40% до менее 5%, а также позволяет находить до 20% «неочевидных персональных данных» (например, ФИО, адреса и паспортные данные в длинных текстовых полях), которые регулярные выражения пропускают.

Разумеется, любая система деперсонализации данных создается и развивается под определенные задачи конкретного заказчика.

«До сих пор многие компании продолжают использовать собственные самописные решения, — говорит Дмитрий Ларин. — Такой подход работает до тех пор, пока массив данных не становится слишком большим. Продолжая поддерживать такое самописное решение, есть риск сформировать в штате полноценную команду разработки (3-5 человек), которая будет заниматься исключительно его развитием и сопровождением. Не каждая компания готова к этому – хотя бы потому, что задача может быть непрофильной. Один из наших клиентов из сегмента среднего бизнеса потратил 14 млн рублей за год на такую внутреннюю разработку, но в итоге начал использовать тиражируемое решение».

Как будут развиваться технологии деперсонализация дальше?

Дмитрий Ларин обращает внимание на то, что на сегодняшний день обязательными являются Приказы Роскомнадзора № 140, ФСТЭК № 21 («Об утверждении Требований к обезличиванию ПДн») и рекомендации Центрального банка по работе с тестовыми контурами. По мнению эксперта существуют три четких тренда:

1) Ужесточение ответственности. штрафы за утечку ПДн могут достигать 15 млн рублей. Причем эти штрафы применимы и в том случае, когда происходит утечка замаскированных персональных данных.

2) Разделение ролей для предотвращения злоупотреблений доступом. Например, юрист, отвечающий за соблюдение требований 152-ФЗ «О персональных данных», и администратор безопасности, настраивающий маскирование, должны обладать разными правами. Юрист не может менять алгоритмы, администратор – единолично решать, какие данные скрывать. Связующим звеном между ними являются независимые аудиторские следы – логи всех актов маскирования, изменения правил и доступов к исходным данным. Они формируют доказательную базу того, что обезличивание было необратимым и контролируемым – это одно из ключевых требований регуляторов.

3) Требование к необратимости: хэши без соли больше не считаются надежным способом обезличивания данных, так как существует риск перебора по словарю. Например, номер паспорта гражданина РФ можно восстановить таким способом за минуту. Среди новых методов маскирования можно выделить хэши с уникальной солью на каждую запись, что соответствует требованиям необратимости и стойкости к атакам, изложенным в соответствующих ГОСТах.

«Специалисты нашей компании уверены, что требования регуляторов и нормативная база по деперсонализации будут дорабатываться по мере возникновения новых сценариев возникновения или использования утечек данных», — резюмирует Дмитрий Ларин.

Шесть ветвей обезличивания

Менеджер по продукту DataSan компании «Перфоманс Лаб» Василий Жидков полагает, что можно выделить шесть основных ветвей эволюционного древа развития технологий деперсонализации данных:

Маскирование
Замена
Перемешивание
Обнуление
Динамическое маскирование
Синтетика

«Развитие отдельных ветвей или их смешивание и является эволюцией, рассуждает Василий Жидков. — Однако надо понимать, что каждый из этих методов эволюционирует как вид самостоятельно, от начальных простых математических моделей до современных сложных. Кроме, пожалуй, последних нововведенй, связанных с появление больших языковых моделей (LLM). Так например, современный стандарт Differential Privacy (дифференциальная приватность) можно рассматривать как гибрид эволюции ветвей «Замена и «Перемешивание». Также не стоит забывать о том, что наибольший эффект методы деперсонализации дают, соединяясь и перемешиваясь между собой».

От псевдоанонимизации к гибридным платформам

Вот как изложил мне свой взгляд на эволюцию технологий деперсонализации данных старший менеджер по развитию продуктов ГК InfoWatch Тимур Галиулин:

«Первым этапом развития средств деперсонализации можно назвать маскирование и псевдоанонимизацию данных. На следующем, промежуточном этапе данные стали токенизировать и маскировать в базах данных. В настоящее время используют концепцию дифференцированной приватности, то есть добавление контролируемого «шума» к данным, синтетические данные, а также временное или контекстное обезличивание – это удаление или замена идентификаторов персоны в зависимости от роли пользователя и временного контекста. В будущем, на мой взгляд, мы увидим гибридные платформы обработки деперсонализированных данных, с автоматизацией и верификацией. Развитие средств деперсонализации данных движется через поиск инструментов и технологий для решения практических задач. Среди основных драйверов развития этого класса средств – рост объемов и скорости передачи данных, их усложняющаяся структура, потребность в аналитической обработке этих данных, риски реидентификации, а также регуляторные требования и интеграционные операционные задачи. Таким образом, технологии рождаются из потребности решения конкретных проблем».

Обратите внимание: термины «псевдоанонимизация данных» и «токенизация данных» не упоминаются в 12-страничном Постановлении Правительства РФ от 1 августа 2025 г. № 1154 «Об утверждении требований к обезличиванию персональных данных, методов обезличивания персональных данных и Правил обезличивания персональных данных», который содержит наиболее свежее официальное перечисление методов обезличивания персональных данных. Образно говоря, в этом Постановлении перечислены «официальные листочки» того эволюционного древа, которое мне так и не удалось нарисовать.

Впрочем, законодательные акты, как правило, всегда отстают от технологических реалий. Еще одна беда состоит в том, что некоторые термины весьма широки и разные люди понимают под ними разные сущности… Бывают и обратные ситуации: одни и те же сущности некоторые специалисты обозначают разными терминами. Тимур Галиулин поясняет:

«Псевдоанонимизация сохраняет обратимую связь между исходными и псевдоанонимизированными данными при наличии дополнительной информации или ключа. Токенизация ориентирована на изолированное хранение оригинальных данных в отдельном защищенном хранилище, делая токен бесполезным без этого хранилища».

На вопрос «Можно ли сказать, что в настоящее время единственно действительно анонимизированными данными можно считать так называемые синтетические данные, полученные с использованием тех или иных технологий ИИ?” Тимур Галиулин ответил так:

«Нельзя сказать, что это единственный путь, есть еще, например, дифференциальная приватность и различные методы агрегации и обобщения, когда мы знаем только суммы или средние значения из набора. Но генерация синтетических данных — один из самых мощных и перспективных способов получения действительно анонимизированных данных».

О разнообразии средств обезличивания данных

Некоторые утверждают, что по состоянию на май 2026 года в Едином реестре отечественного ПО насчитывается несколько десятков решений, для которых обезличивание данных является основной функцией. А если учитывать системы, где обезличивание — это дополнительный модуль (в составе DLP-систем, Bl-платформ или средств защиты БД и так далее), то счет идет на сотни.

Но так ли это? По мнению Тимура Галиулина, решения, в которых обезличивание данных является дополнительным модулем (DLP и BI-системы, СУБД и другие) представлены в реестре отечественного ПО весьма широко.

А вот что говорит на сей счет Василий Жидков:

«Да, действительно, если брать сухую статистику, то за последнее время количество программных продуктов в данной категории сильно прибавилось. Эти продукты часто регистрируются в классах ETL (извлечение и трансформация данных) или систем управления качеством данных, и они могут использоваться для массового обезличивания, но чаще всего они все же используются по своему прямому назначению – извлечение данных и их последующая обработка. При этом узко специализированных решений, направленных на маскирование данных, не так много; но и, конечно, справляются такие решения с задачей обезличивания данных на порядок быстрее и качественнее. Так, например большинство ETL-решений так изменяют данные, что потом с ними невозможно работать программистам и тестировщикам – у них ломаются тесты и они просят дать «нормальные» данные, что опять же может привести к увеличению поверхности атаки. Также стоит учитывать, что практически все компании регистрируют свои модули обезлички отдельно, чтобы было возможность их поставить независимо от «основных» систем. Поэтому нельзя сказать, что на текущий момент общий счет таких систем идет на сотни».

Проводить сравнение средств деперсонализации данных по каким-либо критериям достаточно сложно. Во-первых, таких критериев слишком много (это ведь не только функционал, но и стоимость, эргономичность, уровень техподдержки и т. д.), а во-вторых, «средства всякие нужны, средства всякие важны». Ну это как с автомобилями: одним нужны гоночные болиды, другим — карьерные самосвалы, а третьим — машины для поездок на свои дачные участки.

Одним словом, чем шире будет выбор средств деперсонализации данных, тем лучше. Смотрите: в живой природе наряду со сложными формами жизни широко представлены простейшие организмы, практически не изменившиеся за многие миллионы лет. Разумеется, не все обитатели Земли мирно сосуществуют друг с другом. Но для успешных видов место под солнцем всегда находится. Бывают, конечно, и природные катаклизмы (считается, что в истории Земли было шесть великих вымираний), после которых многие виды исчезли. Но потом разнообразие видов снова увеличивалось.

В ИБ-cегменте отечественного ИТ-рынка «великих вымираний», обусловленных какими-либо неожиданными технологическими прорывами или иными причинами, пока не было. Более того: этот сегмент чувствует себя лучше других. В опубликованном 8 мая исследовании «ОБИТ» («Какие сегменты будут драйвером ИТ-рынка в 2026 году») отмечается, что на российском ИТ-рынке сегмент кибербезопасности относится к одному из самых динамичных. Что, среди прочего, обусловлено активизацией регуляторов.