ОДД 2018: Видеозапись выступления Андрея Заводчикова «Анонимизация данных как способ получения информации ограниченного доступа»

В марте этого года проводился «День открытых данных», в рамках которого проектом КГИ «Госзатраты» была соорганизована секция «Государственные данные». В течение двух дней состоялись 14 выступлений от представителей госорганов, НКО и коммерческих компаний, рассказавших о создании и использовании открытых государственных данных.

Андрей Заводчиков из Аналитического центра «Форум» в своей презентации ответил на один из самых главных вопросов, возникающих у представителей госорганов: «Как преобразовать информацию ограниченного доступа так, чтобы ей можно было поделиться с разработчиками?».

Вопрос уровня детализации данных всегда являлся наиболее острым как для разработчиков, так и для госорганов. Можно предоставить данные в агрегированном виде до уровня субъекта России или даже до страны (такой уровень детализации есть, например, в сборниках Росстата), а можно предоставлять информацию о каждой реестровой записи (такой уровень детализации часто встречается в федеральных информационных системах Федерального казначейства и Минфина России). В каждом из способов есть свои плюсы и минусы. В агрегированном виде госорган точно случайно не раскроет ни персональные данные, ни какую-либо другую информацию ограниченного доступа, но и данные не будут интересны для разработчиков. Публикация всех реестровых записей или данных, детализированных до уровня организации или района города, открывает большие возможности для создания разнообразных приложений и аналитических исследований, но, с другой стороны, может позволять идентифицировать людей. Самый частый пример — наличие выборки из одного объекта. С таким случаем столкнулся в конце прошлого года РБК, когда смог идентифицировать зарплаты министров из данных, опубликованных Минфином России.

Избежать данную проблему можно использованием методов анонимизации (или деперсонализации), о которой и рассказал Андрей Заводчиков. Из презентации можно узнать, с какими рисками может столкнуться госорган, какие есть технические методы преобразования данных, позволяющие избегать этих рисков, а также об известных кейсах. Подробности в видеозаписи выступления: