День открытых данных

21 февраля 2015 г. во многих странах мира прошли события, приуроченные к так называемому «Международному дню открытых данных». День открытых данных – это сравнительно новое явление, которое появилось на волне популяризации темы открытых данных и обычно отмечается проведением хакатонов по всему миру. В таком виде идея «Дня» сформировалась в 2013 г. Тогда он состоялся в последнюю субботу февраля (23 числа). Эту инициативу энергично продвигал Фонд открытых знаний (Open Knowledge Foundation) – исходно британская некоммерческая организация, со временем ставшая международной за счет формирования своих локальных представительств.

«Дни открытых данных» проводились и прежде, но обычно в масштабах какой-нибудь одной страны (или даже города) либо сравнительно небольшого сообщества активистов. Эти мероприятия, будучи связаны между собой тематически, не имели ни единой даты, ни общей повестки.

Например, в 2011 и 2012 г. День открытых данных проводился в Берлине в июне и представлял собой мероприятие, на котором собирались журналисты, бизнесмены и госслужащие и обсуждали перспективы и механизмы раскрытия данных. Фонд открытых знаний в 2011 г. устроил День открытых данных в Лондоне 3 декабря. В феврале 2012 г. День открытых данных организовал американский аналитический центр Tech Tank в городе Кэри (США, Северная Каролина). В октябре 2012 г. еще один День открытых данных был организован в городе Эшвилле (США, Северная Каролина) и представлял собой встречу предпринимателей, госслужащих и журналистов, посвященную раскрытию информации, а также, собственно, хакатон.

В 2013 г. День открытых данных впервые был организован как международный проект, у которого была своя собственная платформа и к участию в котором энергично приглашались все желающие. Одним из наиболее энергичных организаторов был Фонд открытых знаний, однако к этой инициативе подключились многие другие организации в разных странах мира. Были и те, которые не подключились: например, мероприятия в Эшвилле, также именуемые Днем открытых данных, с международным проектом не были связаны, но, что характерно, они проходили там в тот же день, что и международные.

Сам термин «открытые данные» впервые зафиксирован в 1995 г. в США, в документах одного научного ведомства, как пишет французский специалист в области открытых данных Симон Шиньяр (Simon Chignard) в своем обзоре истории движения. Речь в документе (ссылка не приводится) шла о том, что было бы удобнее, если бы геофизические и экологические данные были открыты, так как это позволило бы ученым разных стран оперативно обмениваться научной информацией и тем самым лучше и быстрее анализировать глобальные явления.

Сама идея общего ресурса знания была сформулирована в русле социологии науки, одним из основателей которой был Роберт Кинг Мертон (Robert King Merton), задолго до распространения Интернета. Еще в 1942 г. он высказывал мысль, что результаты исследований должны быть доступны всем и что права интеллектуальной собственности на научные достижения в имеющемся виде не только бесполезны, но и сильно тормозят развитие науки.

Развитие информационных технологий стало базой, на которой эта идея стала быстро и плодотворно развиваться. В 2009 Элинор Остром получила нобелевскую премию по экономике за свои исследования функционирования информационных сообществ. В частности, она показала, что они очень схожи с общественными благами: в обоих случаях использование ресурса кем-либо не препятствует использованию этого же ресурса другими. При этом в отличие от общественных благ информационные ресурсы не просто допускают широкое использование, но также и обогащаются за счет этого использования.

Еще одной составной частью движения стало развитие идей свободного программного обеспечения и программного обеспечения с открытым кодом (среди наиболее известных ее поборников можно назвать Ричарда Столмана и Тима О’Райли). Это было первым практическим экспериментом открытого проекта, который существует за счет использования, переработки и расширения общедоступного ресурса. Вскоре после того, как такая модель показала свою жизнеспособность, начало развиваться движение за открытую культуру, у истоков которого стоял стэнфордский юрист Лоуренс Лессиг.

В декабре 2007 г. в США прошла встреча активистов движения открытости (в ней, в частности, принимали участие Лессиг, О’Райли, а также покойный Аарон Шварц), на которой было проработано и определено понятие открытых государственных данных, а также критерии оценки открытости. Всё это происходило в преддверии очередных президентских выборов в США, и активисты действительно рассчитывали, что кандидаты в президенты так или иначе будут учитывать принципы открытости в своей повестке.

Ключевой идеей было то, что раскрытие государственных данных необходимо и востребовано в той же мере, что и раскрытие данных научных. Модель строилась на трех основаниях: открытости, участии (партиципационности) и сотрудничестве. Только в случае с открытыми государственными данными к этому добавлялись также методы общественно-политической коммуникации. Всё это обсуждалось как проект реалистичный, но едва ли реализуемый в ближайшее время, однако на практике эту идею взял на вооружение Барак Обама, который еще во время своей предвыборной кампании (2008 г.) пообещал сделать правительство более прозрачным и подотчетным гражданам. Годом позже во время выступления на TED-конференции создатель веба Тим Бернерс-Ли призвал к раскрытию «сырых» (необработанных) данных не только правительства, но и частные организации.

Теперь, когда правительства по всему миру начали раскрывать официальные данные, проблематика вышла на новый уровень, и обнаружились новые подводные камни. В первую очередь, это касается спроса на данные и их предложения. Государственные порталы открытых данных появились, как появилось (в той или иной мере) и соответствующая законодательная база. Но доступность данных по-прежнему оставляет желать лучшего. Отчасти это связано с тем, что официальные публикаторы предпочитают раскрывать данные в тех случаях, когда это легко сделать, с точки зрения технической, юридической или политической, и избегают делать это в тех случаях, когда публиковать труднее. Например, ведомства обычно стараются не раскрывать то, что считается «чувствительной информацией». В итоге большое количество данных, по социальной тематике остаются закрытыми.

Еще одна проблема, связанная с публикацией, — это отсутствие единых международных стандартов. Они постепенно формируются, но этот процесс еще далеко не завершен. А пока стандартов нет, данные, предоставляемые разными странами и даже разными городами в одной и той же стране, бывает трудно сопоставлять и тем более использовать в масштабных приложениях.

Спрос на открытые данные также представляет собой проблему. Действительно, людей, поддерживающих риторику открытости, и экономистов, усматривающих большой потенциал в использовании открытых данных, много. Но желающих что-либо сделать с открытыми данными на практике еще сравнительно мало. Есть некоторое число стартапов, которые пытаются выстроить свою бизнес-модель на использовании открытых данных. Кроме того, созданием проектов на основе опубликованных данных занимаются разработчики, участвующие в конкурсах, которые устраивают правительства и НКО в качестве стимула. Здесь главная проблема в том, что для использования новых открытых ресурсов нужны навыки, которые еще мало у кого есть. В частности, это умение находить данные, оценивать их качество, обрабатывать, устанавливать в них закономерности (здесь желательно знание статистики и статистического машинного обучения). Процесс накопления навыков, безусловно идет, но прежде чем практика работы с открытыми данными станет рутиной, конечно, пройдет некоторое время.