Открытые данные – это данные, опубликованные в открытом доступе и предоставляемые всем бесплатно. Открытые данные можно воспроизводить, распространять, обрабатывать, комбинировать и повторно использовать без каких-либо ограничений за исключением требования указывать источник.

Обычно под открытыми данными понимаются данные, опубликованные в Интернете.

Наиболее важные критерии открытости данных – это машиночитаемый формат и наличие оговоренных условий, разрешающих распространение и повторное использование.

Машиночитаемые форматы – это форматы, позволяющие обрабатывать данные с помощью компьютера. Например, CSV, JSON, XML, XLS. Данные, опубликованные в человекочитаемом формате (например, PDF), можно отнести к категории открытых, но очень условно. Отсутствие машиночитаемого формата делает данные фактически непригодными к использованию.

Для публикации данных на условиях, отвечающих критериям открытости, часто используются международные открытые лицензии. Существует несколько типов таких лицензий, разработанных разными организациями и признаваемых по всему миру. Это, прежде всего, открытые лицензии Creative Commons, Open Data Commons. Также существуют локальные открытые лицензии, действующие только в определенных юрисдикциях (например,Data License Germany, Open Government License Canada). Многие из этих лицензий требуют при распространении указывать источник. Еще одно допустимое принципами открытости требование – это распространение производных продуктов на тех же условиях, что и исходный.

Наиболее крупный потенциальный поставщик открытых данных – это государство, так как государственные ведомства в ходе своей работы собирают множество данных в самых разных сферах общественно-экономической жизни страны. Идея раскрытия государственных данных основывается на том, что эти данные собираются на средства налогоплательщиков и, соответственно, должны быть им доступны. Кроме того, важным источником данных могут служить научно-исследовательские институты и некоммерческие организации – как локальные, так и международные.

В качестве характеристики открытых данных часто используется так называемая пятизвездочная модель, разработанная Тимом Бернерсом-Ли. Эта схема предлагает следующую градацию функциональности данных:

* Данные доступны в Сети по открытой лицензии хотя бы в человекочитаемом формате (например, в виде скана документа). Использовать их неудобно, но, по крайней мере, они уже опубликованы и общедоступны.

** Данные доступны в Сети и представлены в структурированном машиночитаемом формате (например, таблица Excel). Минус Excel в том, что это закрытый (проприетарный) формат, который может содержать недоступную пользователям информацию, а также в силу своей специфики плохо пригоден для обработки некоторыми программными средствами. Тем не менее, данные структурированы и могут быть обработаны компьютером.

*** Данные доступны в открытом (непроприетарном) формате (например, CSV). В отличие от Excel, этот формат не позволяет скрыть от пользователей информацию и совместим с самыми разными программными инструментами.

**** Опубликованные данные имеют идентификаторы (URI, Universal Resource Identificator), благодаря которым на них можно ссылаться напрямую (пример на сайте 5stardata.info).

***** Данные представлены не изолированно, а связаны с другими данными, к которым пользователь может обращаться по мере надобности и тем самым формировать свое представление о данных с учетом их контекста (пример на сайте 5stardata.info).