Ксения Орлова

«Инерционная открытость»: эксперты Счетной палаты подготовили рейтинг, посвященный открытости госструктур

Только четыре российских министерства можно назвать полностью открытыми. К такому выводу пришли эксперты из АНО «Инфокультура» и Центра перспективных управленческих решений в докладе «Открытость государства в России», подготовленном для Счетной палаты. Результатом исследования стал рейтинг министерств и ведомств. Эксперты разработали методологию, которая позволяет оценить уровень взаимодействия ведомств и граждан по трем показателям: Открытость информации – это широкий спектр правовых и коммуникационных инструментов, которыми должны располагать граждане для получения информации, находящейся в ведении государственных органов; Открытые данные – механизм получения информации (данных) от государства в проактивном режиме. Это означает, что государство публикует данные независимо от наличия запросов, то есть в автономном и регулярном режиме; Открытый…

Дата-среда: «Как извлекать полезную информацию из текста – система PolyAnalyst»

29 мая приглашаем на четвертую дата-среду из цикла «Большие данные в экономике». Тема встречи — «Как извлекать полезную информацию из текста – система PolyAnalyst». Дата-среду проведет Сергей Ананян, генеральный директор компании Мегапьютер (www.megaputer.com), кандидат физмат наук, специалист по решению прикладных задач анализа данных. Надежное извлечение полезной информации из текстовых документов открывает путь к решению многих важнейших бизнес-задач в самых разных областях деятельности. Учитывая сложности, с которыми сталкиваются при попытке извлечения информации системы, основанные только на машинном обучении, мы представим альтернативный подход: использование специального языка запросов, базирующегося на результатах углубленного лингвистического и семантического анализа текста. Мы продемонстрируем практическую реализацию этого подхода…

Дата-среда: «Сбор данных и методология парирования блокировки роботов»

22 мая приглашаем на третью дата-среду из цикла «Большие данные в экономике». Тема встречи — «Сбор данных и методология парирования блокировки роботов». Проведет дата-среду Сергей Бершадский, ведущий backend-разработчик и системный архитектор, работал с различными проектами, среди которых медицинский портал ЕМИАС.инфо, Play2Live, toptal.com и др. Эксперт расскажет об особенностях извлечения данных из сайтов, их очистки и структуризации. Во время встречи будет рассмотрен весь процесс извлечения данных: веб-скрейпинг, обработка данных, очистка данных, а также способы break-the-wall на примере Yandex и Google. Предложенные кейсы основаны на использовании библиотек python scrapy, beautiful soup, asyncio. Будут рассмотрены подходы, позволяющие имитировать браузер, автоматическое использование имеющегося браузера,…

Дискриминатон: большие маленькие люди

В прошедшие выходные команда Инфокультуры участвовала во II хакатоне «Новой газеты» по дата-журналистике. Заглавная тема — дискриминация по разным признакам. Участники исследовали проблемы маленьких людей с помощью больших данных.   Мы предложили задачу «Меньшинство решает за большинство: люди, которые предлагают законы — кто они», в рамках которой можно было изучить, как устроен законотворческий процесс в России, и выявить факторы, влияющие на принятие того или иного законопроекта. Открытые данные по законотворческой деятельности доступны по ссылке.   — Команда «Рубильник» представила проект «Ядерный щит Рунета» с результатами исследования того, как общество и СМИ реагировали на принятие закона о «суверенном интернете». Авторы: Ксения…

Архив Дня открытых данных-2019

2-3 марта 2019 года Информационная культура совместно с Фондом развития интернет-инициатив, Ассоциацией участников рынка данных и Комитетом гражданских инициатив провели День открытых данных в Москве. В этой публикации мы собрали презентации и видеозаписи выступлений спикеров и отдельных мастер-классов. Диалог: Открытость государства Видео Спикеры: Алексей Кудрин, председатель Счетной Палаты Российской Федерации. Кирилл Варламов, директор ФРИИ. Государство и бизнес: участники рынка данных Видео-плейлист направления Дискуссия о Национальной системе управления данными Видео. Участники: Иван Фост, руководитель направления в Аналитическом центре при Правительстве РФ; Иван Бегтин, директор Ассоциации участников рынка данных; Сергей Алимбеков, зам.директора по технологическому развитию ФРИИ. Модератор — Василий Буров, член экспертного…

Реестр субсидий: качество данных о распределении 16 трлн руб.

Распределение субсидий происходит без объявления аукциона или тендера — госорганы решением Правительства или самостоятельно определяют, кто сколько средств получит и на что их сможет потратить. На федеральном уровне “Реестр соглашений о предоставлении субсидий федерального бюджета” (реестр субсидий) публикуется на Едином портале бюджетной системы (ЕПБС). Он содержит сведения о субсидиях, субвенциях и иных межбюджетных трансфертах бюджетам субъектов РФ, юрлицам и ИП. Мы изучили структуру реестра и представленные данные и выявили ряд особенностей, которые нужно учитывать при подготовке аналитики. Впрочем, сразу нужно отметить, что благодаря Федеральному Казначейству и Минфину России на федеральном уровне данные о субсидиях машиночитаемые и регулярно обновляются, в то…

Открытые НКО: перезапуск проекта

«Открытые НКО» — это портал, где собраны в удобном виде различные данные о деятельности российских некоммерческих организаций (НКО) и их государственном финансировании. В обновленной версии проекта мы значительно расширили состав источников данных. Нам удалось сопоставить данные из Единого государственного реестра юридических лиц (ЕГРЮЛ) с реестром Минюста России, сравнение их баз данных по некоммерческому сектору тянет на отдельное аналитическое исследование. Теперь база данных проекта учитывает также данные бухгалтерских балансов Росстата, данные об арбитражах и исполнительных производствах, контракты, федеральные субсидии и гранты. Также мы улучшили интерфейс поиска, так как обогащение базы данных дало нам возможность добавить новые фильтры. Иван Бегтин, директор АНО «Информационная культура»:…

Приглашаем на пятый ежегодный День открытых данных в Москве

2-3 марта 2019 года состоится пятый ежегодный День открытых данных в Москве. Организаторами события выступят АНО “Информационная культура” (https://www.infoculture.ru/), Фонд развития интернет-инициатив (https://www.iidf.ru/) и Ассоциация участников рынка данных (http://aurd.ru/). День открытых данных (Open Data Day) — международный проект, организованный Фондом открытых знаний (Open Knowledge International) при поддержке разных межгосударственных и международных организаций. Эта инициатива помогает продвигать концепцию информационной открытости и прозрачности (http://opendataday.org/). Ежегодно с 2015 года Инфокультура проводит День открытых данных в Москве, а также оказывает информационную поддержку мероприятиям, проходящим в различных регионах России (http://opendataday.ru/). От небольшого хакатона единомышленников за пять лет мероприятие выросло до масштабной конференции, которая в 2018…

Инфокультура подводит итоги и поздравляет с наступающим Новым 2019 годом

Инфокультура подводит итоги 2018 года. Мы составили для вас дайджест с полезными ссылками, где представили все основные результаты проектов. Госфинансы Проект КГИ “Госзатраты” запустил бета-тестирование раздела “Субсидии”, в котором можно получить данные о всех федеральных субсидиях, их распределителях и получателях. Мы разработали несколько новых аналитических инструментов: расширение для браузера Google Chrome для получения данных о госзаказчиках в один клик; телеграм-бот (@csDownloaderBot) и скрипт для выгрузки контрактов по заданным параметрам, телеграм-бот для получения статистики об участнике госзаказа по ИНН; телеграм-канал с самыми дорогими контрактами по отраслям (@clearspending); а также “научили” читателей, как “быстро разбогатеть на госзакупках”, выпустив перевод англоязычного руководства; подготовили…

Госзатраты: Телеграм-бот для получения данных о госконтрактах

Проект КГИ «Госзатраты» разработал телеграм-бота и скрипт для быстрой выгрузки контрактов по заданным параметрам. Чаще всего к нам поступают запросы исследователей и журналистов на подготовку разных выборок данных. Например, “прислать все контракты Ленинградской области за 2017 год”, “найти все контракты на закупку молока по 44-ФЗ” или “выгрузить контракты дороже 1 млрд рублей”. Теперь нужные вам данные вы можете выгружать самостоятельно, используя телеграм-бот или запуская скрипт в командной строке. Для получения интересующих данных нужно заполнить файл-шаблон параметрами (можно указать, например, регион, ФЗ, диапазон суммы, диапазон дат заключения контрактов и т.д.), отправить его телеграм-боту @csdownloaderbot и указать почту, на которую будут отправлены…