Ксения Орлова

Компания «Умный архив» поддерживает проект Национальный цифровой архив

Компания «Умный архив» выделила пространство для хранения данных проекта Национальный цифровой архив. Команда «Умного архива» занимается хранением и обработкой больших объемов данных, а также архивами и мультимедийными данными – их преобразованием из бумаги или плёнки в цифровую форму. Выражаем благодарность компании «Умный архив» за поддержку проекта Инфокультуры по интернет-архивации. Зачем это нужно? Суть инициативы – сохранять веб-сайты и цифровые материалы, которые представляют общественную ценность и находятся под риском уничтожения. Мы собираем: Исторические данные: бюджеты и статистические справочники СССР, РСФСР, союзных республик; любые реестры, телефонные справочники и иные исторические базы данных в бумажном виде; Официальные сайты органов государственной власти, официальных лиц, политических…

Счетная палата открывает исходный код своих новых программ

Счетная палата выходит на новый уровень прозрачности и первой из российских государственных органов открывает свои исходные коды. Доступными для общественности станут новые проекты контрольного ведомства по автоматизации работы инспекторов и сотрудников. «Идет работа над данными проектами. Эту работу мы хотим вести открыто, то есть публиковать тот код, который разрабатывается. Открывая репозитории, мы демонстрируем свою открытость, говорим о том, что разработчики могут сообщать об ошибках, участвовать. Это работа сделает Счетную палату более привлекательной для аналитиков и разработчиков», — сообщил эксперт Счетной палаты Иван Бегтин. Основными пользователями кода, как ожидается, станут программисты, дизайнеры и аналитики. Но на первом этапе акцент больше будет…

Данные, истории, инструменты: как работает дата-отдел «Новой газеты»

В связи с делом Ивана Голунова в последние дни много говорят о расследовательской журналистике в России. Мы хотим на кейсах «Новой газеты» рассказать, как работают расследователи и почему сегодня невозможно представить их работу без открытых данных. Этой весной журналисты дата-отдела «Новой газеты» Алеся Мароховская, Ирина Долинина и Алексей Смагин выступили на Дне открытых данных и рассказали, как они работают над своими материалами, используя в основе открытые данные и алгоритмы. — «Госзаказ и тайные холдинги»: https://goszakaz.novayagazeta.ru/, — журналисты на основе данных ЕГРЮЛ и данных о госзакупках проанализировали госконтракты крупнейших государственных компаний, госкорпораций и их дочерних структур с 2011 по 2017 гг. с…

Открытое государство в цифровой реальности: данные или статистика

8 июня на Петербургском международном экономическом форуме прошли публичные дебаты на тему «Открытое государство в цифровой реальности: мониторинг национальных целей». Представители госслужбы, академического сообщества и общественных организаций обсудили такую сторону цифровизации государства, как открытость информации, данных и их понятность для граждан. Что такое открытость государства и как она влияет на эффективность работы? Где взять открытые данные, чтобы измерить достижимость национальных целей и нацпроектов? Какие данные нужны экономике и гражданам: статистика или большие данные? Как принимать решения на основе данных, если их качество не вызывает доверия?   Председатель Счетной Палаты РФ Алексей Кудрин считает, что внедрение лучших международных практик по открытым данным…

«Инерционная открытость»: эксперты Счетной палаты подготовили рейтинг, посвященный открытости госструктур

Только четыре российских министерства можно назвать полностью открытыми. К такому выводу пришли эксперты из АНО «Инфокультура» и Центра перспективных управленческих решений в докладе «Открытость государства в России», подготовленном для Счетной палаты. Результатом исследования стал рейтинг министерств и ведомств. Эксперты разработали методологию, которая позволяет оценить уровень взаимодействия ведомств и граждан по трем показателям: Открытость информации – это широкий спектр правовых и коммуникационных инструментов, которыми должны располагать граждане для получения информации, находящейся в ведении государственных органов; Открытые данные – механизм получения информации (данных) от государства в проактивном режиме. Это означает, что государство публикует данные независимо от наличия запросов, то есть в автономном и регулярном режиме; Открытый…

Дата-среда: «Как извлекать полезную информацию из текста – система PolyAnalyst»

29 мая приглашаем на четвертую дата-среду из цикла «Большие данные в экономике». Тема встречи — «Как извлекать полезную информацию из текста – система PolyAnalyst». Дата-среду проведет Сергей Ананян, генеральный директор компании Мегапьютер (www.megaputer.com), кандидат физмат наук, специалист по решению прикладных задач анализа данных. Надежное извлечение полезной информации из текстовых документов открывает путь к решению многих важнейших бизнес-задач в самых разных областях деятельности. Учитывая сложности, с которыми сталкиваются при попытке извлечения информации системы, основанные только на машинном обучении, мы представим альтернативный подход: использование специального языка запросов, базирующегося на результатах углубленного лингвистического и семантического анализа текста. Мы продемонстрируем практическую реализацию этого подхода…

Дата-среда: «Сбор данных и методология парирования блокировки роботов»

22 мая приглашаем на третью дата-среду из цикла «Большие данные в экономике». Тема встречи — «Сбор данных и методология парирования блокировки роботов». Проведет дата-среду Сергей Бершадский, ведущий backend-разработчик и системный архитектор, работал с различными проектами, среди которых медицинский портал ЕМИАС.инфо, Play2Live, toptal.com и др. Эксперт расскажет об особенностях извлечения данных из сайтов, их очистки и структуризации. Во время встречи будет рассмотрен весь процесс извлечения данных: веб-скрейпинг, обработка данных, очистка данных, а также способы break-the-wall на примере Yandex и Google. Предложенные кейсы основаны на использовании библиотек python scrapy, beautiful soup, asyncio. Будут рассмотрены подходы, позволяющие имитировать браузер, автоматическое использование имеющегося браузера,…

Дискриминатон: большие маленькие люди

В прошедшие выходные команда Инфокультуры участвовала во II хакатоне «Новой газеты» по дата-журналистике. Заглавная тема — дискриминация по разным признакам. Участники исследовали проблемы маленьких людей с помощью больших данных.   Мы предложили задачу «Меньшинство решает за большинство: люди, которые предлагают законы — кто они», в рамках которой можно было изучить, как устроен законотворческий процесс в России, и выявить факторы, влияющие на принятие того или иного законопроекта. Открытые данные по законотворческой деятельности доступны по ссылке.   — Команда «Рубильник» представила проект «Ядерный щит Рунета» с результатами исследования того, как общество и СМИ реагировали на принятие закона о «суверенном интернете». Авторы: Ксения…

Архив Дня открытых данных-2019

2-3 марта 2019 года Информационная культура совместно с Фондом развития интернет-инициатив, Ассоциацией участников рынка данных и Комитетом гражданских инициатив провели День открытых данных в Москве. В этой публикации мы собрали презентации и видеозаписи выступлений спикеров и отдельных мастер-классов. Диалог: Открытость государства Видео Спикеры: Алексей Кудрин, председатель Счетной Палаты Российской Федерации. Кирилл Варламов, директор ФРИИ. Государство и бизнес: участники рынка данных Видео-плейлист направления Дискуссия о Национальной системе управления данными Видео. Участники: Иван Фост, руководитель направления в Аналитическом центре при Правительстве РФ; Иван Бегтин, директор Ассоциации участников рынка данных; Сергей Алимбеков, зам.директора по технологическому развитию ФРИИ. Модератор — Василий Буров, член экспертного…

Реестр субсидий: качество данных о распределении 16 трлн руб.

Распределение субсидий происходит без объявления аукциона или тендера — госорганы решением Правительства или самостоятельно определяют, кто сколько средств получит и на что их сможет потратить. На федеральном уровне “Реестр соглашений о предоставлении субсидий федерального бюджета” (реестр субсидий) публикуется на Едином портале бюджетной системы (ЕПБС). Он содержит сведения о субсидиях, субвенциях и иных межбюджетных трансфертах бюджетам субъектов РФ, юрлицам и ИП. Мы изучили структуру реестра и представленные данные и выявили ряд особенностей, которые нужно учитывать при подготовке аналитики. Впрочем, сразу нужно отметить, что благодаря Федеральному Казначейству и Минфину России на федеральном уровне данные о субсидиях машиночитаемые и регулярно обновляются, в то…