Мероприятия

Имеет ли робот те же права на информацию, что и человек?

Публикуем видео-запись дата-среды «Сбор данных и методология парирования блокировки роботов» из цикла «Большие данные в экономике». Спикер Сергей Бершадский работал в качестве backend-разработчика и системного архитектора с такими проектами, как медицинский портал ЕМИАС.инфо, Play2Live, toptal и др. Выступление посвящено особенностям извлечения данных из сайтов, их очистке и структуризации. Сергей поделился собственным опытом веб-скрейпинга с использованием библиотек python scrapy, beautiful soup, asyncio. Сергей также разобрал методы break-the-wall на примере запросов в Yandex и Google. Это подходы, которые позволяют имитировать браузер и автоматически его использовать. Презентация опубликована по ссылке. Смотрите запись дата-среды: Организаторами дата-среды выступили АНО «Инфокультура», Ассоциация участников рынка данных и РАНХиГС. Всем…

Приглашаем на День открытых дверей в РАНХиГС

Всех, кто планирует в 2019 году продолжить свое обучение и пройти повышение квалификации в сфере экономики и анализа данных, приглашаем 13 июля 2019 на День открытых дверей в РАНХиГС. Информационная культура и Ассоциация участников рынка данных являются партнерами магистерских программ, которые будут представлены на Дне открытых дверей: «Цифровая экономика». Онлайн-магистратура по цифровой экономике позволяет приобрести знания математики, экономики и современных методов анализа данных. Программа организована совместно Московским физико-техническим институтом (МФТИ) и Академией народного хозяйства и государственной службы при Президенте Российской Федерации (РАНХиГС). «Системы больших данных в экономике». Одна из фундаментальных идей магистратуры — участие магистранта в научно-исследовательской деятельности на основе задач из реальной…

«Цифровой рост»: как прошел хакатон для будущих магистрантов РАНХиГС

16-22 июня 2019 года состоялся хакатон «Цифровой рост», организованный РАНХиГС, АНО «Информационная культура» и Ассоциацией участников рынка данных. В хакатоне принимали участие выпускники бакалавриата ИТ-специальностей, а также начинающие специалисты, которые хотят продолжить свое обучение, повысить квалификацию и получить востребованное образование. Участники  соревновались в решении задач на машинное обучение и текстовый анализ, а также в создании различных проектов на основе открытых финансовых данных. На открытии хакатона Олег Сенько, ведущий научный сотрудник Федерального исследовательского центра «Информатика и управление» РАН, доктор физико-математических наук, прочитал участникам лекцию об анализе данных и машинном обучении. После чего эксперты и менторы хакатона рассказали подробнее о задачах и…

Приглашаем на хакатон «Цифровой рост»

16 и 22 июня 2019 года  АНО «Информационная культура», Ассоциация участников рынка данных и РАНХиГС проведут хакатон «Цифровой рост». Приглашаем к участию выпускников бакалавриата ИТ-специальностей, а также начинающих специалистов, которые хотят продолжить свое обучение, повысить квалификацию и получить востребованное образование. Участники будут соревноваться в решении задач на машинное обучение, текстовый анализ, маркетинговую аналитику, а также в создании различных типов проектов на основе данных: расширения для веб-браузеров, инфографику, прототипы интернет-сервисов и мобильных приложений, боты. Участники могут решить одну из предложенных задач или разработать свой проект на основе предложенных данных. Хакатон пройдет в несколько этапов: 16 июня состоится распределение задач по командам,…

Дата-среда: «Как извлекать полезную информацию из текста – система PolyAnalyst»

29 мая приглашаем на четвертую дата-среду из цикла «Большие данные в экономике». Тема встречи — «Как извлекать полезную информацию из текста – система PolyAnalyst». Дата-среду проведет Сергей Ананян, генеральный директор компании Мегапьютер (www.megaputer.com), кандидат физмат наук, специалист по решению прикладных задач анализа данных. Надежное извлечение полезной информации из текстовых документов открывает путь к решению многих важнейших бизнес-задач в самых разных областях деятельности. Учитывая сложности, с которыми сталкиваются при попытке извлечения информации системы, основанные только на машинном обучении, мы представим альтернативный подход: использование специального языка запросов, базирующегося на результатах углубленного лингвистического и семантического анализа текста. Мы продемонстрируем практическую реализацию этого подхода…

Семантический анализ текста в неевклидовой геометрии. Видео

24 апреля состоялась дата-среда из цикла «Большие данные в экономике», который совместно организуют АНО «Инфокультура», Ассоциация участников рынка данных и РАНХиГС. На дата-среде Артур Федоров, специалист по машинному анализу естественного языка в группе операционного моделирования Yandex.Market, рассказал о модели Пуанкаре — гиперболического пространства для текстового анализа, которая сохраняет скрытую иерархическую структуру текста. Сравнил стандартные методы нахождения векторных представлений текстов с методом, основанным на неевклидовых геометриях. Эксперт показал, как решение таких задач, как машинный перевод или анализ тональности текстов становится более точным, если сохраняется контекстное значение омонимов. Будучи математическими по своей природе, методы машинного обучения и анализа данных требуют численные величины…

Хакатон по открытым данным HACKNOWLEDGE

25-26 мая 2019 года  Ассоциация интернет-издателей и НП «Викимедиа РУ» проводят хакатон по использованию свободных данных и свободного контента. «Информационная культура» оказывает информационную поддержку мероприятию. К участию приглашаются программисты, проектировщики, дизайнеры и специалисты по работе с профильными сервисами. Открытие хакатона проведут эксперты проектов «Викимедиа» и Цифровой платформы «Ноосфера». Мероприятие стартует 25 мая в 10:00 в пространстве «Благосфера». В течение всего дня команды будут работать над собственными проектами в рамках номинаций USEthon и CREATEthon. Им предстоит расширение и повышение эффективности использования обществом свободных материалов, таких ресурсов как Викиданные, Википедия и другие проекты Викимедиа, «Ноосфера», «Научный корреспондент», Europeana, OpenAIRE. Образовательную часть составят…

Дата-среда: «Сбор данных и методология парирования блокировки роботов»

22 мая приглашаем на третью дата-среду из цикла «Большие данные в экономике». Тема встречи — «Сбор данных и методология парирования блокировки роботов». Проведет дата-среду Сергей Бершадский, ведущий backend-разработчик и системный архитектор, работал с различными проектами, среди которых медицинский портал ЕМИАС.инфо, Play2Live, toptal.com и др. Эксперт расскажет об особенностях извлечения данных из сайтов, их очистки и структуризации. Во время встречи будет рассмотрен весь процесс извлечения данных: веб-скрейпинг, обработка данных, очистка данных, а также способы break-the-wall на примере Yandex и Google. Предложенные кейсы основаны на использовании библиотек python scrapy, beautiful soup, asyncio. Будут рассмотрены подходы, позволяющие имитировать браузер, автоматическое использование имеющегося браузера,…

Дискриминатон: большие маленькие люди

В прошедшие выходные команда Инфокультуры участвовала во II хакатоне «Новой газеты» по дата-журналистике. Заглавная тема — дискриминация по разным признакам. Участники исследовали проблемы маленьких людей с помощью больших данных.   Мы предложили задачу «Меньшинство решает за большинство: люди, которые предлагают законы — кто они», в рамках которой можно было изучить, как устроен законотворческий процесс в России, и выявить факторы, влияющие на принятие того или иного законопроекта. Открытые данные по законотворческой деятельности доступны по ссылке.   — Команда «Рубильник» представила проект «Ядерный щит Рунета» с результатами исследования того, как общество и СМИ реагировали на принятие закона о «суверенном интернете». Авторы: Ксения…

Дата-среда: «Семантический анализ текста в неевклидовой геометрии»

24 апреля 2019 приглашаем на дата-среду из цикла «Большие данные в экономике». Тема второй встречи цикла — «Преимущества векторных представлений слов в неевклидовых геометриях». Как аналитики в сфере бизнеса, так и академические исследователи зачастую сталкиваются с необходимостью семантического анализа текста. Он может быть применен в таких задачах, как определение тематики и тональности новостных сообщений или предсказание размера заработной платы по описанию вакансии. На дата-среде Артур Федоров, специалист по машинному анализу естественного языка в группе операционного моделирования Yandex.Market, расскажет о модели Пуанкаре — гиперболического пространства для текстового анализа, которая сохраняет скрытую иерархическую структуру текста. Лектор сравнит стандартные методы нахождения векторных представлений…