Семантический анализ текста в неевклидовой геометрии. Видео

24 апреля состоялась дата-среда из цикла «Большие данные в экономике», который совместно организуют АНО «Инфокультура», Ассоциация участников рынка данных и РАНХиГС.
На дата-среде Артур Федоров, специалист по машинному анализу естественного языка в группе операционного моделирования Yandex.Market, рассказал о модели Пуанкаре — гиперболического пространства для текстового анализа, которая сохраняет скрытую иерархическую структуру текста. Сравнил стандартные методы нахождения векторных представлений текстов с методом, основанным на неевклидовых геометриях. Эксперт показал, как решение таких задач, как машинный перевод или анализ тональности текстов становится более точным, если сохраняется контекстное значение омонимов.

Будучи математическими по своей природе, методы машинного обучения и анализа данных требуют численные величины в качестве входных данных. Таким образом, возникает проблема нахождения числового эквивалента для данных нечисловой природы. В частности, в области обработки естественного языка для слов ищутся представления в некотором векторном пространстве.

Причем, к указанным представлениям возникают естественные требования, основанные на особенностях предметной области. Так, применительно к естественному языку, хотелось бы, чтобы расстояние между векторными представлениями слов отражало их семантическую близость, а арифметические операции были согласованы со здравым смыслом, как в классическом примере с «король — мужчина + женщина = королева».

Стандартом в данной области считаются методы, основанные на обучении контексту слова по большим корпусам документов. Но векторные представления слов, полученные с помощью данных методов, не могут в полной мере сохранить скрытую синтаксическую и семантическую иерархию, которой подчинены слова в предложении. Для решения указанной проблемы в 2017 г. были предложены представления на основе гиперболической геометрии, чьи свойства позволяют естественным образом сохранять древовидную и графовую структуру данных.

На дата-среде было показано, что предложенные методы позволяют находить векторные представления в большей степени сохраняющие семантические взаимоотношения между словами, чем стандартные методы. Более того, модели легко обобщаются на другие типы данных, обладающие схожими свойствами.

Всем тем, кто хотел бы повысить квалификацию, системно и углубленно изучить современные способы анализа данных в экономике, мы рекомендуем магистерские программы РАНХиГС: «Системы больших данных в экономике» и «Цифровая экономика и современная комбинаторика» (дистанционная программа).

Смотрите запись выступления

Презентация: https://drive.google.com/file/d/11S_6465lzajxI7D2XK6mxRc6k9OQnAPX/view

Код: https://drive.google.com/drive/folders/1NMw366JPfT6_IPe2ZvaTzwu6vOEJUH9c?usp=sharing

Публикации по теме:
• Mikolov et al. “Linguistic Regularities in Continuous Space Word Representations”, 2013 — https://www.aclweb.org/anthology/N13-1090
• Mikolov et al. “Exploiting Similarities among Languages for Machine Translation”, 2013 — https://arxiv.org/pdf/1309.4168.pdf
• Nickel et al. “Learning Continuous Hierarchies in the Lorentz Model of Hyperbolic Geometry”, 2018 — https://arxiv.org/pdf/1806.03417.pdf
• De Sa et al. “Representation Tradeoffs for Hyperbolic Embeddings”, 2018 — https://arxiv.org/pdf/1804.03329.pdf
• Chamberlain et al. “Neural Embeddings of Graphs in Hyperbolic Space”, 2017 — https://arxiv.org/pdf/1705.10359.pdf
• Khrulkov et al. “Hyperbolic Image Embeddings”, 2019 — https://arxiv.org/pdf/1904.02239.pdf
• Nickel et al. “Poincaré Embeddings for Learning Hierarchical Representations”, 2017 — https://arxiv.org/pdf/1705.08039.pdf