Проектные группы
Машинное обучение на графах – руководитель Дмитрий Игнатов
Разработка методов и моделей векторизации сетевых данных в задачах машинного обучения на графах. Разработка новых методов рекомендательных систем на основе векторных моделей сетей. Методы машинного обучения для структурной информации и рекомендательных систем обычно сводятся к ручному отбору признаков, сэмплированию или матричной факторизации. Такие методы часто привязаны к конкретной задаче и не масштабируемы для работы с большими данными. В последние годы векторные модели представления графов стали активной темой изучения в исследовательском сообществе, более 400 моделей предложено за последние три года. Основным их недостатком является отсутствие универсальной конструкции, которая поддерживала работу с разнообразными графами и разными типами признаков для вершин и ребер, при этом обобщая модель на динамически меняющиеся данные и при при этом сохраняя невысокую вычислительную сложность. Мы планируем построить несколько типов моделей, которые комбинируют различные подходы на основе сэмплирования окрестностей, структурной схожести, двойственного вложения графа инцидентности и графовых сверточных нейронных сетях для того, чтобы иметь возможность обрабатывать (не)ориентированные (не)взвешенные графы с возможной признаковой информацией у вершин и ребер, а также строить векторные модели с учетом максимизации качества для типовых задач машинного обучения на графах, такие как нахождение сообществ, много-классовая классификация, предсказание ребер и предсказание связей в графе знаний, а также рекомендательным системам. Так же планируется исследовать взаимосвязь таких методов как спектральной графовой кластеризации, сингулярного разложения матриц инцидентности и векторных представлений для графов сходства объектов.
Члены рабочей группы:
2020-2021
1. Макаров Илья Андреевич, старший преподаватель департамента анализа данных и искусственного интеллекта факультета компьютерных наук;
2. Жуков Леонид Евгеньевич, профессор департамента анализа данных и искусственного интеллекта факультета компьютерных наук;
3. Киселев Дмитрий Андреевич, аспирант 1 курса Аспирантской школы по компьютерным наукам НИУ ВШЭ;
4. Муратова Анна Александровна, аспирант 2 курса Аспирантской школы по компьютерным наукам НИУ ВШЭ;
5. Николич Стефан, студент 1 курса магистерской программы «Науки о данных» факультета компьютерных наук.
6. Сендерович Мария Аркадьевна, стажер-исследователь научно-учебной лаборатории моделей и методов вычислительной прагматики факультета компьютерных наук.
2021-2022
1. Макаров Илья Андреевич, доцент департамента анализа данных и искусственного интеллекта факультета компьютерных наук;
2. Киселев Дмитрий Андреевич, аспирант 3 курса Аспирантской школы по компьютерным наукам НИУ ВШЭ;
3. Муратова Анна Александровна, аспирант 4 курса Аспирантской школы по компьютерным наукам НИУ ВШЭ;
4. Николич Стефан, аспирант 1 курса Аспирантской школы по компьютерным наукам НИУ ВШЭ.
5. Горшков Сергей Сергеевич, аспирант 1 курса Аспирантской школы по компьютерным наукам НИУ ВШЭ.
6. Яковлева Александра Сергеевна, студент 1 курса магистерской программы ФТиАД факультета компьютерных наук.
Публикации
1. Ilya Makarov, Ksenia Korovina, Dmitrii Kiselev: JONNEE: Joint Network Nodes and Edges Embedding. IEEE Access 9: 144646-144659 (2021)
electronic edition via DOI (open access)
2. Tianxing M, Lushnov M, Ignatov DI, Shichkina YA, Zhukova NA, Vodyaho AI.2021. An ontology-based approach to the analysis of the acid-base state of patients at operative measures. PeerJ Computer Science 7:e777
https://doi.org/10.7717/peerj-cs.777
Межъязыковые методы выделения значений многозначных слов – руководитель Николай Арефьев
Разработка методов и инструментов для выделения значений многозначных слов, применимых к различным естественным языкам. Проблема многозначности слов и словосочетаний — одно из базовых свойств естественных языков, вызывающих существенные сложности при создании приложений автоматического анализа текстов. Задача проекта — разработать методы и инструменты выделения значений многозначных слов, опирающиеся на доступные в больших объемах неразмеченные текстовые коллекции и не требующие дорогостоящей ручной лингвистической разметки. В отличие от предыдущих работ по данной теме, в данном проекте предполагается изначально использовать недавно появившиеся межъязыковые нейронные статистические языковые модели (такие как mBERT, XLM, XLM-R) для создания методов и инструментов, применимых к большому числу естественных языков (предполагается применимость примерно к 100 естественным языкам, на которых обучены указанные модели; среди них русский и английский).
Члены рабочей группы:
1. Арефьев Николай Викторович, младший научный сотрудник научно-учебной лаборатории моделей и методов вычислительной прагматики департамента анализа данных и искусственного интеллекта ФКН ВШЭ;
2. Рачинский Максим Юрьевич, магистерская программа «Науки о данных» ФКН ВШЭ, 1 курс.
3. Панченко Александр Иванович, научный сотрудник Центра вычислительных и инженерных наук Сколковского института науки и технологий;
Члены проектной группы, периодически привлекаемые:
4. Казаков Роман Михайлович, бакалаврская программа «Фундаментальная и компьютерная лингвистика» ФКН ВШЭ, 4 курс.
5. Хомский Даниил Владимирович, бакалаврская программа «Прикладная математика и информатика», ВМК МГУ, 4 курс.
Нашли опечатку?
Выделите её, нажмите Ctrl+Enter и отправьте нам уведомление. Спасибо за участие!
Сервис предназначен только для отправки сообщений об орфографических и пунктуационных ошибках.