Семинары 2024
Семинар “Автоматическая обработка и анализ текстов” посвящен различным задачам обработки (токенизации, восстановлению сегментации, частеречной разметки и синтаксического парсинга) и анализа текстовой информации (задачам извлечения информации, построения и использования графов знаний, конструированию вопросно-ответных систем, классификации текстов и др.).
Онлайн семинар "Investigation of transformer modifications for various long documents processing tasks"
Дата: 8 февраля, 18:00
Спикер: Ариж Аль Адел - аспирант 4ого года обучения, Школы Радиотехники и Компьютерных Технологий (ФРКТ), Московского физико-технического института.
Аннотация: The following research presentation delves into the study aimed at proposing modifications to the attention mechanism of the encoder-decoder transformer. The proposed enhancements seek to overcome the limitations of attention while processing texts that exceed 512 tokens, with the ultimate goal of expanding the transformer input to thousands of tokens. This study gradually progresses from the initial stages of model design to the current, improved design, with experiments conducted on different natural language processing (NLP) tasks such as translation, Masked Language Modeling (MLM), Question Answering (QA), and summarization. The presentation concludes stage by stage with an overview of each stage's outcomes.
Запись семинара доступна по ссылке
Presentation
Онлайн-семинар: "Усовершенствование трансформерных методов поиска и генерации ошибок под влиянием языковой интерференции в учебных текстах".
Дата: 13.06.2024
Спикер: Харламова Дарья Сергеевна, студент 3 курса ОП «Фундаментальная и компьютерная лингвистика», НИУ ВШЭ-Москва и Стажер-исследователь научно-учебной лаборатории учебных корпусов.
Аннотация: В представляемой работе исследуются возможности современных нейросетевых моделей при решении задачи автоматического поиска ошибок интерференции в текстах на иностранном (английском) языке, созданных русскоязычными студентами. В докладе будет представлена система разметки мотивированных интерференцией ошибок, мультиклассовый классификатор, который представляет собой дотренированную на размеченных предложениях roberta-base, а также будут рассмотрены различные подходы к аугментации данных для такой задачи. В ряду таких подходов рассматривается GAN, дообучение моделей distilgpt2 и GPT2, использование больших языковых моделей, использование линейного кода на сгенерированных правильных предложениях. В результате сравнения успешности классификатора, дообученного на реальных данных, и разных конфигурациях аугментированных датасетов, полученных с помощью вышеупомянутых методов, будет сделан вывод о том, что самым лучшим качеством разметки обладает классификатор, дообученный на датасете из реальных данных и данных, аугментированных с помощью линейного кода.
Запись семинара доступна по ссылке.
Онлайн-семинар "Предсказание образовательных успехов студентов на основе информации из профиля в социальной сети ВКонтакте"
Дата: 24.10.2024
Время: 18:00
Спикер: Сергей Горшков, аспирант ДАДиИИ ФКН, НИУ ВШЭ-Москва и стажер-исследователь НУЛ ММВП.
Аннотация: В представляемой работе исследуются возможности методов обработки естественного языка и машинного обучения для выявления студентов с высокими академическими показателями на основе анализа их подписок на сообщества в социальной сети ВКонтакте. В докладе будет представлена система создания цифрового профиля студента, которая включает тематическое моделирование сообществ, анализ эмоциональной окраски и тональности контента, а также метрики сложности текста. Также будут рассмотрены различные подходы к созданию векторных представлений сообществ. В результате решения задачи классификации с помощью градиентного бустинга были выделены и проинтерпретированы наиболее важные признаки, определяющие студентов с высокими академическими показателями. В заключение будут рассмотрены методы обработки мультимодальных данных из социальных сетей, включая текстовые данные со страницы, медиаконтент (фото, видео), музыкальные предпочтения для расширения цифрового профиля, а также его использование для прогнозирования вероятности отчисления.
Слайды
Совместный онлайн семинар: Коломенский научный семинар (руководитель – проф., д.ф.-м.н, В.П. Лексин) и НУЛ ММВП
О криптоморфизме между решетками подмножеств Дэвиса, атомистическими решетками, системами замкнутых множеств при выполнении аксиомы отделимости T1.
Дата: 08.11.2024
Время: 15:00
Докладчик: Дмитрий Игнатов, НИУ ВШЭ, Москва, Россия
Аннотация: В докладе пойдет речь о семействах замкнутых множеств (известных как семейства Мура) для случая, когда все одноэлементные множества семейства замкнуты. Задача порождения таких семейств для объектно-признаковых или транзакционных данных хорошо известна в майнинге данных (Data Mining) как поиск частых (замкнутых) множеств товаров (Frequent Itemset Mining). В частности, нами приводится количество таких строгих (включающих пустое множество) и нестрогих семейств для 6 элементов (признаков). Мы также приводим количество таких неэквивалентных семейств Мура относительно всех перестановок базового множества вплоть до n = 6. Поиск в OEIS и существующей литературе показал совпадение найденных чисел (с учетом изоморфизма семейств) с числом решеток на основе объединения множеств, полученным Д.М. Дэвисом (последовательность OEIS A235604, до n=5), и c |L_n| (без учета изоморфизма) – числом атомистических решеток на n атомах, найденным С. Мейпс (до n=6), соответственно. Нами установлено взаимно-однозначные соответствия между этими тремя типами решеток на основе соответствий Галуа и анализа формальных понятий (Formal Concept Analysis). Кратко обсуждаются два использованных перечислительных алгоритма, а также дополнительные результаты их работы – наибольший размер семейства множеств без пересечений для n=6, наша гипотеза для n=7, верхняя граница числа атомистических решеток L_n и некоторые структурные свойства L_n, основанные на теории экстремальных решеток.
Исследуемые автором последовательности OEIS:
Препринт: https://arxiv.org/
Слайды (PDF, 15,29 Мб)
Рабочий семинар – обсуждение научной работы BERT4FCA
Дата: 28.11.2024
Время: 18:00
Докладчик: Вероника Зыкова, студентка 2-го курса магистратуры «Компьютерная лингвистика» и стажер-исследователь НУЛ ММВП
Аннотация: На семинаре обсудим статью «BERT4FCA: A Method for Bipartite Link Prediction using Formal Concept Analysis and BERT», в которой в феврале этого года был представлен метод использования BERT, модели на основе архитектуры Transformers, для предсказания связей в двудольном графе на основе формальных понятий, полученных с помощью алогоритмов Анализа Формальных Понятий (АФП; Formal Concept Analysis (FCA)). В отличие от предшественников, данный метод позволяет выучивать не только состав концепта, но и отношения соседства между ними, что должно привести к улучшению обобщающей способности модели и росту качества предсказания.
Рабочий семинар по проблемам Genome-Wide Association Studies методами интерпретируемого машинного обучения – GWAS&IML (будет анонсирован)
Нашли опечатку?
Выделите её, нажмите Ctrl+Enter и отправьте нам уведомление. Спасибо за участие!
Сервис предназначен только для отправки сообщений об орфографических и пунктуационных ошибках.