КОНЦЕПЦИЯ ЛАБОРАТОРИИ АНАЛИЗА СЕМАНТИКИ
В рамках данной лаборатории (далее - ЛАНС), создаваемой в рамках Центра, предполагается исследование естественного языка как единого целого в рамках естественнонаучной парадигмы с помощью методов компьютерных наук и прикладной математики – здесь предполагается, что язык представляет собой совокупность не столько слов, сколько смыслов, которые в рамках современных представлений могут быть представлены векторами в евклидовом (семантическом) пространстве (эмбеддингами). Указанное представление позволяет провести широкомасштабный теоретический анализ языка с использованием методов теории сложных систем, топологического анализа данных, теории хаотических систем, методов анализа нелинейных уравнений в частных произведениях, теории сложных сетей с целью установления его широкомасштабной структуры (внутренние размерности; “дырки” в языке; свойства семантических траекторий и т.д.); предполагается проводить указанный анализ на как можно более широком круге языков.
Практическими приложениями указанных теоретических результатов должны стать новые подходы для построения больших языковых моделей (в рамках обучения на многообразиях (manifold learning) и больших моделей языка (в рамках методов интерпретируемого искусственного интеллекта). В качестве практических проектов (с высокой вероятностью коммерциализации) здесь выступают: “Поймай бога” (уже реализуется в рамках СП-5 (Приоритет-2030)); “Шутки в сторону” (генерация комиристических текстов); “Древо знаний” (создание в рамках методов интерпретируемого искусственного интеллекта структуры научного и инженерного знания).
Лаборатория по своей природе представляется междисциплинарной, что предполагает активное взаимодействие с другими факультетами и лабораториями НИУ ВШЭ: ФГН (Е.В. Рахилина, Э.С. Клышинский); МИЭМ (И.А. Лубанцевский); ИКН (А.Н. Шестакова; В.А. Ключарёв; А.Е. Осадчий); МЛ АТП ФКН (В.Я. Бухштабер; А.К. Бернадотт); МЦ ABP (Ф.Т. Алескеров).
Создаваемая лаборатория анализа семантики (далее - ЛАНС) предполагает создание крупномасштабной модели естественного языка, на основе исследований всего множества n-грамм естественного языка как единого объекта. С практической точки зрения это позволит разработать новые подходы к созданию больших языковых моделей в рамках обучения на многообразиях (manifold learning). Здесь также просматриваются возможности создания нового класса семантических технологий.
Нашли опечатку?
Выделите её, нажмите Ctrl+Enter и отправьте нам уведомление. Спасибо за участие!
Сервис предназначен только для отправки сообщений об орфографических и пунктуационных ошибках.