Как языковые модели понимают наш язык
В статье Pragmatic Constraint on Distributional Semantics ученые из Центра ИИ НИУ ВШЭ и Лаборатории естественного языка ВШЭ - Яндекс Елизавета Жемчужина, Николай Филиппов и Иван Ямщиков рассказали о том, что люди и языковые модели по-разному работают с семантикой, то есть со значением.
Как поясняет Иван Ямщиков, «поведение модели противоречит нашей интуиции». Человек может взять небольшой фрагмент текста и придумать несколько разных вариантов финала, для языковой модели это сложно. Когда перед человеком большой текст, то он легко и понятно завершит его. Модель в такой ситуации начинает путаться.
Для работы языковых моделей используют методы токенизации. Текст разбивают на токены - кусочки, это могут быть части слов, целые слова, и малоизученные токены из нескольких слов. «Мы решили детально изучить свойства “полезных”, т.е. попавших в словарь языковой модели токенов. В ходе исследования выяснили, какие именно смысловые характеристики отличают эти токены, можно ли выделять среди них группы, — рассказывает Елизавета Жемчужина, стажер-исследователь Лаборатории естественного языка ВШЭ – Яндекс. — Также мы обратили внимание на количественные оценки семантических свойств токенов и их соотношения с определенными давно изученными статистическими характеристиками. Например, как они проявляются в ранк-частотном распределении Ципфа в большом текстовом корпусе. В результате, нам удалось показать, что в начале распределения в основном сосредоточены многозначные токены, которые при попадании в разный контекст приобретают разный смысл, а в конце — семантически однозначные, фактически атомарные по смыслу, те, которые “сами себе контекст”».
Если нескольким людям дать токен первого типа (прагмы) и попросить составить предложение с ним, то ответы будут достаточно сильно различаться: это будет несколько принципиально разных контекстов, потому что токен семантически широкий и позволяет вариативно продолжать себя. Если же дать токен второго типа (идеи), то контекст, которым люди его окружают, однотипен, возможны мелкие различия в 1-2 словах, но в целом их предложение будут сходны, этому способствует однозначность токена.
Если же попросить языковую модель создать контекст вокруг токена и оценить ее степень уверенности в том, что она сгенерировала, то она будет более уверена в токенах первого типа, чем второго. То есть когда человек не уверен в токенах первого типа, он создает разноплановый контекст — у языковой модели наоборот. В этом, с одной стороны, наблюдается противоречие с нашей интуицией, с тем, как человек воспринимает, а с другой — у ученых есть дальнейшее поле для исследований. Так как языковые модели хуже справляются с более длинными текстовыми последовательностями. Исследователи видят одну из причин в дисбалансе токенов первого и второго типа при формировании словаря и планируют дальнейшее изучение вопроса.
Исследование поможет усовершенствовать языковые модели, которые работают с длинными текстовыми последовательностями.
«Этот теоретический результат, на самом деле, конечно, имеет прямое приложение: улучшение словаря приведет к улучшению качества языковых моделей при работе в том числе с длинными последовательностями. Это влияет практически на все конечные задачи. И если еще несколько лет назад на вопрос, какие конкретно задачи, можно было пуститься в перечисление: машинный перевод, анализ токсичности в соцсетях, помощь при выставлении диагноза и т.д. То сейчас самый разумный ответ: для любой задачи, которую можно сформулировать текстом, — подводит итог Елизавета Жемчужина».
Исследования стали возможны благодаря поддержке индустриального партнера — MTS AI.