• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Контакты

Адрес: 109028, г. Москва, Покровский бульвар, д. 11

Телефон: +7 (495) 531-00-00 *27254

Email: computerscience@hse.ru

 

Руководство
Первый заместитель декана Вознесенская Тамара Васильевна
Заместитель декана по научной работе и международному сотрудничеству Объедков Сергей Александрович
Заместитель декана по учебно-методической работе Самоненко Илья Юрьевич
Заместитель декана по развитию и административно-финансовой работе Плисецкая Ирина Александровна
Образовательные программы
Бакалаврская программа

Компьютерные науки и анализ данных

4 года
Очная форма обучения
40/5
40 платных мест
5 платных мест для иностранцев
RUS+ENG
Обучение ведется на русском и частично на английском языке
Бакалаврская программа

Прикладная математика и информатика

4 года
Очная форма обучения
145/70/20
145 бюджетных мест
70 платных мест
20 платных мест для иностранцев
RUS+ENG
Обучение ведется на русском и частично на английском языке
Бакалаврская программа

Прикладной анализ данных

4 года
Очная форма обучения
90/12
90 платных мест
12 платных мест для иностранцев
ENG
Обучение ведётся полностью на английском языке
Бакалаврская программа

Программная инженерия

4 года
Очная форма обучения
135/100/20
135 бюджетных мест
100 платных мест
20 платных мест для иностранцев
RUS+ENG
Обучение ведется на русском и частично на английском языке
Бакалаврская программа

Экономика и анализ данных

4 года
Очная форма обучения
205/160/20
205 бюджетных мест
160 платных мест
20 платных мест для иностранцев
RUS+ENG
Обучение ведется на русском и частично на английском языке
Магистерская программа

Анализ данных в биологии и медицине

2 года
Очная форма обучения
27/5/1
27 бюджетных мест
5 платных мест
1 платное место для иностранцев
RUS+ENG
Обучение ведется на русском и частично на английском языке
Магистерская программа

Магистр по наукам о данных

2 года
Очная форма обучения
21/9
21 платное место
9 платных мест для иностранцев
ENG
Обучение ведётся полностью на английском языке
Магистерская программа

Математика машинного обучения

2 года
Очная форма обучения
18/5/1
18 бюджетных мест
5 платных мест
1 платное место для иностранцев
ENG
Обучение ведётся полностью на английском языке
Магистерская программа

Машинное обучение и высоконагруженные системы

2 года
Очная форма обучения
28/2
28 платных мест
2 платных места для иностранцев
RUS
Обучение ведётся полностью на русском языке
Магистерская программа

Науки о данных (Data Science)

2 года
Очная форма обучения
32/10/10
32 бюджетных места
10 платных мест
10 платных мест для иностранцев
RUS/ENG
Обучение ведется на русском или английском языках
Магистерская программа

Системная и программная инженерия

2 года
Очная форма обучения
35/5/5
35 бюджетных мест
5 платных мест
5 платных мест для иностранцев
ENG
Обучение ведётся полностью на английском языке
Магистерская программа

Системное программирование

2 года
Очная форма обучения
25/5/1
25 бюджетных мест
5 платных мест
1 платное место для иностранцев
RUS
Обучение ведётся полностью на русском языке
Магистерская программа

Современные компьютерные науки

2 года
Очная форма обучения
35/5
35 бюджетных мест
5 платных мест
RUS
Обучение ведётся полностью на русском языке
Магистерская программа

Финансовые технологии и анализ данных

2 года
Очная форма обучения
50/1
50 платных мест
1 платное место для иностранцев
RUS+ENG
Обучение ведется на русском и частично на английском языке
Статья
Sampling discretization and related problems

Kashin B. S., Kosov E., Limonova I. V. et al.

Journal of Complexity. 2022. Vol. 71.

Статья
Fast parametric curve matching (FPCM) for automatic spike detection

Kleeva D., Soghoyan G., Komoltsev I. et al.

Journal of Neural Engineering. 2022. Vol. 19. No. 3.

Статья
On free semigroups of affine maps on the real line

Kolpakov A., Talambutsa A.

Proceedings of the American Mathematical Society. 2022. Vol. 150. No. 6. P. 2301-2307.

Глава в книге
Empirical Study of Transformers for Source Code

Chirkova N., Troshin S.

In bk.: ESEC/FSE 2021: Proceedings of the 29th ACM Joint Meeting on European Software Engineering Conference and Symposium on the Foundations of Software Engineering. Association for Computing Machinery (ACM), 2021. P. 703-715.

Статьи исследователей ФКН приняты на конференцию EMNLP 2021

Статьи исследователей ФКН приняты на конференцию EMNLP 2021

Ежегодная конференция EMNLP (Conference on Empirical Methods in Natural Language Processing), посвященная методам обработки естественного языка, проходит 7-11 ноября 2021 года.

Пять статей исследователей ФКН были приняты на EMNLP 2021:

По нашей просьбе авторы рассказали о своих исследованиях:

Артемова Екатерина Леонидовна
Научно-учебная лаборатория моделей и методов вычислительной прагматики: Научный сотрудник

Современные модели генерации текстов показывают впечатляющие результаты: они могут сочинить стихотворение, изменить стиль текстов и даже написать осмысленное эссе на свободную тематику. Однако такие модели могут быть использованы в злонамеренных целях, например, для генерации фейковых новостей, отзывов на продукты и политического контента. Так, возникает новая задача: научиться отличать тексты, написанные человеком, от текстов, сгенерированных нейросетевыми языковыми моделями. Именно этой задаче посвящена наша статья «Artificial Text Detection via Examining the Topology of Attention Maps». 

В этой статье мы исследовали применимость методов топологического анализа данных (ТАД) к задаче обнаружения сгенерированных предложений. Мы предположили, что топологические признаки, получаемые из языковых моделей, могут кодировать необходимые для задачи поверхностные и структурные свойства предложений.

Вообще, методы ТАД очень редко используют в обработке текстов. Поэтому, наш первый результат — это определение различных типов топологических признаков: мы показали, как посчитать числа Бетти, баркоды и графовые расстояния до шаблонов на основании карт внимания. Топологические признаки формируют векторное представление, которое можно считать аналогом стандартных векторных представлений, и которое можно использовать для обучения классификаторов. В итоге, классификаторы, использующие топологические представления, обладают явными преимуществами: во-первых, в некоторых случаях они работают лучше, чем стандартные нейросетевые классификаторы. Во-вторых, они более устойчивы: классификатор, обученный определять предложения, сгенерированные одной моделью, может обнаружить предложения, сгенерированные и другой моделью.

Завершающая часть статьи посвящена интерпретации топологических признаков. Мы показали, что как и предполагалось, топологические признаки успешно кодируют длину предложения и глубину синтаксического дерева. В целом, наша статья — это междисциплинарный проект, выполненный на стыке математики и обработки текстов. Мы надеемся, что наши результаты привлекут внимание и математиков, и коллег-лингвистов, и зададут новые исследовательские вопросы для обеих дисциплин.

Один из авторов статьи — профессор департамента математики факультета экономических наук НИУ ВШЭ Дмитрий Пионтковский.

Арефьев Николай Викторович
Научно-учебная лаборатория моделей и методов вычислительной прагматики: Младший научный сотрудник

Руководитель проектной группы «Межъязыковые методы выделения значений многозначных слов» научно-учебной лаборатории моделей и методов вычислительной прагматики.

 

Современный подход к обучению нейросетей решению задач обработки текстов предполагает три этапа обучения. На первом этапе мы показываем нейросети тексты, в которых некоторые слова спрятаны, и учим нейросеть угадывать спрятанные слова. Для этого этапа не требуется какой-либо разметки обучающих текстов человеком, благодаря чему удается обучать сети на терабайтах текстов, скачанных из Интернета. На втором этапе нейросеть учится тому же самому, но уже на текстах из целевой предметной области (например, отзывах о фильмах) — так она адаптируется к текстам определенного типа, с которым ей предстоит дальше работать. На третьем этапе нейросеть учится решать уже целевую задачу (например, отличать положительные отзывы от отрицательных), для этого используются размеченные людьми примеры, количество которых обычно сравнительно невелико.

В предыдущих моделях слова, которые нейросеть училась угадывать на первых двух этапах, выбирались из текстов случайно, в большинстве своем являлись просто служебными словами, никак не связанными с целевой задачей. В нашей статье мы предлагаем учить модель угадывать прежде всего слова, связанные с целевой задачей (например, положительные и отрицательные характеристики фильмов). Это позволяет уже на этапе адаптации сфокусировать ресурсы сети на обнаружении тех признаков, которые релевантны решению целевой задачи, что ускоряет адаптацию и улучшает качество итоговой модели. Эксперименты показали, что предложенный нами подход особенно эффективен при адаптации на больших коллекциях текстов.

Сапарина Ирина Олеговна
Научно-учебная лаборатория компании Яндекс: Стажер-исследователь

Мы рассматриваем задачу перевода вопроса на естественном языке к базе данных в выполнимый запрос. Решение этой задачи позволит работать с базами данных без знания языков запросов.

Многие исследования направлены на генерацию SQL запросов. Чаще всего для этого используют нейросетевые модели, которые обучаются на данных, содержащих базы, вопросы к ним и соответствующие правильные запросы. Однако собирать такую разметку сложно, так как нужно, чтобы аннотаторы знали язык запросов для их написания (например, SQL). 

В нашей работе мы хотели отказаться от использования разметки с запросами для обучения, но при этом сохранить возможность модели генерировать выполняемые запросы. Для этого мы использовали промежуточные представления вопроса, которые в отличие от полноценных запросов можно собрать краудсорсингом.

Наша система состоит из двух компонент: генерация промежуточных представлений по вопросу и перевод этих представления в запросы на языке SPARQL. Важно, что только первая компонента реализована с помощью нейросети, и эта нейросеть обучается на простой для сбора разметке. В результате мы получили систему, которая работает на уровне лучших существующих методов по генерации SQL, но при этом менее требовательна к разметке.