• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Контакты

Адрес:  г. Москва,                АУК "Покровский бульвар", Покровский б-р, д.11, каб. S837

Телефон:                                  +7(495) 531-00-00*27269      +7(495) 531-00-00*27268

 

Email: mbabenko@hse.ru,                 mholod@hse.ru,                       dtroshchenko@hse.ru

 

Статья
Observation of the Λb0→χc1 (3872) pK− decay

Maevskiy, A., Boldyrev, A, Derkach, D. et al.

Journal of High Energy Physics. 2019. No. 09(2019)28. P. 1-19.

Глава в книге
Revisiting the Inverted Indices for Billion-Scale Approximate Nearest Neighbors
В печати

Babenko A., Baranchuk D., Malkov Y.

In bk.: 15th European Conference, Munich, Germany, September 8-14, 2018, Proceedings. Springer, 2018. P. 1-15.

Препринт
Flexibility of normal affine horospherical varieties

Gayfullin S.

math. arxive. Cornell University, 2018

Темы курсовых работ, выполняемых под руководством сотрудников базовой кафедры Яндекс

На этой странице приведен перечень тем курсовых (КР) и выпускных квалификационных (ВКР) работ, выполняемых под руководством сотрудников базовой кафедры Яндекс.

Полный список тем КР и ВКР для студентов бакалавриата образовательной программы «Прикладная математика и информатика», который включает в том числе и перечисленные ниже темы, см. на странице образовательной программы.

Полный список тем КР и ВКР для магистрантов образовательной программы «Науки о данных» появится на сайте программы в ближайшее время.

 Магистратура

1. Многокритериальное тематическое моделирование текстовых коллекций.

Современные средства текстового поиска предназначены для ответов на короткие текстовые запросы. Этого не достаточно при поиске научной и профессиональной информации, в особенности новой или содержащей неизвестную пользователю терминологию. Поиск и мониторинг новых тенденций, терминологии, профессиональных сообществ всё ещё требует больших затрат времени и высокой квалификации. Существует барьер входа в новую профессиональную область. Ответ на вопрос «где находится передний край науки по данной теме» по-прежнему достигается, главным образом, путём личного общения, следовательно, субъективен и не общедоступен. Каким должен быть идеальный информационный поиск для учёного, преподавателя, специалиста? По всей видимости, единого ответа нет. Он должен быть разным. Одна из идей состоит в том, чтобы принимать в качестве запроса длинный текст — статью, фрагмент статьи или несколько статей, систематизировать результаты поиска в виде «дорожной карты», с помощью которой пользователю будет легче изучать данную область, выделять наиболее важные факты, готовить обзоры, в кратчайший срок накапливать собственную экспертизу в новой области знания. Миссия тематического поиска —  Приблизить Знание к Пользователю. Знание раскидано по Интернету. Необходимо его выделить, систематизировать по темам и представить в виде, более удобном и разнообразном, чем ранжированный список в рекламном обрамлении. Современные поисковые системы не решают эту задачу, так как они нацелены не на концентрацию Знания, а на удовлетворение потребительских интересов среднего пользователя. Система поиска научной и профессиональной информации — это инструмент интеллектуальной элиты общества, доступный всем. Наша исследовательская группа разрабатывает математические и информационные технологии для создания такой поисковой системы. Они основаны на вероятностном тематическом моделировании (Probabilistic Topic Modeling) и гибридных подходах, объединяющих статистические и лингвистические методы анализа текстов.

Вероятностное тематическое моделирование развивается с конца 90-х годов и находит всё больше неожиданных применений в областях, далёких от анализа текстов на естественных языках: при обработке изображений, видео, музыки, биомедицинских сигналов, нуклеотидных и аминокислотных последовательностей. Наши методы применимы и к этим задачам.

Основные направления исследований и разработок:

  • Разработка методов регуляризации тематических моделей (topic model) в проекте с открытым кодом BigARTM.
  • Лингвистическая регуляризация вероятностных тематических моделей.
  • Гиперграфовые тематические модели для социальных сетей, рекламных сетей, рекомендательных систем.
  • Тематические модели этносоциального дискурса в социальных сетях.
  • Иерархические тематические модели научных публикаций.
  • Технологии разведочного поиска (exploratory search) научного и профессионального контента. 

 

2. Информационный анализ электрокардиосигналов.

Все знают, что по электрокардиограмме можно ставить диагнозы сердечно-сосудистых заболеваний. Профессором д.м.н. В.М.Успенским предложен новый метод диагностики, позволяющий диагностировать широкий спектр заболеваний внутренних органов по ЭКГ. Многие болезни сказываются на работе сердца задолго до проявления клинических симптомов, что позволяет использовать ЭКГ для ранней диагностики. За 15 лет применения этой технологии накоплена обучающая выборка по двадцати тысячам больных и нескольким десяткам заболеваний. Вычислительные эксперименты подтверждают, что диагностика широкого спектра заболеваний по одной ЭКГ с использованием методов машинного обучения может достигать удивительной точности. Наша научная группа занимается всесторонней статистической экспертизой этого метода диагностики и разработкой новых принципов анализа дискретизированных биомедицинских сигналов. В частности, важным направлением является применение тематического моделирования и методов компьютерной лингвистики. Фактически, речь идёт о поиске оптимальной реконструкции (восстановлении синтаксиса и семантики) языка, порождаемого протекающими в организме человека сложнейшими физиологическими процессами, и при этом несущего значимую диагностическую информацию о состоянии здоровья человека.

Основные направления исследований и разработкок:

  • Разработка методов предварительной обработки данных цифровых электрокардиографов.
  • Разработка алгоритмов машинного обучения для диагностики заболеваний внутренних органов человека по электрокардиограмме.
  • Применение методов символьной динамики (symbolic dynamics) в системах медицинской диагностики.
  • Применение тематического моделирования для классификации символьных последовательностей, получаемых в результате дискретизации био-медицинских сигналов.

Магистратура

  1. Робастные статистические решения на основании большого массива данных
  2. Робастное оценивание параметров распределений и минимаксные оценки
  3. Корректировка критерия хи-квадрат на основании априорных данных об отклонениях в распределении наблюдений от модельного распределения
  4. Исследование влияния редких событий на свойства методов анализа данных
  5. Исследование свойств интернет трафика с использованием процессов с различным масштабом времени


Бакалавриат

  1. Формирование статистической структуры для анализа данных измерения трафика сервера данных
  2. Формирование статистической структуры для анализа данных структур геномов
  3. Особенности формирования статистической структуры для анализа параметров самоподобных процессов
  4. Сравнительный анализ эффективности статистических критериев при возрастании объема данных наблюдений