• A
  • A
  • A
  • ABC
  • ABC
  • ABC
  • А
  • А
  • А
  • А
  • А
Regular version of the site
Article
Efficient indexing of peptides for database search using Tide

Acquaye F. L., Kertesz-Farkas A., Stafford Noble W.

Journal of Proteome Research. 2023. Vol. 22. No. 2. P. 577-584.

Article
Mint: MDL-based approach for Mining INTeresting Numerical Pattern Sets

Makhalova T., Kuznetsov S., Napoli A.

Data Mining and Knowledge Discovery. 2022. P. 108-145.

Book chapter
Modeling Generalization in Domain Taxonomies Using a Maximum Likelihood Criterion

Zhirayr Hayrapetyan, Nascimento S., Trevor F. et al.

In bk.: Information Systems and Technologies: WorldCIST 2022, Volume 2. Iss. 469. Springer, 2022. P. 141-147.

Book chapter
Ontology-Controlled Automated Cumulative Scaffolding for Personalized Adaptive Learning

Dudyrev F., Neznanov A., Anisimova K.

In bk.: Artificial Intelligence in Education. Posters and Late Breaking Results, Workshops and Tutorials, Industry and Innovation Tracks, Practitioners’ and Doctoral Consortium -23rd International Conference, AIED 2022, Durham, UK, July 27–31, 2022, Proceedings, Part II. Springer, 2022. P. 436-439.

Book chapter
Triclustering in Big Data Setting

Egurnov D., Точилкин Д. С., Ignatov D. I.

In bk.: Complex Data Analytics with Formal Concept Analysis. Springer, 2022. P. 239-258.

Article
Triclusters of Close Values for the Analysis of 3D Data

Egurnov D., Ignatov D. I.

Automation and Remote Control. 2022. Vol. 83. No. 6. P. 894-902.

Article
Deep Convolutional Neural Networks Help Scoring Tandem Mass Spectrometry Data in Database-Searching Approaches

Kudriavtseva P., Kashkinov M., Kertész-Farkas A.

Journal of Proteome Research. 2021. Vol. 20. No. 10. P. 4708-4717.

Article
Language models for some extensions of the Lambek calculus

Kanovich M., Kuznetsov S., Scedrov A.

Information and Computation. 2022. Vol. 287.

Automatic Text Processing

2024/2025
Academic Year
RUS
Instruction in Russian
5
ECTS credits
Type:
Compulsory course
When:
4 year, 1, 2 module

Instructor

Программа дисциплины

Аннотация

Курс «Автоматическая обработка текстов» является вводным в проблематику компьютерной лингвистики и построения программных систем для обработки текстов на естественном языке. Изучаются основные методы автоматической обработки текста (АОТ), а также виды необходимых для этого лингвистических ресурсов. Обзорно рассматриваются современные приложения в области АОТ и принципы их построения. Лекции, включающие теоретический материал курса, дополняются практическими занятиями по изучению соответствующих интернет-ресурсов и прикладного программного обеспечения, а также домашними заданиями по их применению.
Цель освоения дисциплины

Цель освоения дисциплины

  • Освоение основ автоматической обработки текстов на естественном языке, включая базовые навыки работы с лингвистическими процессорами и ресурсами
Планируемые результаты обучения

Планируемые результаты обучения

  • Знать основные особенности неструктурированных текстов на ЕЯ и принципы их графематического, морфологического, синтаксического и статистического анализа
  • Знать типичные прикладные системы в области АОТ и их архитектурные особенности
  • Иметь представление о видах лингвистических ресурсов, используемых в различных системах обработки текстов
  • Понимать ограничения компьютерных моделей автоматической обработки текстов
  • Уметь применять готовые программные модули анализа текстов и открытые лингвистические ресурсы для решения частных задач АОТ
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Введение
  • Начальные этапы обработки текста
  • Статистические характеристики текстов и корпусная лингвистика
  • Подходы к автоматическому анализу синтаксиса и семантики текста
  • Лингвистические ресурсы
  • Прикладные задачи АОТ
Элементы контроля

Элементы контроля

  • неблокирующий Домашнее задание
  • неблокирующий Вопросы по итогам лекции
    Ответы на один или несколько вопросов в конце лекции или семинара. На ответ дается 5-10 минут. Правильный ответ засчитывается студенту в качестве одного "условного" балла. Студент, набравший 6 и более баллов по итогам курса получает дополнительно 0.5 к своей итоговой оценке.
  • неблокирующий Проект
    Проект, который выполняется группой студентов в течение учебного курса.
  • неблокирующий Экзамен
    Устный экзамен в форме ответа на вопросы из билетов. Для подготовки к ответу студенту дается не более 5 минут.
Промежуточная аттестация

Промежуточная аттестация

  • 2024/2025 2nd module
    0.25 * Вопросы по итогам лекции + 0.25 * Домашнее задание + 0.25 * Проект + 0.25 * Экзамен
Список литературы

Список литературы

Рекомендуемая основная литература

  • Indurkhya N., Damerau F. J. Handbook of natural language processing. – Chapman and Hall/CRC, 2010. – 704 pp.

Рекомендуемая дополнительная литература

  • Dale R., Moisl H., Somers H. (ed.). Handbook of natural language processing. – CRC Press, 2000. – 1015 pp.
  • Olive, J., Christianson, C., McCary, J. (ed.). Handbook of natural language processing and machine translation: DARPA global autonomous language exploitation. – Springer Science & Business Media, 2011.

Авторы

  • Ильвовский Дмитрий Алексеевич
  • Антропова Лариса Ивановна
  • Большакова Елена Игоревна