Семинары 2013 года

19.12.2013

Докладчик: Масютин Алексей Александрович, аспирант НИУ ВШЭ, закончил магистратуру факультета экономики, программа "Математические методы анализа экономики".
Тема: Поведенческий скоринг с использованием цепей Маркова

Аннотация: Behavioral-scoring – вид банковского скоринга, в основе которого оценка наиболее вероятных финансовых действий заемщика. Такая система позволяет прогнозировать изменение платежеспособности клиента, корректировать установленные для него лимиты.Принципиальное отличие behavioral-scoring от аpplication-scoring в том, что кредит уже выдан и банк, исходя из действий заемщика, оценивает возможность наступления дефолта по уже существующим долговым обязательствам. В модели расчета присутствует одна из самых важных переменных, которая не может быть использована при первичном обращении за займом, - данные о просрочках платежей по выданному кредиту. Для обновления вероятностей дефолта по вновь поступающим данным удобно использовать цепи Маркова. Они содержательно точно отражают природу процесса выплат по кредиту.

05.12.2013

Speaker: Boris Gutkin, Professor Ecole Normale Supérieure
Title: A new computational model of motivated behavior: normative rationality of defending homeostasis

Annotation: What is the primary motivation for behavior? Procreation? Ensuring survival of the social group? Survival of the individual? The latter requres that physiological stability and homesotatic maintenance of the organism is ensured despite environmental perturbations. Efficient regulation of internal homeostasis and defending it against perturbations requires complex behavioral strategies. However, the computational principles mediating brain’s homeostatic regulation of reward and associative learning remain undefined. Here we develop a formal definition for primary rewards, as outcomes fullfilling physiological needs. We then build a normative theory showing how learning motivated behavior is modulated by the internal state of the animal. The theory alows us to prove that seeking rewards is equivalent to the fundamental objective of physiological stability. This shows that defending physiological stability is rational from an economic point of view. We further give a formal basis for temporal discounting of reward, as it is necessary for physiologically rational behavioral patterns. Our theory also explains how animals learn to act predictively to preclude prospective homeostatic challenges, and attributes a normative computational role to the modulation of midbrain dopaminergic activity by hypothalamic signals.

28.11.2013

Speaker: Dominik Slezak, University of Warsaw & Infobright Inc., Poland
Title: Rough Sets - Modern Applications & Scalability Challenges

Annotation: The theory of rough sets provides clear mathematical and algorithmic foundations for handling incompleteness and uncertainty in massive amounts of data. Rough set methods are often utilized in data mining and knowledge discovery in order to induce various types of decision and classification models. On the one hand, there are a number of approaches to feature selection, which refers to the notion of a decision reduct developed within the theory of rough sets for the purpose of describing irreducible subsets of features determining decisions at roughly the same level as all attributes. On the other hand, there are approximated versions of computational models known from data mining and machine learning, such as rough clustering, rough support vector machines, or rough neural networks.

In this talk, we refer to both above trends in rough set research and applications. With regard to the latter one, we show how rough set paradigms of computing with approximations can be used to scale standard calculations over huge volumes of data. As a practical case study, we examine Infobright’s analytical RDBMS technology based on hybridization of the principles of columnar stores and rough computing. With regard to the former out of the above-mentioned trends, we show several extensions of decision reducts developed for different purposes, such as ensemble classifier learning and stream data processing. In all cases, we pay a special attention to scalability of the underlying computations.

О докладчике: Dominik Slezak received his D.Sc. (habilitation) in 2011 from Institute of Computer Science, Polish Academy of Sciences, and Ph.D. in Computer Science in 2002 from University of Warsaw, Poland. In 2005, he co-founded Infobright Inc., where he is currently working as chief scientist. He is also associate professor at Faculty of Mathematics, Informatics and Mechanics, University of Warsaw. He used to hold positions of assistant professor at University of Regina, SK, Canada, and in Polish-Japanese Institute of Information Technology in Warsaw.

Dominik serves as associate editor for several international scientific journals, including Information Sciences and Intelligent Information Systems. He is also in editorial board of Springer’s Communications in Computer and Information Science. He edited over 20 books and volumes of conference proceedings. He authored over 100 papers for books, journals and conferences. He delivered plenary talks at over 20 international conferences. His research interests include Rough Sets, Knowledge Discovery and Databases. In 2012-2014 he serves as president of IRSS.

21.11.2013

Докладчик: Масютин Алексей Александрович, аспирант НИУ ВШЭ, закончил магистратуру факультета экономики, программа "Математические методы анализа экономики".
Тема: Методы майнинга данных в задачах маркетинга и управления кредитными рисками в банках.

Аннотация: За период с октября 2011 г. по октябрь 2013 г. совокупный кредитный портфель российских банков вырос почти в 1,5 раза, причем портфель потребительского кредитования рос значительно быстрее. Банки стремились увеличить клиентскую базу и снижали требования для заемщиков (меньше документов, быстрее принятие решение по заявке). Это привело к проблеме возросших кредитных рисков, с одной стороны, и к проблеме привлечения и удержания клиентов, с другой. Первая проблема – это задача кредитного скоринга. Вторая – это задача определения целевой аудитории. И ту, и другую задачу можно отнести к задачам распознавания образов: по входящим данным клиента определить класс, к которому он относится. Различают аппликационный, поведенческий скоринг и скоринг взыскания (application, behavioural, collection scoring). В маркетинге различают модели повышения стоимости покупки, перекрестные продажи, модели оттока клиентов (upsell, cross-sell, churn models). Используемые методы: логистическая регрессия, деревья решений, модели времени жизни, набор правил (rules induction), машины опорных векторов, нейронные сети.

14.11.2013

Speaker: Alexander Panchenko, PhD, Digital Society Laboratory
Title: A Graph-Based Approach to Skill Extraction from Text

Annotation:This presentation describes a method and a system that performs skill extraction from text documents. It outputs a list of professional skills that are relevant to a given input text. We argue that the system can be practical for hiring and management of personnel in an organization. We make use of the texts and the hyperlink graph of Wikipedia, as well as a list of professional skills obtained from the LinkedIn social network. The system is based on first computing similarities between an input document and the texts of Wikipedia pages and then using a biased, hub-avoiding version of the Spreading Activation algorithm on the Wikipedia graph in order to associate the input document with skills.

31.10.2013

Докладчик: Гнатышак Дмитрий Вадимович, студент 2 курса магистратуры отделения прикладной математики и информатики НИУ ВШЭ, стажёр-исследователь НУЛ Интеллектуальных систем и структурного анализа
Тема: Методы мультимодальной кластеризации: новые модели и эксперименты.

Аннотация: В докладе представляются результаты продолжения исследования различных методов мультимодальной кластеризации. Эти методы используются для одновременной кластеризации имеющихся данных по нескольким измерениям. В последнее время мультимодальная кластеризация (би- и трикластеризация в диадическом и триадическом случаях) набирает популярность в майнинге данных, особенно для анализа данных генной экспрессии и для анализа фолксономий. Это приводит к появлению большого числа различных методов порождающих n-кластеры различной структуры.

Целью данного исследования является сравнение и систематизация этих методов.В докладе кратко приводятся результаты проведённой ранее работы по сравнению некоторых методов. Далее рассматриваются расширения методов категорийной мультимодальной кластеризации (OA и OAC кластеризации в диадическом и триадическом случаях) для обработки данных с действительными значениями. Рассматривается несколько вариантов модели жадной оптимизации размера выдачи как метода постобработки для методов мультимодальной кластеризации. Также разбираются дополнительные методы мультимодальной кластеризации, для последующего добавления к набору сравниваемых методов.

24.10.2013

Докладчик: Бузмаков Алексей Владимирович, отделение прикладной математики и информатики, аспирант.
Тема: Узорные структуры на последовательностях и их проекции: эффективный анализ сложных последовательностей.

Аннотация: АФП и узорные структуры являются математическим формализмом, позволяющим анализировать практически все разновидности сложноструктурированных данных. Данные, представленные последовательностями, являются одним из примеров таких данных. Многие существующие методы их анализа, могут обрабатывать только относительно простые последовательности, в которых отдельный элемент алфавита представлен либо простыми элементами, либо множествами. В данной работе вводятся узорные структуры на последовательностях, позволяющие обрабатывать данные, описанные последовательностями, в которых алфавит является полурешёткой.

Проекции узорных структур позволяют уменьшить время вычисления решётки узорных понятий за счёт упрощения узорной структуры, сохраняя при этом связь между понятиями начальной и спроецированный решёткой. Более того, во многих случаях это упрощение можно сделать, используя знания предметной области, минимизируя возможные потери от упрощение узорной структуры. Согласно известному формализму проекций (Гантер и Кузнецов, 2001) не все осмысленные упрощения узорной структуры являются проекциями.

В данной работе обобщается предыдущее определение проекций, что позволяет вводить проекции на узорных структурах на последовательностях, представляющие знания предметной области. Также в этой работе исследуются теоретические свойства обобщенного определения, и вводятся и исследуются две проекции на узорных структурах на последовательностях, позволяющие вводить в рассмотрение знания предметной области. В заключении работы приводятся результаты экспериментов на данных по госпитализациям пациентов больных раком, доказывающие полезность введённых определений.Данная работа показывает, что формализм АФП и узорных структур может быть эффективно использован для анализа сложноструктурированных данных.

03.10.2013

Докладчик: Прохоров Евгений, Московский государственный университет им. М.В. Ломоносова, механико-математический факультет, аспирант.
Тема: Адаптивная двухфазная схема решения задачи "структура - свойство".

Аннотация: Доклад посвящен методам поиска количественных соотношений "структура - свойство" для прогнозирования активности химических соединений. Задача "структура - свойство" является актуальной прикладной задачей теории распознавания образов. Ключевой особенностью задачи является ее ориентированность на поиск потенциально активных соединений в больших базах химических структур. В докладе представлена двухфазная схема решения задачи, и оценка качества прогнозирования для нее. Обсуждаются методологические особенности проведения практических исследований, а также методы адаптации дескрипторного (признакового) описания. Приводятся результаты практических испытаний предложенного подхода, подтверждающие его эффективность.

06.06.2013

Докладчик: Александр Панченко, PhD, Старший исследователь, Digital Society Laboratory. Ассоциированный исследователь, Université сatholique de Louvain
Тема: Метрики семантической близости с приложениями к задачам АОТ.

Аннотация: Метрики семантической близости слов успешно применяются при решении многих задач Автоматической Обработки Текста (АОТ), таких как извлечение отношений, расширение поисковых запросов, разрешение омонимии и поиск семантически подобных текстов. Данный семинар начинается с обзора классических подходов к семантической близости основанных на семантических сетях, словарях и корпусах текстов. Далее мы представим две новые метрики близости. Первая основана на лексико-синтаксических шаблонах и корпусе текстов. Она обладает точностью сопоставимой с метриками основанными на WordNet. Вторая объединяет 16 разнородных метрик и обучена на множестве семантических отношений из словаря. Эксперименты показывают что данная метрика значительно превосходит по точности и полноте большинство существующих подходов. Семинар завершается обзором двух систем АОТ в которых применяются разработанные метрики.

30.05.2013

Докладчик: Ревенко Артем Викторович, аспирант 3-го года отделения Прикладной математики и информатики.
Тема: Импликативные зависимости для аналитического описания предметных областей и обнаружения ошибок в данных.

Аннотация: Рассматриваются вопросы автоматической генерации данных, их формализации в бинарные таблицы и дальнейшего направленного порождения данных, дающих наибольшие новые знания. Рассматривается пример исследования свойств функций и изучения алгебр специального вида. Оба примера имеют свои особенности.

Рассматривается также расширения используемого подхода на случай возможных ошибок в получаемых данных. Изучаются различные интерактивные алгоритмы нахождения и устранения этих ошибок, дается сравнения со стандартными техниками. Основываясь на разработанных алгоритмах предлагается метод нахождения ошибок в исходном коде программы, дающий строгие импликативные зависимости хода выполнения программы.

18.04.2013

Докладчик: Коломейченко Максим Игоревич, магистрант ОПМИ, научный руководитель А.М. Чеповский.
Тема: Программное обеспечение для анализа и визуализации систем взаимосвязанных объектов.

Аннотация: В докладе будет рассмотрено архитектура программного обеспечения для хранения и визуального анализа сетей объектов. Предлагается демонстрация текущей версии клиентского приложения для визуализации сетей, предусматривающее как ручное, так и автоматическое размещение узлов и связей. Предусмотрен простейший анализ и извлечение подсетей.

Предлагаемое средство визуального представления может использоваться как для выдвижения гипотез и выявления ранее неформализованных особенностей системы связей, так и для отображения результатов анализа на фоне структуры связей, что является важным элементом обоснования и трактовки результатов анализа.

Область применения программного обеспечения – бизнес-аналитика, финансовая аналитика, анализ социальных сетей.

28.03.2013

Speaker: Prof. Alessandro Moschitti, Information Engineering and Computer Science Department University of Trento.
Title: State-of-the-art Kernels in Natural Language Processing.

Annotation: In recent years, machine learning (ML) has been used more and more to solve complex tasks in different disciplines, ranging from Bioinformatics to Software Systems, Information Retrieval or Natural Language Processing (NLP). These tasks often require the processing of structured input. For example, NLP applications critically deal with syntactic and semantic structures. To model the latter in terms of feature representation suitable for ML algorithms, expertise, intuition and deep knowledge about the target linguistic phenomenon are required.

Kernel Methods are powerful mathematical tools that can alleviate the data representation problem as kernel functions can be used to define similarities between structured objects at a more abstract level than feature vectors. Kernel engineering has been proposed to facilitate the design of such functions and it consists in using basic and well-known kernels to build more complex object similarities, effective for the target application. However, such design still requires somewhat creativity, which can be developed by studying successful proposed kernels.

In this talk, after introducing kernel methods, we will survey state-of-the-art kernels for Natural Language Applications, e.g., Semantic Role Labeling, Question/Answer Classification, Textual Entailment, Coreference Resolution and so on. The main aspects of such kernels will be highlighted to provide some guidelines for engineering new effective kernels.

О докладчике: Alessandro Moschitti is a tenured professor in the Computer Science Department at the University of Trento. He obtained his PhD in Computer Science in the University of Rome in 2003. He has worked as an associate researcher for the University of Texas at Dallas, as a visiting professor for the University of Columbia (NY), the University of Colorado at Boulder and the John Hopkins University. Currently, he is a visiting researcher at IBM Watson, NY (since 2009). Moschitti has been the only European Faculty member to participate in the Jeopardy! challenge. Moschitti has significant expertise in both theoretical and applied machine learning (ML), NLP, IR and Data Mining with applications in particular in the field of Big Data. He has devised innovative kernels for advanced syntactic/semantic processing with support vector and other kernel-based machines. He is an author or co-author of about 170 scientific articles published in major conferences, e.g., ACL, SIGIR, ICDM, ICML, CIKM, ECML, EMNLP, IJCAI, etc., and journals, e.g., Comp. Ling., IPM, DMKD, IS-IEEE, TASL-IEEE, etc. He is/has been an area chair for ACL (for the semantics and the ML tracks), for ECML PKDD and for IJCNLP. Additionally, he has been PC chair of other important conferences and workshops. Currently, he is on the editorial board of JAIR, JNLE and JWS. He has participated in seven EC projects, e.g., LivingKnowledge, PrestoSpace, NAMIC and he has been the consortium coordinator of the EC project EternalS. He has received two IBM Faculty Awards, one Google Faculty Award and several best paper awards (e.g., at ECML PKDD).

27.03.2013

Speaker: Prof. Jean-Francois Boulicaut, INSA Lyon (France).
Title: Inductive Databases: a Long-term Objective or a False Good Idea?

Annotation: One of candidate framework for the formalization of knowledge discovery processes from data (KDD) is the inductive database perspective suggested by Imielinski and Mannila in 1996 (CACM). We have been working on this database perspective on KDD processes considered as sequences of queries. The data mining steps are themselves specified by means of inductive queries and computing patterns or models is performed thanks to solvers (algorithms that evaluate more or less exactly inductive queries). We introduce this vision thanks to more or less simple examples of pattern domains: considering formal concepts in large noisy Boolean matrices or their counterpart in arbitrary n-ary relations, looking for sequential patterns in collections of event sequences or descriptive rules in n-ary relations, discovering graph patterns in (collections of) graphs, but also clustering various types of data or learning classifiers. In this talk, we propose (a) to discuss the design of pattern domains and thus the declarative semantics of inductive queries, (b) to consider solver design issues and specifically the scalability problem when looking for complete and correct though generic solvers, and (c) to see whether this has given rise to usable methods and tools for practitionners.Some relevant references:

Rosa Meo, Pier-Luca Lanzi, and Mika Klemettinen (Eds.) Database support for Data Mining Applications - Discovering Knowledge with Inductive Queries, Springer LNCS 2682, 2004.
Jean-Francois Boulicaut, Luc De Raedt, Heikki Mannila (Eds.) Constraint-based Mining and Inductive Databases, Springer LNCS 3848, 2005.
Saso Dzeroski, Bart Goethals, and Pance Panov (Eds) Inductive Databases and Constraint-Based Data Mining, Springer, 2010.

27.03.2013

Speaker: Jean-Francois Boulicaut, INSA Lyon (France).
Title: Example of pattern domains on graphs and information networks.

Annotation: Starting from rather straightforward methods that exploit the analogy between maximal bi-cliques and formal concepts, we first consider new possibilities when extending these techniques to an n-ary setting, for instance to compute maximal cliques that co-occur at different timestamps of a relational dynamic graph. Then we can discuss about post-processing techniques that support the discovery of descriptive rules from such closed patterns. A preliminary application to the VELO'V bike renting provides concrete examples. Other applications in the many domains where we look for interactions between entities may be investigated in the near future (to support, for instance, social network analysis). Finally, we will sketch our recent contribution to attributed graph analysis. For instance, TopGraphMiner supports the discovery of gradual patterns that can consider the co-variation of topological properties about the nodes within the graph with other node attribute values. Some related references:

Loïc Cerf, Jérémy Besson, Céline Robardet, Jean-Francois Boulicaut. Closed Patterns Meet n-ary Relations. ACM Transactions on Knowledge Discovery in Data 3(1) pp. 3:1-3:37. ACM Press. March 2009.
Loïc Cerf, Bao Nhan Nguyen Tran, Jean-Francois Boulicaut. Mining Constrained Cross-Graph Cliques in Dynamic Networks.
Inductive Databases and Constraint-Based Data Mining, S. Dzeroski et al (Eds), pp. 199-228, November 2010, Springer.
Loïc Cerf, Jérémy Besson, Kim-Ngan T. Nguyen, Jean-Francois Boulicaut. Closed and Noise-Tolerant Patterns in N-ary Relations. Data Mining and Knowledge Discovery 26 (3)574-619, 2013.
Kim-Ngan T. Nguyen, Loïc Cerf, Marc Plantevit, Jean-Francois Boulicaut. Discovering Descriptive Rules in Relational Dynamic Graphs. Intelligent Data Analysis 17 (1)49-69, 2013.
Adriana Prado, Marc Plantevit, Céline Robardet, Jean-Francois Boulicaut. Mining Graph Topological Patterns: Finding Co-variations among Vertex Descriptors. IEEE Transactions on Data and Knowledge Engineering, 14 pages. In Press.

21.03.2013

Докладчик: Ревенко Артем Викторович, аспирант 3-го года отделения Прикладной математики и информатики.
Тема: Порождение импликативных теорий и нахождение ошибок в данных.

Аннотация: Рассматриваются вопросы автоматической генерации данных, их формализации в бинарные таблицы и дальнейшего направленного порождения данных, дающих наибольшие новые знания. Рассматриваются примеры исследования свойств функций и изучения алгебр специального вида. Оба примера имеют свои особенности.

31.01.2013

Докладчик: Старичкова Юлия Викторовна, соискатель степени кандидата технических наук кафедры Анализа данных и искусственного интеллекта.
Тема: Исследование методов и разработка программных средств анализа структурной сложности и симметрии графовых моделей систем.

Аннотация: Рассматриваются задачи анализа структуры систем из различных предметных областей. Акцент сделан на вычислении мер структурной сложности. Приводятся модели, методы и алгоритмы анализа структурной сложности ориентированных графов. Рассматривается связь между вычислительной сложностью алгоритмов и качеством решения задач различения и анализа сложности орграфов. Анализируются примеры решения прикладных задач.Дополнительно рассматривается задача синтеза высокосимметричных графов с учётом различных свойств, характеризующих их симметрию и структурную сложность.

24.01.2013

Докладчик: Кузнецов Илья Олегович, аспирант 1 года факультета филологии НИУ ВШЭ.
Тема: Лингвистические основы SemanticRoleLabeling.

Аннотация: Семантические роли (semanticroles) - мощный и доказавший свою эффективность способ описания семантики предикатов. В рамках этого подхода значение глаголов и прочих предикатных слов задается в терминах семантических типов их участников, а также способа выражения этих участников в текстах. В последнее десятилетие семантические роли активно используются в компьютерной лингвистике: автоматическая разметка участников ситуации (SemanticRoleLabeling, SRL) - одно из основных направлений исследований по автоматической обработке языка на сегодняшний день. Задача SRL популярна и актуальна в первую очередь потому, что автоматический разбор текста в терминах семантических ролей предоставляет инженеру удобный промежуточный уровень семантического анализа, достаточный для решения многих прикладных задач. Модули автоматической разметки участников применяются в системах извлечения знаний, вопросно-ответных системах, машинном переводе.

Основная технология, используемая сегодня для создания SRL-процессоров - машинное обучение на специальным образом аннотированном корпусе с использованием лексико-семантических и синтаксических свойств. Наборы свойств зачастую определяются экспериментально-эвристическим путём. В результате многие закономерности открываются заново, будучи уже детально изученными и описанными в рамках сугубо лингвистических исследований. В то же время лингвистически обоснованный набор свойств для обучения позволяет рассчитывать на то, что результирующий модуль будет показывать хорошее качество работы.

Выступление посвящено главным образом проблеме семантических ролей с лингвистической точки зрения. Мы вкратце опишем некоторые базовые лингвистические конструкты, а затем более подробно остановимся на том, что на самом деле представляют собой семантические роли, какие выгоды приносит описание ситуаций в виде фреймовых рамок, от каких компонентов зависит качество работы SRL-алгоритма. Выступление будет носить вводный характер и не потребует от слушателей предварительных знаний в области лингвистики.

16.01.2013

Докладчик: Прохоров Евгений Игоревич, Московский государственный университет им. М.В. Ломоносова, механико-математический факультет, аспирант..
Тема: Адаптивная двухфазная схема решения задачи "структура - свойство".

Аннотация: Доклад посвящен методам поиска количественных соотношений "структура - свойство" для прогнозирования активности химических соединений. Задача "структура - свойство" является актуальной прикладной задачей теории распознавания образов. Ключевой особенностью задачи является ее ориентированность на поиск потенциально активных соединений в больших базах химических структур. В докладе представлена двухфазная схема решения задачи, и оценка качества прогнозирования для нее. Обсуждаются методологические особенности проведения практических исследований, а также методы адаптации дескрипторного (признакового) описания, позволяющие снизить его вычислительную сложность.

Нашли опечатку?
Выделите её, нажмите Ctrl+Enter и отправьте нам уведомление. Спасибо за участие!
Сервис предназначен только для отправки сообщений об орфографических и пунктуационных ошибках.

Международная лаборатория интеллектуальных систем и структурного анализа

Семинары 2013 года

19.12.2013

05.12.2013

28.11.2013

21.11.2013

14.11.2013

31.10.2013

24.10.2013

03.10.2013

06.06.2013

30.05.2013

18.04.2013

28.03.2013

27.03.2013

27.03.2013

21.03.2013

31.01.2013

24.01.2013

16.01.2013