Семинар HDI Lab:Часть I: Asynchronous Stochastic Approximation and Q-Learning Часть II: Optimal Query Complexities for Dynamic Trace Estimation
В этот четверг, 14 ноября, в 14:40 с докладами выступят Аскар Цыганов и Артемий Рубцов (НИУ ВШЭ).
Часть I:
В докладе мы рассмотрим задачу обучения с покреплением без доступа к генеративной модели через схему ассинхронной стохастической аппроксмиации и получим оценки на скорость сходимости конечных траекторий алгоритма Q-learning, а также поговорим о некоторых его модификациях, позволяющих ускорить сходимость к оптимальному решению.
Доклад основан на работе
Finite-Time Analysis of Asynchronous Stochastic Approximation and Q-Learning
Часть II:
В докладе будет сделан обзор методов оценки следа последовательности близких по норме матриц. Так же будет рассказано о нижних оценках на алгоритмическую сложность оценки следа в динамической и статической постановках.
Доклад основан на работе
Optimal Query Complexities for Dynamic Trace Estimation