Впервые на конференции VLDB представлен доклад от НИУ ВШЭ
Доцент департамента программной инженерии факультета компьютерных наук Рамон Антонио Родригес Залепинос выступил с устным докладом, единственным за последние 10 лет от Российской Федерации и первым от НИУ ВШЭ, на 44-ой конференции Very Large Data Bases (VLDB), которая проходила с 27 по 31 августа 2018 г. в Рио-де-Жанейро, Бразилия.
VLDB — одна из самых значимых международных конференций (уровень CORE A*) в области Больших Данных, Распределенных Систем и Баз Данных. VLDB проводится ежегодно, начиная с 1975 года, и является одним из старейших мероприятий в этих областях. Acceptance rate VLDB 2018 составил 18.35%. Председателями программного комитета VLDB 2018 были Sihem Amer-Yahia и Jian Pei, который на сегодня является самым цитируемым в мире ученым в области аналитики Больших Данных.
Представители многих крупнейших IT компаний и ведущих университетов выступили с докладами на VLDB 2018, включая компании IBM, Oracle, Huawei, Microsoft, Amazon, Google, а также университеты M.I.T., Stanford, Carnegie Mellon, Berkeley, EPFL.
В своем докладе Родригес Залепинос представил ChronosDB — новую распределенную растровую СУБД для обработки больших объемов геопространственных данных. ChronosDB в среднем в 75 раз быстрее SciDB — одна из последних разработок Michael Stonebraker, одного из самых известных ученых в мире в области баз данных. Статья о ChronosDB находится в открытом доступе:
R.A. Rodriges Zalipynis. ChronosDB: Distributed, File Based, Geospatial Array DBMS. PVLDB, 11(10): 1247-1261, 2018. PDF
PVLDB (Proceedings of the VLDB Endowment) – журнал, в котором на протяжении года до очередной конференции VLDB по мере приема публикуются статьи.
Краткая справка
Растровые СУБД чрезвычайно актуальны в современном мире из-за колоссального роста объемов геопространственных данных. Например, DigitalGlobe — коммерческий провайдер спутниковых данных, который собирает около 70 терабайт в день.
Геопространственные данные, или данные с географической привязкой, находят широкое практическое применение во многих важных областях. Например, данные ДЗЗ используются при планировании городской инфраструктуры, мониторинге чрезвычайных ситуаций, точном земледелии и решении многих других задач. Amazon предоставляет петабайты данных ДЗЗ, Planet строит «Космический Google» для планеты, а Роскосмос запускает масштабный проект «Цифровая Земля».
Растровые СУБД логически представляют данные в виде многомерных массивов. Огромную долю таких данных занимают геопространственные данные: численного моделирования климата и погоды, БПЛА (беспилотных летательных аппаратов), ДЗЗ (дистанционного зондирования Земли) или спутниковые данные как их упрощенно называют, а также многие другие виды данных.
Распределенные СУБД работают не на одном компьютере, а на компьютерном кластере. Представьте себе 1 терабайт данных. Если он хранится на одном компьютере на жестком диске, то понадобится около 2,5 часов только для того, чтобы считать эти данные с диска, не говоря уже о какой-либо их обработке. Теперь представьте себе 100 компьютеров, связанных сетью – компьютерный кластер, на каждом из которых находится примерно равная порция этих данных и каждый компьютер параллельно с другими считывает свою порцию данных. Теперь чтение данных займет уже 1,5 минуты. Однако использование кластеров чрезвычайно усложняет алгоритмы обработки данных: каждый компьютер должен «знать», что ему делать, с какими компьютерами обмениваться промежуточными результатами вычислений, какие действия предпринимать при сбое одного из компьютеров и так далее.
ChronosDB может также работать на компьютерных кластерах в «облаке». Это позволяет арендовать столько компьютеров для обработки данных, сколько нужно в текущий момент. Облака есть у крупных компаний, например Microsoft, IBM, Amazon. Облако позволяет арендовать вначале только один компьютер, а если его не хватает, то за несколько минут можно автоматически развернуть кластер из 1000 компьютеров.