Мы используем файлы cookies для улучшения работы сайта НИУ ВШЭ и большего удобства его использования. Более подробную информацию об использовании файлов cookies можно найти здесь, наши правила обработки персональных данных – здесь. Продолжая пользоваться сайтом, вы подтверждаете, что были проинформированы об использовании файлов cookies сайтом НИУ ВШЭ и согласны с нашими правилами обработки персональных данных. Вы можете отключить файлы cookies в настройках Вашего браузера.
Адрес: г. Москва, Покровский бульвар, д. 11
Телефон: 8 (495) 772-95-90 *27334
Считается что впервые термин «большие данные» (Big Data) употребил в 2008 году британский журнал Nature, специальный номер которого был посвящен феномену взрывного роста объема и разнообразия обрабатываемых данных. В следующие три года большие данные стали одним из доминирующих трендов в инфраструктуре информтехнологий. Предполагается, что работа с большими данными в перспективе окажет наибольшее влияние на производство, госуправление, торговлю, медицину.
Медицина будет все больше и больше «упираться» в математику
Медицина будет все больше и больше «упираться» в математику, полагает Олег Пьяных. Ведь с момента перехода медицины в «цифру» в базах данных различных учреждений накоплены терабайты информации – снимки, записи о пациентах, лабораторные исследования, страховки и т.д. За вычетом сиюминутного использования «посмотреть, дать диагноз», они лежат мертвым грузом, который и представляет те самые «большие данные». «Это идеальная задача для математиков, потому что все уже цифровое, не надо ничего сканировать, распознавать текст, написанный от руки, — говорит ученый. — Поэтому цифровая медицина для прикладной математики стала одним из прекраснейших направлений».
Одно из возможных направлений работы с «большими данными» – стандартизация здравоохранения. Их анализ может использоваться для выработки оптимального алгоритма принятия врачебного решения, сводя к минимуму субъективный человеческий фактор.
«Допустим, у пациента обнаружили образование в легких, диаметром в 1 см, — поясняет мысль профессор Пьяных. — Пациент может пойти к разным врачам и получить совершенно разные ответы. Кто-то скажет, что его надо удалить, кто-то скажет, посмотреть через полгода, а кто-то скажет, нужно сделать биопсию». Даже один и тот же врач, опираясь на одни и те же данные, может сегодня предложить одно решение, а спустя пару недель или месяц другое. Причем, на решение врача могут повлиять самые разные факторы, включая его настроение.
Анализ накопленного статистического материала («больших данных») и сопоставление его с данными конкретного пациента позволяют принимать оптимальное решение, с минимумом субъективизма. То есть, зная, что у пациента есть новообразование определенного диаметра, и, имея дополнительную информацию — возраст, курит он или нет, есть ли история рака легких у ближайших родственников, и т.д., можно «чисто статистически», предсказать наиболее правильный алгоритм действий.
Практикующие врачи в США, по словам Олега Пьяных, уже довольно часто используют «дерево принятия решений» — логическое и объективное руководство в виде схем или программных продуктов, основанных на анализе «больших данных». Как только врач получает необходимую информацию о пациенте: анализы, рентгеновские снимки, историю болезни, и прочее, то, опираясь на это «дерево решений», он может эффективно, с математически ожидаемым результатом, понять «что же с этим пациентом делать».
Различные медицинские ассоциации США уже занимаются созданием «деревьев решений», на основе статистически накопленного опыта.
Другие направление использования больших данных в медицине — это оптимизация работы клиник, балансировка нагрузки на медперсонал, сокращение очередей и т.д.
Важный фактор оптимизации — отказ от так называемых «бестолковых проектов», т.е. сомнительных административных решений. «Ситуация, когда говорят, давайте мы заработаем в два раза больше, приняв в два раза больше пациентов, – объясняет Пьяных. — Но если никто не смотрит, возможно ли это сделать чисто математически, можно ли в эту трубу впихнуть в два раза больше за ту же единицу времени, это заканчивается бестолковыми проектами и повальным стрессом».
Даже когда теоретические расчеты, например, на основе теории массового обслуживания QT (она же «теория очередей», которая занимается выработкой оптимальных систем обслуживания на основе анализа исходных требований, а также позволяет прогнозировать время ожидания клиента, длину очередей и т.д.) показывают, что поток пациентов можно увеличить, лучше этого не делать. Согласно QT, если врач обслуживает пациентов быстрее, чем те прибывают, очереди быть не должно, но практика это опровергает.
Интенсивность потока зависит от многих причин, которые составители уравнений не контролируют, вдобавок есть вариации отклонения от среднего, которые играют очень большую роль. «Очередь может очень сильно вырасти оттого, что один человек долго искал свои деньги по карманам, — говорит Олег Пьяных. — Это нетривиальный урок, который не понимают те, кто говорят, давайте обслужим в два раза больше. Оказывается, нет — стоит одному застопориться в этом процессе, и вырастает огромная очередь».
Другой пример, когда бюрократические ведомства, «которые спускают разнарядки на клиники», решают, что загруженность медицинского оборудования должна быть, к примеру, не меньше 75%. «Пусть оборудование будет загружено на 90%, тогда мы точно всех пациентов “обработаем”», поясняет логику бюрократов ученый.
Однако математические расчеты и практика показывают, что если загрузка превышает 80%, то малейшее отклонение в режиме работы может привести к очень серьезным негативным последствием. Например, незначительное увеличение притока пациентов обернется «взрывным всплеском» времени ожидания. Ведь все резервы для повышения интенсивности работы уже исчерпаны.
Работа с «большими данными» позволяет оптимизировать работу медучреждений, опираясь не на теоретические модели, а на эмпирический материал.
Олег Пьяных приводит пример американской клиники, специализирующейся на рентгенологических исследованиях. В клинике восемь кабинетов, где проводятся исследования, и два специальных сотрудника, которые разводили пациентов по кабинетам. Ситуация осложнялась тем, что системы оповещения «кабинет свободен, кабинет занят» в клинике не было. Не занятые в настоящий момент операторы рентгенов просто оставляли дверь своего кабинета открытой. Однако конфигурация помещения не давала возможности двум «разводящим» следить за всеми дверьми сразу, им приходилось ходить по коридору, высматривая свободный кабинет. Чаще всего пациента приводили в кабинеты, расположенные ближе к входу, что создавало неравномерную загрузку, и вызывало недовольство операторов.
Группе исследователей, куда водил и Олег Пьяных, предстояло дать ответ на вопрос, можно ли как-то контролировать время ожидания пациента в очереди и улучшить процесс обслуживания?
Сначала были проведены расчеты на основе классических моделей, той же QT. Полученный результат автор комментирует так: «Когда мы рассчитали поминутно на протяжении недели динамику сидения людей в очереди и сравнили с той, которая вытекала из теории обслуживания, получилась отрицательная корреляция. Теория вообще не предсказывает, что происходит на самом деле».
Присутствие в медицине множества непредсказуемых факторов, делает классические теории обслуживания малопригодными. Приходится начинать с простых, но надежных эмпирических моделей (например, линейной регрессии), на основе накопленных «больших данных». Однако простые модели ограничены по точности и годятся лишь для простых процессов, в которых нет непредвиденных ситуаций. Логика работы с «большими данными», по словам Пьяных, должна включать в себя устранение таких аномалий, как хаос, случайность, несвоевременность. А, значит, цель – не ускорять время обслуживания, а изменить стратегию обслуживания для понижения случайностей.
В результате для клиники была разработана специальная модель электронной очереди, которая отображала, как долго свободен тот или иной кабинет, сколько времени длится то или иное исследование. Все данные выводились на электронные устройства (типа «планшета»), которые были у сотрудников, разводящих пациентов по кабинетам.
Также для клиники была выработана стратегия обслуживания: никогда не начинать день с длинного исследования, чередовать длинные и короткие исследования (оно наименее предсказуемо, и его сбой может привести к коллапсу всего расписания), назначать исследования пропорционально их реальной длине.
Однако создание алгоритма еще не означает решение задачи, подчеркивает Олег Пьяных. Необходимо интегрировать новые возможности с госпитальными процессами, обучить персонал, учесть человеческий фактор. Ведь любое массовое внедрение алгоритма, по словам автора, приводит к тому, что люди попытаются его обмануть.
Выводы, которые делает ученый, таковы: «большие данные» в медицине абсолютно необходимо анализировать и использовать для оптимизации работы любого процесса. Однако не надо строить иллюзий – «большие данные» сами по себе не гарантируют «большой смысл». Они могут содержать большие горы мусора – случайные события, ошибки, бесполезную или неполную информацию. Задача выделения полезной, осмысленной информации является одной из основных в работе с «большими данными».
Полный текст презентации «“Большие данные” в медицине: как заставить их работать?» (PDF, 1.77Мб)
Экспертный сайт "Открытая экономика" - OPEC.ru
Пьяных Олег Станиславович
профессор кафедры анализа данных и искусственного интеллекта