• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Проект «Проектирование и эмпирическая оценка системы ввода текста для AR/VR-очков»

Содержание

Научная новизна и актуальность

Рынок технологий дополненной и виртуальной реальности (AR/VR) стремительно растет [Hadwick, 2019; Immerse UK & Digital Catapult, 2019]. Кроме корпоративного сегмента рынка, рост интереса также наблюдается среди потребителей. Возьмем, к примеру, успех таких VR-шлемов, как PlayStation VR и Oculus Quest обоих поколений [Graham, 2020; Matney, 2020]. Кроме того, все больше и больше компаний инвестируют в разработку потребительских стереоскопических AR-очков. Среди них Facebook, Nreal, MAD Gaze, Shadow Creator, Dreamworld, Tesseract и другие.

Очки дополненной реальности nReal Light
nReal / tinyurl.com/y8sffs8z

Потребители стали использовать иммерсивные технологии не только для развлечений, но и для работы. Например, приложение Virtual Desktop, которое позволяет взаимодействовать с рабочим столом компьютера в VR, является одним из самых успешных приложений в Oculus Store [Hamilton, 2020]. Такие задачи, как работа в интернете, поиск информации, переписка с помощью различных мессенджеров и т.д., требуют удобного ввода текста.

Вопрос ввода текста в стационарной среде, например, сидя за рабочим столом в офисе, для AR-очков решен. Физическая клавиатура, подключаемая к очкам по Bluetooth, является знакомым и эффективным способом ввода алфавитно-цифровой информации, используемым во множестве современных пространственных ОС [Magic Leap, Inc., n.d.; Microsoft, n.d.; MetaVision, LLC., 2017]. Ввод текста с помощью смарт-очков в нестационарной среде, например, когда работник промышленного предприятия осматривает оборудование и делает пометки прямо по ходу осмотра или когда будущий пользователь потребительских смарт-очков, стоящий в заполненном людьми вагоне метро и держащийся за поручень, пытается ответить на сообщение в Telegram, по сей день является нерешенной проблемой [Dube & Arif, 2019, стр. 433; LaViola et al., 2017, стр. 264].

Среди существующих решений для AR/VR можно выделить голосовой ввод и диктовку [Magic Leap, Inc., n.d.; Microsoft, n.d.], портативные и носимые физические клавиатуры [Thomas et al., 1998; Bowman et al., 2002; González et al., 2009], посимвольный ввода на виртуальной клавиатуре [Yu et al., 2017; Speicher et al.m 2018; Rajanna & Hansen, 2018; Xu et al., 2019], ввод текста непрерывным росчерком [Liu et al., 2006; Amma et al., 2012; Markussen et al., 2014; Yu et al., 2017; Gupta et al., 2019], мнемонические дискретные жесты для ввода символов [Sridhar et al., 2015], ввод текста за счет касания кончиком большого пальца одного из противоположенных пальцев [Bowman et al., 2001; Kuester et al., 2005; Pratorius et al., 2015; Peshock et al., 2014; Whitmire et al., 2017; Dash, 2017] и прочие решения. Также используется трансляция виртуальной клавиатуры смартфона в VR, так что его расположение в реальном мире и виртуальном пространстве совпадает [Kim & Kim, 2017]. Однако, все они обладают рядом серьезных недостатков, а именно:

  • Непригодность для ввода информации приватного характера

    Диктовка является эффективным способом ввода информации в ситуации, когда пользователь может свободно говорить вслух никому не мешая и/или не боясь быть услышанным [Microsoft, n.d.]. В противном случае, его использование может привести к раскрытию приватной информации или просто помешать другим людям.

  • Необходимость всегда держать под рукой дополнительное устройство

    Способы ввода, использующие физические клавиатуры и контроллеры, а также смартфон, предполагают, что устройство ввода находится у пользователя под рукой, однако, это не всегда так. Дополнительное устройство нужно носить с собой и доставать каждый раз, когда потребуется ввести текст, что может представлять проблему в нестационарной среде [LaViola et al., 2017].

  • Физический дискомфорт

    Доказано, что даже непродолжительное удерживание рук навесу приводит к так называемому эффекту «рук гориллы» [Hincapié-Ramos et al., 2014] — дискомфорту в верхних конечностях, влияющему в том числе на точность манипуляций. Лишь немногие из описанных способов ввода, задействующих руки, позволяют вводить текст, когда руки находятся в опущенном состоянии. Похожая ситуация характерна для продолжительного вращения головы [Microsoft, n.d.] и управления с помощью направления взгляда [Tobii, n.d.; Wobbrock et al., 2008].

  • Низкая эффективность

    Не будет сверхобобщением сказать, что практически все существующие методы ввода текста для смарт-очков значительно уступают по эффективности как физической клавиатуре, так и виртуальной клавиатуре смартфона [Dube & Arif, 2019]. Исключение составляет диктовка, однако, она обладает описанным выше недостатком.

  • Необходимость переобучения

    История показывает, что способы ввода, которые значительно отличаются от привычных пользователям и требуют времени на обучение, с высокой вероятностью не получают широкого распространения [Kristensson, 2015]. На текущий момент даже 12-кнопочные клавиатуры с сокращенной раскладкой нельзя отнести к популярным, что оставляет нас один на один с клавиатурой с полной раскладкой (QWERTY/ЙЦУКЕН). Способы ввода, которые в том или ином виде используют данный дизайн, с большей вероятностью смогут снискать популярность среди пользователей AR/VR-очков.

Резюмируя, из всех перечисленных способов ввода лишь два можно рассматривать как потенциально интересные попытки побороть все перечисленные недостатки (GestureType [Yu et al., 2017] и RotoSwype [Gupta et al., 2019]), однако, даже они в текущем виде уступают по скорости набора виртуальной клавиатуре смартфона. Таким образом, актуальной является задача проектирования и разработки способа ввода для AR/VR-очков, предназначенного для набора текста в нестационарных средах.

Предлагаемое решение

Исследования показывают, что использование жестового ввода (данный способ ввода часто называют Swype; на iOS он известен как QuickPath, на Android как Glide Typing) в VR позволяют значительно повысить скорость набора текста относительно обычного посимвольного ввода [Yu et al., 2017]. Предлагаемое нами решение использует технологию отслеживания направления взгляда (ай-трекер) для выбора первого символа слова, а также отслеживание кистей рук пользователя для вычерчивания росчерка в пространстве, который проецируется на поверхность виртуальной клавиатуры. Например, для того, чтобы ввести слово "Привет", пользователь должен:

  • посмотреть на букву "п" на виртуальной ЙЦУКЕН-клавиатуре, находящейся перед ним на некотором отдалении,
  • выполнить жест "щипок" ведущей рукой (смыкание большого и указательного пальцев),
  • начать вычерчивать в воздухе линию от буквы "п" к букве "р", от "р" к "и" и так далее удерживая пальцы вместе,
  • когда росчерк дойдет до буквы "т", разомкнуть пальцы.

Предлагаемое решение решает все перечисленные выше недостатки и отвечает следующим требованиям:

  • Пригодность для ввода информации приватного характера

    Пользователю нет необходимости произносить что-либо. Жестовые клавиатуры позволяют без дополнительных действий переключаться на посимвольный ввод, что необходимо при вводе паролей. Защита данных о направлении взгляда, которые в этом случае используются для выбора символов, обеспечивается операционной системой очков.

    Даже при вводе слов жестами, например своих имени и фамилии, отслеживание злоумышленниками движений рук пользователя с помощью внешних сенсоров ничего не даст. Знание траектории жеста без ее начальной позиции, которая выбирается направлением взгляда и неможет быть определена извне, бесполезно.

  • Отсутствие необходимости держать под рукой дополнительное устройство

    Большинство современных VR и AR-очков имеют встроенные сенсоры для отслеживаения кистей рук. Даже при использовании дополнительных сенсоров, например, камеры глубины Leap Motion [Ultraleap, n.d.], они крепятся к корпуск очков. Соответственно, пользователю не нужно ничего держать в руках.

  • Физический комфорт

    Оптические сеносоры, предназначенные для отслеживание кистей рук, встроенные или внешние, обладают ограниченным рабочим объемом, что вынуждает пользователя удерживать руки на весу перед собой. Как уже было отмечено выше, это быстро приводит к усталости. Однако, данная проблема может быть решена за счет использования носимых устройств, например, смарт-браслетов [Tan et al., 2013; CTRL-labs, 2019; Hu et al., 2020; Joseph et al., 2020], которые позволят вводить текст не поднимая рук.

  • Высокая эффективность

    Согласно пилотным экспериментами даже после непродолжительного использования предлагаемого способа ввода (менее часа) пользователи достигают скорости в 25 слов в минуту. Члены проектной группы, которые набирают текст с помощью данного способа ввода частно, делают это со скоростью более 30 слов в минуту, что хоть и косвенно, говорит о потенциале предложенного решения.

  • Отсутствие необходимости переобучения

    В предложеном способе ввода используется клавиатура с полной раскладкой (ЙЦУКЕН для русского языка и QWERTY для английского) с которой все пользователи персональных компьютеров и мобильных устройств с сенсорным экраном хорошо знакомы [Kristensson, 2015].

Цель и задачи исследования

Целью данного проекта является исследование опыта использования (англ. User Experience, UX) предложенного способа ввода в сравнении с другими существующими решениями, например, GestureType [Yu et al., 2017], Vulture [Markussen et al., 2014] и TiTAN [Yeo et al., 2017]. Среди параметров, по которым будет проводиться сравнение: скорость набора текста, различные параметры, характеризующие количество опечаток [Soukoreff & MacKenzie, 2003], субъективная оценка способа ввода респондентом (такие метрики как простота обучения, трудоемкость ввода, физический дискомфорт и усталость, новизна решения и многие другие). В задачи исследования входят:

  • Проведение серии предварительных экспериментов для каждого способа ввода, участвующего в сравнении, для подбора оптимальных параметров самих решений, например, углового размера клавиатуры, отношения между скоростью движения указателя по клавиатуре и движения руки и других.
  • Проведение двух экспериментов для сравнения способов ввода по обозначенным выше объективным и субъективным UX-метрикам.

Форма представления результатов проекта

Планируется публикация в журнале, индексируемом Scopus и/или Web of Science. Примерный список журналов, на которые предполагается ориентироваться:

  • Virtual Reality
  • PRESENCE: Virtual and Augmented Reality
  • Interacting with Computers
  • Journal on Multimodal User Interfaces

Заполнить анкету для участия в эксперименте

Список источников

Amma, C., Georgi, M., & Schultz, T. (2012, June). Airwriting: Hands-free mobile text input by spotting and continuous recognition of 3D-space handwriting with inertial sensors. In 2012 16th International Symposium on Wearable Computers (pp. 52-59). IEEE.

Bowman, D. A., Ly, V. Q., & Campbell, J. M. (2001). Pinch keyboard: Natural text input for immersive virtual environments.

Bowman, D. A., Rhoton, C. J., & Pinho, M. S. (2002, September). Text input techniques for immersive virtual environments: An empirical comparison. In Proceedings of the hu-man factors and ergonomics society annual meeting (Vol. 46, No. 26, pp. 2154-2158). Sage CA: Los Angeles, CA: SAGE Publications.

CTRL-labs. (2019). CTRL-kit. Retrieved from https://www.ctrl-labs.com/ctrl-kit/

Dash, S. (2017). BlueTap — The Ultimate Virtual-Reality (VR) Keyboard. Retrieved from https://medium.com/eunoia-i-o/bluetap-the-ultimate-virtual-reality-vr-keyboard-77f1e3d57d6f

Dube, T. J., & Arif, A. S. (2019, July). Text entry in virtual reality: A comprehensive review of the literature. In International Conference on Human-Computer Interaction (pp. 419-437). Springer, Cham.

González, G., Molina, J. P., García, A. S., Martínez, D., & González, P. (2009). Evaluation of text input techniques in immersive virtual environments. In New Trends on Human–Computer Interaction (pp. 109-118). Springer, London.

Graham, P. (2020). 5 Million PlayStation VR’s Have Now Been Sold. Retrieved from https://www.vrfocus.com/2020/01/5-million-playstation-vrs-have-now-been-sold/

Gupta, A., Ji, C., Yeo, H. S., Quigley, A., & Vogel, D. (2019, April). RotoSwype: Word-Gesture Typing using a Ring. In Proceedings of the 2019 CHI Conference on Human Factors in Computing Systems (p. 14). ACM.

Hadwick, A. (2019). VRX Industry Insight Report 2019-2020. Retrieved from https://s3.amazonaws.com/media.mediapost.com/uploads/VRXindustryreport.pdf

Hamilton, I. (2020). Virtual Desktop Cleared $3 Million In Revenue On Oculus Quest Alone. Retrieved from https://uploadvr.com/virtual-desktop-quest-revenue/

Hincapié-Ramos, J. D., Guo, X., Moghadasian, P., & Irani, P. (2014, April). Consumed endurance: a metric to quantify arm fatigue of mid-air interactions. In Proceedings of the SIGCHI Conference on Human Factors in Computing Systems (pp. 1063-1072). ACM.

Hu, F., He, P., Xu, S., Li, Y., & Zhang, C. (2020). FingerTrak: Continuous 3D Hand Pose Tracking by Deep Learning Hand Silhouettes Captured by Miniature Thermal Cameras on Wrist. Proceedings of the ACM on Interactive, Mobile, Wearable and Ubiquitous Technologies, 4(2), 1-24.

Immerse UK & Digital Catapult. (2019).The immersive economy in the UK 2019: The growth of the virtual, augmented and mixed reality technologies ecosystem. Retrieved from https://www.immerseuk.org/wp-content/uploads/2019/11/The-Immersive-Economy-in-the-UK-Report-2019.pdf

Joseph Vedhagiri, G. P., Wang, X. Z., Senthil Kumar, K., & Ren, H. (2020). Comparative Study of Machine Learning Algorithms to Classify Hand Gestures from Deployable and Breathable Kirigami-Based Electrical Impedance Bracelet. Multimodal Technologies and Interaction, 4(3), 47.

Kim, Y. R., & Kim, G. J. (2017, January). HoVR-type: Smartphone as a typing interface in vr using hovering. In 2017 IEEE International Conference on Consumer Electronics (ICCE) (pp. 200-203). IEEE.

Kristensson, P. O. (2015). Next-generation text entry. Computer, 48(7), 84-87.

Kuester, F., Chen, M., Phair, M. E., & Mehring, C. (2005, November). Towards keyboard independent touch typing in VR. In Proceedings of the ACM symposium on Virtual reality software and technology (pp. 86-95). ACM.

LaViola Jr, J. J., Kruijff, E., McMahan, R. P., Bowman, D., & Poupyrev, I. P. (2017). 3D user interfaces: theory and practice. Addison-Wesley Professional.

Liu, Y., Liu, X., & Jia, Y. (2006, January). Hand-gesture based text input for wearable computers. In Fourth IEEE International Conference on Computer Vision Systems (ICVS'06) (pp. 8-8). IEEE.

Magic Leap, Inc. (n.d.). Text Entry. Retrieved from https://creator.magicleap.com/learn/guides/design-text-entry

Markussen, A., Jakobsen, M. R., & Hornbæk, K. (2014, April). Vulture: a mid-air word-gesture keyboard. In Proceedings of the SIGCHI Conference on Human Factors in Computing Systems (pp. 1073-1082). ACM.

Matney, L. (2020). Oculus surpasses $100 million in Quest content sales. Retrieved from https://techcrunch.com/2020/05/18/oculus-surpasses-100-million-in-quest-content-sales/

MetaVision, LLC. (2017). Meta Workspace: Rethink the Way You Work. Retrieved from https://youtu.be/-KIgvc-LVDs

Microsoft (n.d.). Start designing and prototyping. Retrieved from https://docs.microsoft.com/en-us/windows/mixed-reality/design/design

Peshock, A., Duvall, J., & Dunne, L. E. (2014, September). Argot: A wearable one-handed keyboard glove. In Proceedings of the 2014 ACM International Symposium on Wearable Computers: Adjunct Program (pp. 87-92). ACM.

Pratorius, M., Burgbacher, U., Valkov, D., & Hinrichs, K. (2015). Sensing thumb-to-finger taps for symbolic input in vr/ar environments. IEEE computer graphics and applications.

Rajanna, V., & Hansen, J. P. (2018, June). Gaze typing in virtual reality: impact of keyboard design, selection method, and motion. In Proceedings of the 2018 ACM Symposium on Eye Tracking Research & Applications (p. 15). ACM.

Soukoreff, R. W., & MacKenzie, I. S. (2003, April). Metrics for text entry research: an evaluation of MSD and KSPC, and a new unified error metric. In Proceedings of the SIGCHI conference on Human factors in computing systems (pp. 113-120).

Speicher, M., Feit, A. M., Ziegler, P., & Krüger, A. (2018, April). Selection-based text entry in virtual reality. In Proceedings of the 2018 CHI Conference on Human Factors in Computing Systems (p. 647). ACM.

Sridhar, S., Feit, A. M., Theobalt, C., & Oulasvirta, A. (2015, April). Investigating the dexterity of multi-finger input for mid-air text entry. In Proceedings of the 33rd Annual ACM Conference on Human Factors in Computing Systems (pp. 3643-3652). ACM.

Tan, D., Morris, D., Saponas, S., & Balakrishnan, R. (2013). U.S. Patent No. 8,447,704. Washington, DC: U.S. Patent and Trademark Office.

Thomas, B., Tyerman, S., & Grimmer, K. (1998). Evaluation of text input mechanisms for wearable computers. Virtual Reality, 3(3), 187-199.

Tobii. (n.d.). Tobii Eye-Tracking Design Guidelines. Retrieved from https://vr.tobii.com/sdk/learn/interaction-design/fundamentals/a-new-technology/

Ultraleap. (n.d.). Leap Motion Controller. Retrieved from https://www.ultraleap.com/product/leap-motion-controller/

Whitmire, E., Jain, M., Jain, D., Nelson, G., Karkar, R., Patel, S., & Goel, M. (2017). Digitouch: Reconfigurable thumb-to-finger input and text entry on head-mounted displays. Proceedings of the ACM on Interactive, Mobile, Wearable and Ubiquitous Technologies, 1(3), 113.

Wobbrock, J. O., Rubinstein, J., Sawyer, M. W., & Duchowski, A. T. (2008, March). Longitudinal evaluation of discrete consecutive gaze gestures for text entry. In Proceedings of the 2008 symposium on Eye tracking research & applications (pp. 11-18). ACM.

Xu, W., Liang, H. N., Zhao, Y., Zhang, T., Yu, D., & Monteiro, D. (2019). RingText: Dwell-free and hands-free Text Entry for Mobile Head-Mounted Displays using Head Motions. IEEE transactions on visualization and computer graphics, 25(5), 1991-2001.

Yeo, H. S., Phang, X. S., Ha, T., Woo, W., & Quigley, A. (2017, May). TiTAN: Exploring Midair Text Entry Using Freehand Input. In Proceedings of the 2017 CHI Conference Extended Abstracts on Human Factors in Computing Systems (pp. 3041-3049).

Yu, C., Gu, Y., Yang, Z., Yi, X., Luo, H., & Shi, Y. (2017, May). Tap, dwell or gesture?: Exploring head-based text entry techniques for hmds. In Proceedings of the 2017 CHI Conference on Human Factors in Computing Systems (pp. 4479-4488). ACM.