Авторы: Коваль К.О., Искра Е.А.
Источник: III Международная научно-практическая конференция студентов, аспирантов и молодых ученых «Кибернетика, информатика, аналитика: модели, инструменты, методы»
Донецк, 25 апреля 2023 г. — с. 437-442.
УДК 004.5
В статье рассматриваются чат-боты и методы оценки user experience, которое формируется у пользователей при взаимодействии с ними. Популярность виртуальных собеседников за последние пять лет значительно возросла, что подтверждается не только объемом рынка чат-ботов, но и статистикой их применения крупными компаниями-ритейлерами. Однако, несмотря на их распространенность и потенциал роста их рынка, чат-боты часто не соответствуют ожиданиям клиентов. Для полного раскрытия потенциала чат-ботов как инструмента обслуживания клиентов необходимо развивать методы оценки и мониторинга пользовательского опыта, а также сместить фокус внимания такого научного направления, как человеко-компьютерное взаимодействие, с усовершенствования графического интерфейса в диалоговых системах на разговорные интерфейсы. Необходимо также развивать теоретическую и методологическую базы user experience.
Чат-бот, User Experience, юзабилити, человеко-компьютерное взаимодействие.
За последние пять лет общение с клиентами посредством чат-ботов стало популярным инструментом обслуживания в сфере электронной коммерции. Рост популярности виртуальных собеседников заметен как в мировом масштабе, так и в России: российский рынок чат-ботов в 2020-м году составил, по оценкам компании Just AI, 5,5 млрд рублей с учетом госзаказов или 2,8 млрд рублей по оценкам компании Naumen. Также Naumen подтвердила, что в 2022-м году треть ритейлеров страны из топ-120 применяли в своей деятельности чат-ботов. Их популяризация вызвана подорожанием H2H-маркетинга (human-to-human), которое провоцирует прирост пользователей.
Чтобы потенциал чат-ботов в обслуживании клиентов раскрывался наиболее полно, коммуникация с ним должна формировать у людей положительный user experience (UX) – т.н «пользовательский опыт». Это особенно важно, поскольку, вопреки большой применимости, чат-боты часто не соответствуют ожиданиям клиентов. Как следствие, компаниям необходимо развивать инструменты оценивания и мониторинга пользовательского опыта ботов, а также по-новому взглянуть на своих пользователей и их паттерны взаимодействия с продуктом. Десятилетиями исследователи рассматривали общение между человеком и машиной через призму графического интерфейса, но на смену ему пришёл диалоговый интерфейс, о чем говорится в научной работе «Чат-боты и новый мир человеко-компьютерного взаимодействия» о построении диалога с машиной на естественном языке.
Человечеством накоплен значительный объем знаний об оценке эффективности и качества диалоговых систем, однако поскольку в большинстве исследований используются методы автоматизированного анализа, возникает риск упущения из виду аспектов беседы, заметных лишь аналитику-человеку. Человек способен не только оценивать правильность и соответствие контексту языковых конструкций, но и более тонко и точно воспринимать тон, коннотацию и эмоциональное отношение человека к боту. Важно помнить, что чат-бот – не исключительно функциональная, но ещё и социальная технология.
Брайан Шпицберг утверждает, что уровень коммуникативной компетентности определяется по тому, как человек воспринимает своё взаимодействие с окружающими и насколько общение соответствует контексту, в котором оно протекает. «Компетентное общение – это процесс, который формирует межличностную перцепцию и позволяет достичь желаемых результатов в процессе взаимодействия».
Большинство социальных исследований направлено на изучение коммуникативной компетентности людей в общении с другими людьми, и лишь небольшая часть современных научных работ применяла этот принцип к диалогу между человеком и ботом. Так, удалось установить, что участники, считавшие своего бота недостаточно общительным, с большей вероятностью прекращали общение с ним.
Таким образом, несмотря на осознание важности поддержания позитивного социального взаимодействия при проектировании диалоговых систем, эта тема недостаточно раскрыта в литературе по user experience и, конечно, слабо изучена в контексте чат-ботов.
В сравнении с usability, оценка user experience носит более субъективный характер. Юзабилити, или удобство использования, выражается во внешне наблюдаемом поведении, которое поддаётся количественной оценке [1]. Так, например, можно построить шкалу и измерить скорость достижения пользователем определенной цели, заданной маркетологом. UX является попыткой оценить удовлетворенность пользователя от совершения определенных действий. В основе user experience лежит не только способность продукта быть правильно понятым и использованным, но также и впечатления, полученные от его использования. Определение UX можно найти в международном стандарте ИСО 9241-210:2010 «Эргономика взаимодействия человек-система. Часть 210. Человеко-ориентированное проектирование интерактивных систем». Оно звучит так: «Впечатления пользователя, возникающие в результате использования и/или предстоящего использования продукции, системы или услуги» [2].
Соответственно, целью юзабилити является создание легкого в использовании продукта, тогда как user experience ставит задачу сделать пользователя счастливым до, во время и после использования – то есть фокусируется на более гедонических аспектах. Иначе говоря, с точки зрения юзабилити, главный вопрос заключался в том, «Может ли пользователь достичь своих целей?», в то время как с точки зрения пользовательского опыта вопрос был бы таким: «Получил ли пользователь максимально приятные впечатления?».
Нам необходимо перестать ограничивать дизайн продукта строго объяснительной функцией – демонстрацией пользователю доступного функционала и способов его использования, и дополнить его интерпретационными методами.
Исследовательское тестирование (под которым подразумевается ad-hoc, то есть свободное тестирование) обычно проводится в неформальной обстановке, при участии двух людей – респондента и модератора. Организаторы стремятся получить достаточный объем данных, сохраняя при этом естественность поведения респондента – часто модератор и респондент изучают продукт вместе, при этом модератор регулярно поощряет его как можно больше «размышлять вслух», но, если одновременно использовать продукт и отвечать на вопросы становится сложно, исследователь принимает роль молчаливого наблюдателя, откладывая опрос до окончания тестирования.
Чтобы оценить пользовательский опыт на этапе создания прототипа чат-бота, рекомендуется проводить несколько экспериментальных испытаний, построенных на принципах «партизанского тестирования» – посещения общественных мест и опроса случайной выборки людей. Партизанское тестирование не всегда позволяет задействовать целевую аудиторию, но может обеспечить быстрым ревью в перерывах между более формальными сессиями тестирования прототипа. Иначе говоря, такие тестирования не придерживаются научной строгости – они существуют для быстрой оценки технической целесообразности дальнейшей разработки.
После партизанского тестирования проводятся более основательные тесты. Согласно рекомендациям из книги Джеффа Рубина и Даны Чиснелл по юзабилити-тестированию, заключительный тест следует проводить в комнате, охарактеризованной как «минималистичная портативная лаборатория». В комнате размещают два стула, письменный стол и компьютер с картой видеозахвата, чтобы записывать экран устройства участника. Стулья были расставлены так, чтобы участник и модератор могли сидеть друг к другу под углом 90 градусов. Модератору предоставлялась возможность в режиме реального времени следить за происходящим на экране участника через компьютер.
Перед началом тестирования участников просят заполнить предварительную анкету, чтобы оценить предыдущий опыт взаимодействия с чат-ботами и проанализировать ожидания от испытания данного прототипа. Анализ ожиданий помогает установить взаимосвязь между предубеждениями человека о продукте и показателями юзабилити во время его использования. Анкета также, как правило, содержит вопросы демографического характера и вопросы о технических параметрах устройства участника, таких как модель смартфона, которые помогают определить, насколько используемая модель влияет на результаты.
Если участник выбивается из разговора, исследователь смотрит, сможет ли он самостоятельно вернуть его в прежнее русло. В процессе тестирования исследователь делает заметки, используя предварительно определенные коды в отношении таких показателей, как успешно завершенное действие, прерванное действие, баг, а также положительные и негативные отзывы.
По окончании тестирования проводится опрос с целью оценить полезность, простоту использования и пользовательские предпочтения по 5-бальной шкале Лайкерта – психометрической шкале для измерения удовлетворенности. Модератору также рекомендуется задавать респонденту открытые вопросы об улучшении прототипа бота.
Несмотря на то, что во время юзабилити-тестирования участникам не предлагается высказать личное отношение к виртуальному собеседнику, тестирование бота, который предоставлял образовательные материалы на тему психического благополучия молодых людей, показало, что пять из десяти респондентов ощутили некую связь с ним [3]. Таким образом, можно получить данные о пользовательском опыте и там, где исследование изначально имело цель оценить юзабилити-сторону продукта.
В результате проведенного исследования удалось определить шесть правил хорошего user experience:
Результаты исследования позволяют сделать два на первый взгляд противоречивых вывода. С одной стороны, пользователи хотят, чтобы бот обладал человеческими чертами и мог с минимальными ограничениями понимать их так же, как живой собеседник. С другой стороны, они отмечают, что есть аспекты, которые в некоторых ситуациях делают бота лучшим партнером для общения. Его беспристрастность и непредвзятость позволяли выстраивать более честное и открытое общение с ним.
Подводя итог, можно сказать, что исследование столкнулось с ограниченностью теоретической базы и недостаточной глубиной методологических основ тестирования для выявления не только количественных, но и качественных показателей пользовательского опыта. Чтобы улучшать и развивать методы оценки пользовательского опыта, рекомендуется применять такие опросники, как Attrakdiff и Godspeed, измеряющих сходство диалоговых интерфейсов с поведением человека, а также шкал для измерения социального присутствия по таким психосоциальным критериям, как теплота и холод, личность и безличность.