Wald M. - Создание доступного образовательного мультимедиа с помощью редактирования субтитров автоматического распознавания речи в реальном времени

Аннотация

Wald M. Создание доступного образовательного мультимедиа с помощью редактирования субтитров автоматического распознавания речи в реальном времени. Популярность электронных книг сегодня переживает второе рождение в связи с появлением и развитием новых устройств, таких как смартфоны или планшетные компьютеры. Появляются новые сервисы по распространению электронных книг. Сами форматы файлов за последние несколько лет пережили многие изменения, а их количество возросло. Некоторые форматы поддерживают не только статическую графику, но и такой контент как аудио и видео. Каждый формат предоставляет свою адаптацию и оптимизацию для различных данных и их представлений.

Введение

Законодательство Великобритании о дискриминации в отношении инвалидов гласит, что необходимо внести разумные корректировки, чтобы гарантировать, что учащиеся с ограниченными возможностями не находятся в неблагоприятном положении (SENDA 2001), и поэтому было бы разумно ожидать, что должны быть внесены корректировки для обеспечения того, чтобы мультимедийные материалы, включая речь, были доступны как для живого, так и для записи. презентации, если был доступен рентабельный метод достижения этой цели.

Многие системы были разработаны для цифровой записи и воспроизведения мультимедийного содержимого лекции лицом к лицу, чтобы предоставить материал для повторения для студентов, которые посещали класс, или предоставить альтернативный опыт обучения для студентов, которые не могут присутствовать на лекции (Baecker et al. 2004, Brotherton & Abowd 2004), и все большее число университетов поддерживают загрузку записанных лекций на плееры iPod или MP3 студентов (Tire 2005).

По мере того, как видео и речь становятся все более распространенными компонентами онлайн-учебных материалов, можно ожидать, что потребность в мультимедийных материалах с субтитрами с синхронизированной речью и текстом, как рекомендовано в Руководстве по обеспечению доступности Интернета (WAI 2005), будет возрастать, и поэтому поиск доступного метода субтитров будет становятся более важными, чтобы помочь обосновать разумную корректировку.

Сложно искать мультимедийные материалы (например, речь, видео, файлы PowerPoint), и синхронизация речи с транскрибированными текстовыми подписями поможет учащимся и учителям искать соответствующие мультимедийные ресурсы с помощью синхронизированного текста (Baecker et al. 2004, Dufour et al. др. 2004).

Речь, текст и изображения обладают коммуникативными качествами и сильными сторонами, которые могут подходить для различного содержания, задач, стилей обучения и предпочтений. Комбинируя эти методы в синхронизированном мультимедиа, учащиеся могут выбрать наиболее подходящий. Низкая надежность и низкая валидность инструментов стиля обучения (Коффилд и др., 2004) предполагает, что учащимся следует предоставить выбор медиа, а не систему, пытающуюся предсказать их предпочтительные медиа, и поэтому текстовые подписи должны быть всегда доступны.

Автоматическое распознавание речи (ASR) может использоваться для создания синхронизированных субтитров для мультимедийных материалов (Bain et al 2005), и в этой статье будут обсуждаться методы решения существующих проблем с технологией путем редактирования в режиме реального времени для исправления ошибок.

Использование титров и транскрипции в образовании

Глухим и слабослышащим людям бывает трудно следить за речью через слух или делать заметки, читая по губам или наблюдая за переводчиком с языка жестов. Несмотря на то, что в настоящее время доступны обобщенные записи и перевод на язык жестов, они могут записывать только небольшую часть того, что говорится, в то время как квалифицированных переводчиков языка жестов с хорошим пониманием содержания соответствующих предметов высшего образования очень мало (RNID 2005):

«Переводчиков языка жестов никогда не будет достаточно для удовлетворения потребностей глухих и слабослышащих людей и тех, кто с ними работает».

Некоторые глухие и слабослышащие студенты могут также не иметь необходимых навыков языка жестов по конкретным предметам высшего образования. Следовательно, студенты могут столкнуться с трудностями при обучении в среде высшего образования или получении квалификации, необходимой для поступления в высшее учебное заведение.

Стинсон (Стинсон и др., 1988) сообщил, что глухие или слабослышащие студенты в Рочестерском технологическом институте, которые имели хорошие навыки чтения и письма, предпочитали дословно транскрибированные текстовые дисплеи в реальном времени (то есть похожие на телевизионные субтитры / титры) устному переводу и / или ведению заметок. .

Опытный обученный голосовой диктор, использующий ASR, очень внимательно и четко повторяя сказанное, может повысить точность по сравнению с исходным говорящим, использующим ASR, когда исходная речь не имеет достаточной громкости или качества или когда система не обучена (например, по телефону , Интернет, телевидение, нечеткий докладчик, несколько докладчиков, встречи, панели, вопросы аудитории). Переназванный ASR иногда используется для субтитров в прямом эфире в Великобритании (Lambourne et al. 2004), а также в залах судебных заседаний и учебных классах в США (Francis & Stinson 2003) с использованием маски для уменьшения фонового шума и беспокойства окружающих:

«Обширная программа исследований предоставила доказательства того, что система C-Print эффективно работает в государственных школах и учреждениях высшего образования»

Из-за сложности множества задач, требуемых от «записывающего», система C-Print ASR, хотя и позволяет записывающему делать больше заметок, чем просто писать, все же требует некоторого резюмирования.

Повторно озвученный ASR также можно использовать удаленно по телефону, чтобы преобразовать речь собрания или телефонного звонка в текст, который затем может быть прочитан глухим (Teletec International 2005).

Самая точная система - это субтитры в реальном времени с использованием стенографистов с использованием специальной фонетической клавиатуры, но, хотя для глухих и слабослышащих студентов высших учебных заведений имеется финансирование для глухих и слабослышащих студентов на услуги устного перевода или ведения записей, субтитры в реальном времени не использовались из-за нехватки подготовленных стенографисток, желающих работать в университетах, а не в суде. Даунс (Даунс и др., 2002) определяет потенциал распознавания речи по сравнению со службами сводной транскрипции и учащимися программ судебного сообщения, которые не могут справиться с информационным потоком в классе:

«Глухой или слабослышащий потребитель необязательно осведомлен о том, получает ли он / она сообщение полностью».

Робисон (Робисон и др., 1996) определил ценность распознавания речи для преодоления трудностей, которые возникли при переводе языка жестов с иностранными языками и специальной предметной лексикой, для которой нет таких знаков, как:

«Такие слова, как эти, замедляют процесс перевода, потенциально создавая путаницу, если переводчик или ученик не знаком с правильным написанием»

Поскольку университеты в Великобритании не несут прямой ответственности за финансирование или предоставление услуг устного перевода или ведения записей, у них, по-видимому, будет меньше стимулов исследовать использование ASR в классах по сравнению с университетами Канады, Австралии и США.

Автоматическое распознавание речи дает возможность обеспечить автоматические дословные субтитры в реальном времени для глухих и слабослышащих студентов или любого студента, которому легче следить за субтитрами и транскрипцией, чем за речью лектора, который может иметь диалект, акцент или не имеют английского в качестве родного языка.

На лекциях / занятиях студенты могут тратить много времени и умственных усилий на то, чтобы делать заметки. Это очень сложный навык для любого студента или записывающего, особенно если материал новый и они не уверены в ключевых моментах, так как трудно одновременно слушать то, что говорит лектор, читать то, что на экране, хорошенько подумайте и напишите краткие и полезные заметки. Пиолат (Piolat, Olive & Kellogg 2004) провел эксперименты, чтобы продемонстрировать, что ведение заметок - это не просто транскрипция информации, которую слышат или читают, но включает в себя одновременное управление, понимание, выбор и процессы производства и поэтому требует больше усилий, чем просто слушание, чтение или обучение. , при этом требуемые усилия возрастают по мере уменьшения внимания во время лекции.

Кроме того, делающие заметки должны резюмировать и / или сокращать слова или концепции, требующие умственных усилий, в зависимости от знаний о содержании лекции. При прослушивании одновременно выполняется больше операций, и записи лекции предъявляют больше требований к ресурсам рабочей памяти, чем ведение заметок с веб-сайта, что требует больших усилий, чем создание заметок из книги. Барбье (Barbier & Piolat 2005) обнаружил, что студенты французских университетов, которые могли писать на английском и французском языках, не могли делать заметки на английском и французском языках, демонстрируя высокие когнитивные требования к пониманию, отбору и переформулировке информации при ведении заметок. Хотя Книга рекордов Гиннеса (McWhirter 1985) зафиксировала максимальную скорость набора текста в мире на уровне 212 слов в минуту с максимальной устойчивой скоростью 150 слов в минуту, Бейли (Bailey 2000) сообщил, что, хотя для многих работ требуется скорость клавиатуры от 60 до 70 слов. в минуту люди набирают на компьютере от 20 до 40 слов в минуту, машинисты двумя пальцами набирают примерно 37 слов в минуту для запомненного текста и примерно 27 слов в минуту при копировании.

Автоматическое предоставление дословно отображаемой в реальном времени транскрипции того, что говорит учитель, архивированных в виде доступных конспектов лекций, таким образом, позволило бы студентам сконцентрироваться на обучении (например, студентам можно было бы задавать поисковые вопросы, зная, что у них было время подумать). как помощь студентам, которым трудно или невозможно делать записи, одновременно слушая, наблюдая и думая, или тем, кто не может присутствовать на лекции (например, по причинам психического или физического здоровья). Лекторы также будут иметь возможность отклоняться от заранее подготовленного «сценария», будучи уверенными в том, что их спонтанное общение будет «зафиксировано» навсегда.

Субтитры

Инструменты, которые синхронизируют заранее подготовленный текст и соответствующие аудиофайлы, либо для производства электронных книг (например, Dolphin 2005) на основе спецификаций DAISY (DAISY 2005), либо для субтитров мультимедиа (например, MAGpie 2005) с использованием, например, Synchronized Multimedia Интеграционные языки (SMIL 2005) обычно не подходят или не рентабельны для использования учителями для «повседневного» производства учебных материалов. Это связано с тем, что они зависят либо от преподавателя, читающего подготовленный сценарий вслух, что может сделать презентацию менее естественной и, следовательно, менее эффективной, либо от получения письменной расшифровки лекции, что является дорогостоящим и трудоемким процессом. Кэррол (Carrol & McLaughlin 2005) описывает, как они использовали Hicaption от Hisoftware для создания субтитров после проблем с использованием MAGpie, решив, что eTeach Висконсинского университета (eTeach 2005) вручную создает транскрипты, а также теги субтитров и временные метки Synchronized Accessible Media Interchange (SAMI). слишком трудоемки, и ScanSoft (Nuance 2005) не может вернуть свой файл после предложения субтитров с помощью своей системы распознавания речи.

Технико-экономическое обоснование ASR

Испытания осуществимости с использованием существующего коммерчески доступного программного обеспечения ASR для обеспечения дословно отображаемой в реальном времени транскрипции лекций для глухих студентов в 1998 году автором из Великобритании (Wald 2000) и Университета Святой Марии в Новой Шотландии в Канаде выявили это стандартное программное обеспечение для распознавания речи (например, Dragon, ViaVoice (Nuance 2005)) не подходил, так как требовал диктовки знаков препинания, что не встречается в спонтанной речи на лекциях. Без знаков препинания программное обеспечение ASR выдавало непрерывный непрерывный поток текста, который было очень трудно читать и понимать. Попытки редактора вставить знаки препинания вручную в реальном времени оказались безуспешными, поскольку перемещение курсора для вставки знаков пунктуации также перемещало точку вставки текста ASR и, таким образом, нарушало порядок слов в тексте. Однако испытания показали, что разумная точность может быть достигнута заинтересованными и преданными лекторами, которые говорили очень четко и внимательно после интенсивной тренировки системы на свой голос, читая обучающие сценарии и обучая систему любому новому словарю, которого еще нет в словаре. На основе этих технико-экономических обоснований в 1999 году Университетом Святой Марии, Новая Шотландия, Канада, было учреждено международное сотрудничество в области свободного обучения, и с тех пор автор продолжал работать с IBM и Liberated Learning, чтобы исследовать, как ASR может сделать речь более доступной.

Автоматическое форматирование

Очень сложно с пользой автоматически расставлять точки в транскрибируемой спонтанной речи, поскольку системы ASR могут распознавать только слова и не могут понимать передаваемые концепции. Дальнейшие исследования и испытания показали, что можно разработать приложение ASR, которое автоматически форматирует транскрипцию, разбивая непрерывный поток текста в зависимости от продолжительности пауз / пауз в речевом потоке. Поскольку люди, естественно, не говорят спонтанно полными предложениями, попытки автоматически вставить обычные знаки препинания (например, запятую для более короткой паузы и точку для более длинной паузы) таким же образом, как обычный письменный текст, не обеспечивали очень удобочитаемого и понятного отображения речи. Более удобочитаемый подход был достигнут за счет визуальной индикации пауз, показывающей, как говорящий группирует слова вместе (например, одна новая строка для короткой паузы и две для длинной паузы: однако можно выбрать любые символы в качестве маркеров паузы)

Освобожденная концепция обучения

Потенциал использования ASR для обеспечения автоматического субтитров для речи в классах высшего образования теперь продемонстрирован в классах «Свободное обучение» в США, Канаде и Австралии (Bain et al 2002, Leitch et al 2003, Wald 2002). Лекторы тратят время на разработку своего голосового профиля ASR, обучая программное обеспечение ASR понимать их манеру речи. Это включает в себя озвучивание сценариев регистрации, добавление нового словаря, отсутствующего в системном словаре, и обучение системы исправлению ошибок, которые она уже сделала, чтобы они не повторялись в будущем. Преподаватели носят беспроводные микрофоны, позволяющие свободно передвигаться во время разговора, а текст отображается в реальном времени на экране с помощью проектора данных, поэтому студенты могут одновременно видеть и слышать лекцию во время ее выступления. После лекции текст редактируется на предмет ошибок и доступен студентам в Интернете.

Чтобы воплотить в жизнь концепцию Liberated Learning, прототип приложения ASR, разработанного Lecturer в 2000 году в сотрудничестве с IBM, в следующем году был заменен IBM ViaScribe. Оба приложения использовали «движок» ViaVoice ASR и соответствующее обучение речевым и языковым моделям и автоматически предоставляли текст, отображаемый в окне и сохраняемый для последующего использования синхронизированным с речью. ViaScribe создавал файлы, которые позволяли синхронизировать звук и соответствующую расшифровку текста и слайды для просмотра в интернет-браузере или через медиаплееры, поддерживающие стандарт SMIL 2.0 (SMIL 2005) для доступного мультимедиа. ViaScribe (IBM 2005, Bain et al 2005) может автоматически создавать синхронизированную транскрипцию спонтанной речи с субтитрами, используя автоматически запускаемое форматирование из живых лекций, в офисе или из записанных речевых файлов на веб-сайте.

Меры читабельности

Миллс (Mills & Weldon, 1987) обнаружил, что лучше всего представлять подходящие с лингвистической точки зрения сегменты по идее, фразе, а не разделяя синтаксически связанные слова. Символы меньшего размера лучше подходят для чтения непрерывного текста, а символы большего размера - для задач поиска. Бейли (Bailey, 2002) отмечает, что формулы удобочитаемости позволяют прогнозировать трудности, с которыми читатель может столкнуться при чтении и понимании, обычно на основе количества слогов (или букв) в слове и количества слов в предложении. Поскольку большинство формул удобочитаемости учитывают только эти два фактора, эти формулы на самом деле не объясняют, почему некоторые письменные материалы могут быть трудными для чтения и понимания. Джонс (Jones et al., 2003) не обнаружил предыдущей работы, в которой исследовалась бы читаемость транскриптов речи, генерируемых ASR, и их эксперименты выявили субъективное предпочтение текстов с пунктуацией и заглавными буквами перед текстами, автоматически сегментированными системой, хотя не было обнаружено никаких объективных различий (они были обеспокоен тем, что мог быть эффект потолка). Дальнейшая работа будет включать исследование того, улучшает ли читаемость включение точек между предложениями.

Повышение удобства использования и производительности

Существующие системы ASR с неограниченным словарным запасом обычно зависят от говорящего и поэтому требуют, чтобы говорящий обучил систему тому, как он говорит, любому специальному словарю, который они используют, и словам, которые они чаще всего используют при письме. Обычно это включает в себя сначала чтение вслух из учебного сценария, предоставление письменных документов для анализа, а затем продолжение повышения точности за счет улучшения модели голоса и языка путем исправления существующих слов, которые не распознаются, и добавления любого нового словаря, отсутствующего в словаре. Текущие исследования включают разработку и улучшение моделей голоса (наиболее вероятные звуки речи, соответствующие форме акустической волны) и языковых моделей (наиболее вероятные произнесенные слова, соответствующие фонетическим звукам речи) путем анализа существующих записей спонтанной речи человека, так что сам говорящий не нужно тратить время на чтение обучающих сценариев или улучшение речевых или языковых моделей (Bain et al 2005). Это также должно помочь обеспечить лучшую точность специализированной предметной лексики говорящего, а также речевых структур спонтанной речи, которые могут отличаться от их более формальных письменных структур. Системы, не зависящие от говорящего, в настоящее время обычно имеют более низкую точность, чем обученные модели, но системы могут повысить точность, поскольку они узнают больше о голосе говорящего. Ламель (Lamel et al, 2000) провел эксперименты с некоторыми многообещающими результатами, чтобы снизить затраты на повышение точности путем автоматического итеративного переобучения системы на все более точных речевых данных. Подробная ручная транскрипция занимала 20-40 раз в реальном времени и транслировала транскрипцию с закрытыми субтитрами, хотя легко доступная транскрипция не являлась точной транскрипцией того, что было сказано, и не была точно синхронизирована со звуковым сигналом.

Повышение читабельности с помощью уровней уверенности и фонетических подсказок

Современные системы ASR обычно используют только статистические вероятности последовательностей слов, а не синтаксис или семантику, и будут пытаться отобразить «наиболее вероятные» слова в своем словаре на основе голоса и языковых моделей говорящего, даже если фактически произнесенные слова отсутствуют в словаре. (например, необычные или иностранные имена людей и мест). Хотя система имеет информацию об уровне уверенности в этих словах (т. Е. О вероятности того, что они были правильно распознаны), она обычно не передается читателю текста ASR, единственный признак того, что произошла ошибка, - это контекст. . Если бы читатель знал, что записанное слово вряд ли было правильным, ему было бы лучше сделать обоснованное предположение о том, каким должно было быть слово, исходя из его звучания (если они могут это слышать) и других слов в слове. приговор. Предоставление читателю указания на «уверенность» системы в точности распознавания может быть выполнено разными способами (например, изменение цвета и / или отображение фонетических звуков), и пользователь может выбрать порог достоверности. Для читателя, неспособного услышать слово, фонетический дисплей также даст дополнительные подсказки относительно того, как слово произносится и, следовательно, каким оно могло быть. Поскольку слово с более низкой степенью достоверности не всегда будет неправильным, а слово с более высокой степенью достоверности - правильным, необходимы дальнейшие исследования, чтобы повысить ценность этой функции.

Повышение точности за счет редактирования в реальном времени

Подробная обратная связь (Leitch et al, 2003) от студентов с широким спектром физических, сенсорных и когнитивных нарушений, а также интервью с преподавателями показали, что и студентам, и учителям в целом нравится концепция свободного обучения, и они считают, что она улучшает преподавание и обучение, пока текст был достаточно точный (например,> 85%). Несмотря на то, что оказалось трудным получить точность более 85% во всех учебных заведениях высшего образования непосредственно из речи всех учителей, многие студенты разработали стратегии для исправления ошибок в тексте, и большинство студентов использовали текст в качестве дополнительного ресурса. чтобы проверить и уточнить услышанное.

Редактирование синхронизированного стенограммы после лекции, включающее частые паузы и повторное воспроизведение фрагментов записи, может занять в два раза больше времени, чем исходная запись для 15% ошибок, в то время как для высоких частот ошибок 35% это может занять столько же времени, как если бы машинистка только что полностью расшифровала аудиозапись (Bain et al 2005). Методы, используемые для обеспечения возможности редактирования в реальном времени, могут в равной степени применяться для ускорения редактирования после лекции и повышения его эффективности.

Хотя можно ожидать, что развитие ASR продолжит улучшать показатели точности (Howard-Spink 2005, IBM 2003, Olavsrud 2002), использование человека-посредника для повышения точности путем исправления ошибок в реальном времени, как они делаются программным обеспечением ASR. при необходимости может помочь компенсировать некоторые из текущих ограничений ASR.

Есть возможность редактировать ошибки в синхронизированной речи и тексте, вставлять, удалять или изменять текст с автоматической корректировкой времени. Например, «редактор», исправляющий 15 слов в минуту, повысит точность транскрибируемого текста с 80% до 90% для говорящего, говорящего со скоростью 150 слов в минуту. Поскольку статистическое измерение точности распознавания путем подсчета «ошибок» распознавания (т. Е. Замененных, вставленных или пропущенных слов) не обязательно означает, что все ошибки повлияли на читаемость или понимание (например, замена «а» на «а» обычно малоэффективна) и поскольку не все ошибки одинаково важны, редактор может использовать свои знания и опыт для определения приоритетов тех, которые больше всего влияют на удобочитаемость и понимание. Трудно разработать стандартную меру точности ASR, которая учитывала бы удобочитаемость и понимание.

В то время как один человек, действующий и как переоценка, и как редактор, мог бы попытаться создать отредактированный перезвонированный текст в реальном времени, это было бы более проблематично, если бы лектор попытался отредактировать ошибки ASR, когда они читали свою лекцию. Тем не менее, человек, редактирующий свои собственные ошибки ASR для повышения точности, может быть возможным при использовании ASR для общения один на один с глухим.

Ламбурн (Lambourne et al. 2004) сообщил, что, хотя их система телевизионных субтитров ASR была разработана для использования двумя операторами, один с изменением голоса, а другой с коррекцией, опытный оратор мог достичь показателей распознавания без коррекции, которые были приемлемы для прямых трансляций спортивных состязаний, таких как гольф. .

Предыдущие исследования показали, что, хотя ASR может выполнять расшифровку с нормальной скоростью речи, исправление ошибок проблематично. Льюис (Lewis, 1999) оценивал работу участников, использующих систему диктовки с распознаванием речи, которые прошли обучение одной из двух стратегий коррекции: либо только голосом, либо с использованием голоса, клавиатуры и мыши. В обоих случаях пользователи говорили со скоростью около 105 неисправленных слов в минуту, а мультимодальные (голос, клавиатура и мышь) исправления производились в три раза быстрее, чем исправления только для голоса, и обеспечивали на 63% большую пропускную способность. Карат (Карат и др., 1999) обнаружил, что «родные» пользователи ASR с хорошими навыками набора текста либо постоянно следили за дисплеем на предмет ошибок, либо в большей степени полагались на корректуру, чтобы обнаружить их, что при наборе текста без ASR. Пользователи могли исправлять ошибки с помощью только голоса или клавиатуры и мыши. Доминирующим методом ввода с клавиатуры было стирание текста в обратном направлении и повторный ввод. Более опытные участники ASR говорили со средней скоростью 107 слов в минуту, но исправление в среднем занимало у них в три раза больше времени, чем время входа. Карат (Карат и др., 2000) обнаружил, что начинающие пользователи, как правило, могут говорить быстрее, чем они могут печатать, и имеют такое же количество речевых и печатных ошибок, но исправление ошибок диктовки занимает гораздо больше времени, чем при вводе ошибок, тогда как опытные пользователи ASR предпочитают техники клавиатуры-мыши. вместо речевых методов исправления ошибок. Сухм (Suhm et al, 1999) сообщил, что методы коррекции мультимодального распознавания речи с использованием орфографии / почерка / «жестов» пера имеют особое значение для небольших мобильных устройств или пользователей с плохими навыками набора текста. Шнейдерман (Shneiderman 2000) отметил, что использование мыши и клавиатуры для редактирования требует меньше умственных усилий, чем использование речи. Typewell (Typewell 2005), которые предоставляют программное обеспечение для сокращения сокращений для облегчения транскрипции с клавиатуры, заявили на своем веб-сайте (без какой-либо поддержки что, по их мнению, набор текста - это более быстрый способ получить приемлемо точную расшифровку стенограммы, потому что ошибки ASR труднее обнаружить, чем ошибки набора, и что точность слов ASR 92% соответствует точности значений только 60%, и кто-то этого не сделает. t иметь возможность исправлять ошибку каждые пять секунд при одновременном переоценке.

Методы редактирования в реальном времени

Исправление ошибок ASR требует, чтобы редактор (-ы) одновременно выполнял следующие действия:

обнаружение ошибки;
Перемещение курсора в положение, необходимое для исправления ошибок подстановки, пропуска или вставки;
Ввод исправления;
Продолжая слушать и запоминать сказанное при поиске и исправлении ошибки. Это усложняется тем фактом, что слова не отображаются одновременно с речью, поскольку существует непредсказуемая задержка в несколько секунд после того, как слова были произнесены, в то время как система ASR обрабатывает информацию перед отображением распознанных слов.

Существует множество потенциальных подходов и интерфейсов для редактирования в реальном времени, и они исследуются, чтобы сравнить их преимущества и определить знания, навыки и подготовку, необходимые для редактирования.

Использование мыши и клавиатуры может показаться наиболее естественным методом исправления ошибок, но использование клавиатуры только для навигации и исправления, а не мыши, имеет то преимущество, что не замедляет процесс исправления, требуя от редактора убирать пальцы с клавиатуры. чтобы переместить мышь, чтобы перейти к ошибке, а затем потребовать, чтобы рука, использующая мышь, вернулась к клавиатуре для ввода исправления.

Использование ножных переключателей или «ножной педали» для выбора ошибки и использования клавиатуры для исправления ошибки имеет то преимущество, что позволяет рукам сконцентрироваться на исправлении, а ногам - на навигации, испытанном и испытанном методе, используемом машинистками по аудиосистеме. (Системы диктовки и транскрипции Start-Stop 2005). Разделение задач выбора и исправления и внесение исправления в единственную задачу клавиатуры также имеет то преимущество, что позволяет редактору начать ввод правильного слова (слов) даже до того, как будет сделан выбор ошибки с помощью ножной педали.

Система редактирования ASR, которая разделяла задачи ввода правильного слова и перемещения курсора в правильное положение для исправления ошибки, позволила бы использовать два редактора. Как только один редактор обнаруживал ошибку, он мог ввести исправление, и эти исправления могли перейти в окно исправления. Роль другого редактора будет заключаться в перемещении курсора в правильную позицию для исправления ошибок подстановки, пропуска или вставки. При низком уровне ошибок один редактор может взять на себя обе задачи.

Ошибки могут быть выбраны последовательно с помощью клавиши табуляции или ножного переключателя или посредством произвольного доступа с использованием таблицы / сетки, где выбор слов происходит по позициям строки и столбца. Если использовалось восемь столбцов, соответствующих «домашним» клавишам на клавиатуре, а строки были выбраны с помощью нескольких нажатий клавиш на соответствующей исходной клавише столбца, редактор мог бы удерживать пальцы на домашних клавишах при переходе к ошибке, прежде чем вводить исправление. .

Телевизионные субтитры в реальном времени также были реализованы с использованием двух машинисток, работающих вместе, чтобы преодолеть трудности, связанные с обучением и привлечением стенографистов, которые используют фонетическую клавиатуру или слоговую клавиатуру (Softel 2001, NCAM 2000). Двое машинисток могут выработать понимание, чтобы иметь возможность транскрибировать альтернативные предложения, однако только стенография с использованием фонетической клавиатуры способна дословно транскрибировать в реальном времени со скоростью 240 слов в минуту.

Для повторяющихся ошибок (например, имена не в словаре ASR) система может предложить исправления редактору, с возможностью для редактора разрешить их автоматическую замену.

Хотя можно разработать «горячие клавиши» для автоматического исправления некоторых ошибок (например, множественного числа, притяжательного, временного и т. Д.), Когнитивная нагрузка запоминания функции каждой клавиши может облегчить фактическое исправление ошибки напрямую через набор текста.

Речь может быть использована для исправления ошибки, хотя это приводит к другой потенциальной ошибке, если речь не распознается правильно. Возможно использование речи для перехода к ошибке путем произнесения координат ошибки, хотя, опять же, это потребует словесной обработки и может перегрузить когнитивную обработку редактора, поскольку это даст им еще больше возможностей для размышлений и запоминания.

Прототип системы редактирования в реальном времени с множеством интерфейсов редактирования, включающих многие из этих функций, был разработан и в настоящее время используется для исследования наиболее эффективного подхода к редактированию в реальном времени.

Методы, результаты и оценка технико-экономических испытаний

Прототип системы редактирования в реальном времени с интерфейсами редактирования с использованием мыши и клавиатуры, только клавиатуры и клавиатуры только с таблицей / сеткой был разработан для исследования наиболее эффективного подхода к редактированию в реальном времени. Были задействованы пять испытуемых, которые различались по роду занятий, общему опыту использования программного обеспечения и навигации по нему, навыкам набора текста, опыту корректуры, техническим знаниям об используемой системе редактирования, опыту преобразования речи в текст и опыту набора текста. . Различные двухминутные образцы речи использовались в случайном порядке со скоростью речи от 105 до 176 слов в минуту и ??частотой ошибок от 13% до 29%. Испытуемые тестировались на каждом из интерфейсов редактирования в случайном порядке, каждый интерфейс использовался с четырьмя рандомизированными 2-мя минутами речи, первая из которых использовалась, чтобы дать пользователю возможность привыкнуть к тому, как работает каждый редактор. Каждый испытуемый тестировался индивидуально с использованием наушников для прослушивания речи в своей тихой обстановке. Помимо количественных данных, записанных путем регистрации, испытуемые были опрошены и просили дать оценку каждому редактору. Навигация с помощью мыши была предпочтительнее и давала самые высокие показатели коррекции. Однако в этом исследовании не использовались опытные машинисты, обученные системе, которые могли бы предпочесть использовать только клавиатуру и получить еще более высокую степень исправления. Анализ результатов показал, что есть некоторый эффект обучения, предполагающий, что продолжение практики с редактором может улучшить производительность. Все 5 субъектов считали, что задача редактирования ошибок транскрипции в режиме реального времени выполнима, и объективные результаты подтверждают это, поскольку можно исправить до 11 ошибок в минуту, даже с ограниченным временем, доступным для изучения того, как использовать редакторы, ограничения прототипов интерфейсов и когнитивной нагрузки, связанной с необходимостью научиться пользоваться разными редакторами за очень короткое время.

Автоматическое исправление ошибок

Дальнейшая исследовательская работа будет включать изучение автоматического исправления ошибок с использованием фонетического поиска и оценок достоверности для автоматизации перемещения курсора в правильную позицию для исправления замен, пропусков или вставок.

Системы ASR выдают оценки достоверности, которые дают некоторое представление о вероятности того, что распознанное слово является правильным. Однако Сухм (Suhm and Myers 2001) обнаружил, что выделение вероятных ошибок на основе этих оценок достоверности не помогло ускорить исправление, поскольку также были выделены некоторые правильные слова.

Если при частоте ошибок 10% и говорящем со скоростью 150 слов в минуту каждые 4 секунды произносится примерно 10 слов и исправляется 1 слово, система должна будет выбрать, какое из 10 или около того слов содержит ошибку.

Фонетический поиск (Клементс и др., 2002) может помочь найти ошибки ASR «вне словарного запаса», которые возникают, когда произнесенные слова не известны системе ASR, поскольку она ищет слова на основе их фонетических звуков, а не их написания.

Если система сможет сравнить фонетические «звуки» правильного слова, набранного редактором, с фонетическими звуками 10 или около того слов, в которых есть ошибка, тогда в сочетании с оценками достоверности можно будет автоматически идентифицировать ошибку и замените его типизированным исправлением, с возможностью редактора отменить автоматическую систему, если она допустила ошибку. Система могла бы начать сравнивать фонетические «звуки» правильного слова при его вводе еще до того, как было введено все слово.

Способы отображения редактируемого текста

Можно отображать текст на большом экране по мере его исправления, что имеет то преимущество, что не вводится дополнительная задержка перед отображением слов. Читатель видит как ошибки, так и их исправления. Если текст отображается только после редактирования, необходимо выбрать метод для определения того, как долго редактор должен «удерживать» текст. Постоянная задержка в 5 секунд, добавленная к задержке ASR, будет означать, что у редактора будет только 5 секунд для исправления ошибки. Если бы говорящий говорил со скоростью 150 слов в минуту, 2,5 слова произносились бы каждую секунду, а для коэффициента ошибок 10% нужно было бы исправлять одно слово каждые 4 секунды. Если 15 ошибок возникли равномерно в течение каждой минуты речи (т.е. одна каждые 10 слов), то исправление одного слова каждые 4 секунды может быть осуществимо с 5-секундной задержкой. Однако, если ошибки были сгруппированы вместе, за эти 5 секунд будет произнесено 12,5 слов, из которых только 1,25 можно будет исправить. Если используется переменная задержка, то при последовательном возникновении ошибок может быть более длительная задержка перед отображением последнего слова. Если ошибок не обнаружено, то можно ввести минимальную задержку, если редактор пропустит правильный текст через неотредактированный нажатием клавиши.

Для субтитров в прямом эфире перед передачей звука часто вводится задержка (например, для удаления оскорбительных материалов), и это может обеспечить дополнительное время для появления субтитров, но эта задержка не может возникать для живого голоса на лекциях. Также для ТВ-субтитров в прямом эфире определяется максимально допустимая задержка, чтобы субтитры по-прежнему синхронизировались с видео, поскольку для нескольких динамиков могут возникнуть проблемы и путаница, если задержка означает, что говорящий уже исчез из поля зрения, когда появились субтитры.

Работа с несколькими динамиками

На собраниях (реальных или виртуальных) или интерактивных групповых сессиях можно использовать различные подходы, чтобы вклады, вопросы и комментарии всех выступавших могли быть непосредственно переведены в текст. Самый простой подход - создать независимую от динамиков систему, которая работает с любым динамиком. Однако в настоящее время система, независимая от говорящего, менее точна, чем использование акустических моделей, обученных для каждого говорящего, и поэтому самый простой подход для обеспечения наилучшего распознавания будет заключаться в том, чтобы каждый участник имел свой собственный отдельный компьютер со своей персональной системой ASR, обученной их голосу и голосу. текст мог отображаться на экране перед ними.

Менее затратной альтернативой может быть один компьютер, на котором система определяет смену говорящего (например, с помощью программного обеспечения или микрофона, или путем определения местоположения, откуда исходит речь) перед загрузкой модели голоса. Это потребует короткой задержки при идентификации динамика и переключении моделей. Речь должна была быть сохранена, пока это происходило, чтобы слова не терялись. Альтернативный подход, который не будет включать какую-либо временную задержку для идентификации говорящего или переключения акустических моделей, будет заключаться в том, что в системе все голосовые модели пользователя будут работать одновременно на нескольких машинах распознавания речи, каждая из которых будет работать с другой голосовой моделью говорящего. Поскольку системы распознавания речи работают, вычисляя, насколько они уверены в том, что произнесенное слово было распознано в их словаре, можно с несколькими запущенными механизмами распознавания речи сравнить оценки, чтобы найти лучшее распознавание и вывести эти слова. . Очевидно, что существует ограничение на количество одновременных систем, которые могут быть запущены на одном процессоре без введения неприемлемых задержек по времени и / или ошибок в распознавании, поскольку процессор не сможет справиться со скоростью обработки. Это можно было бы преодолеть, используя систему клиент-сервер с несколькими процессорами. Наилучшее распознавание в настоящее время может быть достигнуто, когда каждый человек носит близкие к разговору микрофоны с шумоподавляющей гарнитурой, хотя качество, достигаемое с помощью нагрудных, настольных или массивных микрофонов и обработки сигнала, улучшается.

Обычно встреча с участием более чем одного человека является очень сложной ситуацией для глухого человека. Однако несколько экземпляров механизма ASR должны быть в состоянии справиться даже с тем, что все говорят одновременно, поэтому глухой пользователь системы ASR может справиться даже лучше, чем слышащие слушатели, которые будут бороться со слуховым вмешательством всех говорящих одновременно. . С этой ситуацией могут справиться несколько редакторов в реальном времени, тогда как у одного редактора могут быть проблемы.

Персонализированные дисплеи

Исследование Liberated Learning показало, что при успешном использовании проецирования текста на большой экран в классе ясно, что во многих ситуациях индивидуальный персонализированный и настраиваемый дисплей будет предпочтительным или необходимым. Система персонального дисплея клиент-сервер была разработана (Wald 2005), чтобы предоставить пользователям их собственный персональный дисплей в их собственных беспроводных системах (например, компьютеры, КПК, мобильные телефоны и т. Д.), Настроенный в соответствии с их предпочтениями (например, шрифт, размер, цвет, текст форматирование и прокрутка). Это также позволяет отображать транскрипцию ASR нескольких говорящих в нескольких окнах персонального дисплея на компьютере глухого человека. Также должна быть возможность объединить эти отдельные "заголовки" на дисплее в одно окно с указанием говорящего, если это необходимо. Стенограмма встречи потребует этого комбинированного представления, и одному редактору также будет легче справиться с отображением текста в одном окне. Персональная система отображения и редактирования клиент-сервер также может исправлять ошибки, сравнивая и комбинируя любые исправления, сделанные учащимися в их персональных системах отображения / редактирования. Система также может позволить учащимся добавлять свои собственные синхронизированные по времени заметки и аннотации.

Вывод

Делать записи на лекциях очень сложно, особенно для глухих студентов и не носителей языка, поэтому использование ASR для помощи студентам может быть очень полезным. Повышение точности расшифровки ASR и разработка более быстрых методов редактирования важны, потому что редактирование является трудным и медленным. Некоторые ошибки ASR могут иметь незначительное влияние на читаемость, и знание этого позволит редакторам уделять приоритетное внимание исправлению ошибок для тех ошибок, которые больше всего влияют на читаемость, если они не могут исправить 100% ошибок. Требуются дальнейшие исследования, чтобы выяснить важность пунктуации, сегментации и ошибок для удобочитаемости. Оптимальная система для цифровой записи и воспроизведения мультимедийного содержимого лекций лицом к лицу автоматически создавала бы безошибочную расшифровку разговорной речи, синхронизированную со звуком, видео и любым графическим отображением на экране (например, PowerPoint), и позволяла бы отображать ее по-разному в разные устройства. Было показано, что редактирование в реальном времени возможно, но относительно небольшой объект и размер тестовой выборки, отсутствие у испытуемых опыта работы с интерфейсами редактирования и высокая когнитивная нагрузка, связанная с необходимостью перехода на новый и другой редактор примерно каждые 20 минут. означало, что результаты, хотя и являются ориентировочными, не являются окончательными, но могут быть полезны для определения направления будущих разработок. Необходимы постоянные исследования для повышения точности ASR и разработки эффективных методов редактирования ошибок в реальном времени, прежде чем концепция свободного обучения станет повседневной реальностью.

Список использованной литературы

Baecker, R. M., Wolf, P., Rankin, K. (2004). The ePresence Interactive Webcasting System: Technology Overview and Current Research Issues. Proceedings of Elearn 2004, 2396-3069
Bailey 2000 Human Interaction Speeds. Retrieved December 8, 2005, from http://webusability.com/article_human_interaction_speeds_9_2000.htm
Bailey. (2002). Readability Formulas and Writing for the Web. Retrieved December 8, 2005, from http://webusability.com/article_readability_formula_7_2002.htm
Bain, K., Basson, S., A., Faisman, A., Kanevsky, D. (2005). Accessibility, transcription, and access everywhere, IBM Systems Journal, Vol 44, no 3, pp. 589-603 Retrieved December 12, 2005, from http://www.research.ibm.com/journal/sj/443/bain.pdf
Bain, K., Basson, S., Wald, M. (2002). Speech recognition in university classrooms, Proceedings of the Fifth International ACM SIGCAPH Conference on Assistive Technologies, ACM Press, 192-196.
Barbier, M. L., Piolat, A. (2005). L1 and L2 cognitive effort of notetaking and writing. In L. Alla, & J. Dolz (Eds.). Proceedings at the SIG Writing conference 2004, Geneva, Switzerland.
Brotherton, J. A., Abowd, G. D. (2004) Lessons Learned From eClass: Assessing Automated Capture and Access in the Classroom, ACM Transactions on Computer-Human Interaction, Vol. 11, No. 2.
Carrol, J., McLaughlin, K. (2005). Closed captioning in distance education, Journal of Computing Sciences in Colleges, Vol. 20, Issue 4, 183 – 189.
Clements, M., Robertson, S., Miller, M. S. (2002). Phonetic Searching Applied to On-Line Distance Learning Modules. Retrieved December 8, 2005, from http://www.imtc.gatech.edu/news/multimedia/spe2002_paper.pdf
Coffield, F., Moseley, D., Hall, E., Ecclestone, K. (2004) Learning styles and pedagogy in post-16 learning: A systematic and critical review, Learning and Skills Research Centre
DAISY (2005). Retrieved December 27, 2005, from http://www.daisy.org
Dolphin (2005). Retrieved December 27, 2005, from http://www.dolphinaudiopublishing.com/
Downs, S., Davis, C., Thomas, C., Colwell, J. (2002). Evaluating Speech-to-Text Communication Access Providers: A Quality Assurance Issue, PEPNet 2002: Diverse Voices, One Goal Proceedings from Biennial Conference on Postsecondary Education for Persons who are Deaf or Hard of Hearing. Retrieved November 8, 2005, from http://sunsite.utk.edu/cod/pec/2002/downs.pdf
Dufour, C., Toms, E. G., Bartlett. J., Ferenbok, J., Baecker, R. M. (2004). Exploring User Interaction with Digital Videos Proceedings of Graphics Interface eTeach. (2005). Retrieved December 8, 2005, from http://eteach.engr.wisc.edu/newEteach/home.html
Francis, P.M. Stinson, M. (2003). The C-Print Speech-to-Text System for Communication Access and Learning, Proceedings of CSUN Conference Technology and Persons with Disabilities, California State University Northridge. Retrieved December 12, 2005, from http://www.csun.edu/cod/conf/2003/proceedings/157.htm
Howard-Spink, S. (2005). IBM's Superhuman Speech initiative clears conversational confusion.
Retrieved December 12, 2005, from http://www.research.ibm.com/thinkresearch/pages/2002/20020918_speech.shtml
IBM. (2003). The Superhuman Speech Recognition Project Retrieved December 12, 2005, from http://www.research.ibm.com/superhuman/superhuman.htm
IBM (2005). Retrieved December 12, 2005, from http://www-306.ibm.com/able/solution_offerings/ViaScribe.html
Jones, D., Wolf, F., Gibson, E., Williams, E., Fedorenko, F., Reynolds, D. A., Zissman, M. (2003). Measuring the Readability of Automatic Speech-to-Text Transcripts, Proc. Eurospeech, Geneva, Switzerland
Karat, C.M., Halverson, C., Horn, D. and Karat, J. (1999) Patterns of Entry and Correction in Large Vocabulary Continuous Speech Recognition Systems, CHI 99 Conference Proceedings, 568-575.
Karat, J., Horn, D., Halverson, C. A., Karat, C.M. (2000). Overcoming unusability: developing efficient strategies in speech recognition systems, Conference on Human Factors in Computing Systems CHI ‘00 extended abstracts, 141-142.
Lambourne, A., Hewitt, J., Lyon, C., Warren, S. (2004). Speech-Based Real-Time Subtitling Service, International Journal of Speech Technology, 7, 269-279.
Lamel, L., Lefevre, F., Gauvain, J., Adda, G. (2000). Portability issues for speech recognition technologies, Proceedings of the first international conference on Human language technology research, San Diego, 1-7
Leitch, D., MacMillan, T. (2003). Liberated Learning Initiative Innovative Technology and Inclusion: Current Issues and Future Directions for Liberated Learning Research. Year III Report. Saint Mary's University, Nova Scotia.
Lewis, J.R. (1999). Effect of Error Correction Strategy on Speech Dictation Throughput, Proceedings of the Human Factors and Ergonomics Society, 457-461
McWhirter, N. (ed). (1985) THE GUINNESS BOOK OF WORLD RECORDS, 23rd US edition, New York: Sterling Publishing Co., Inc. Retrieved December 8, 2005 reported at http://sominfo.syr.edu/facstaff/dvorak/blackburn.html
Mills, C., Weldon, L. (1987). Reading text from computer screens, ACM Computing Surveys, Vol. 19, No. 4, 329 – 357.
NCAM. (2000) International Captioning Project Retrieved December 12, 2005, from http://ncam.wgbh.org/resources/icr/europe.html
Nuance (2005). Retrieved December 12, 2005, from http://www.nuance.com/
Olavsrud, T. (2002). IBM Wants You to Talk to Your Devices Retrieved December 12, 2005, from http://www.internetnews.com/ent-news/article.php/1004901
Piolat, A., Olive, T., Kellogg, R.T. (2004). Cognitive effort of note taking. Applied Cognitive Psychology, 18, 1-22
Robison, J., Jensema, C. (1996). Computer Speech Recognition as an Assistive Device for Deaf and Hard of Hearing People, Challenge of Change: Beyond the Horizon, Proceedings from Seventh Biennial Conference on Postsecondary Education for Persons who are Deaf or Hard of Hearing. April, 1996.
Retrieved November 8, 2005, from http://sunsite.utk.edu/cod/pec/1996/robison.pdf
RNID (2005). Retrieved December 12, 2005, from http://www.rnid.org.uk/howwehelp/research_and_technology/communication_and_broadcasting/virtual_signing/
SENDA (2001). Retrieved December 12, 2005, from http://www.opsi.gov.uk/acts/acts2001/20010010.htm
Shneiderman, B. (2000). The Limits of Speech Recognition, Communications Of The ACM September 2000, Vol. 43(9), 63-65
SMIL (2005). Retrieved December 12, 2005, from http://www.w3.org/AudioVideo/
Softel. (2001) FAQ Live or ‘Real-time’ Subtitling Retrieved December 12, 2005, from http://www.softel-usa.com/downloads/Softel_Live_Subtitling_FAQ.pdf
Start-Stop Dictation and Transcription Systems (2005). Retrieved December 27, 2005, from http://www.startstop.com/sst2.asp
Stinson. M., Stuckless, E., Henderson, J., Miller, L. (1988). Perceptions of Hearing-Impaired College Students towards real-time speech to print: Real time Graphic display and other educational support services, The Volta Review.
Suhm, B., Myers, B., Waibel, A. (1999). Model-Based and Empirical Evaluation of Multimodal Interactive Error Correction, CHI 99 Conference Proceedings, 584-591
Suhm, B., Myers, B. (2001). Multimodal error correction for speech user interfaces, ACM Transactions on Computer-Human Interaction (TOCHI), Vol. 8(1), 60-98
Teletec International (2005). Retrieved December 27, 2005, from http://www.teletec.co.uk/remote/
Typewell. (2005) Retrieved December 8, 2005, from http://www.typewell.com/speechrecog.html
Tyre, P. (2005). Professor in Your Pocket, Newsweek MSNBC. Retrieved December 8, 2005, from http://www.msnbc.msn.com/id/10117475/site/newsweek
WAI. (2005). Retrieved December 12, 2005, from http://www.w3.org/WAI
Wald, M. (2000). Developments in technology to increase access to education for deaf and hard of hearing students, Proceedings of CSUN Conference Technology and Persons with Disabilities, California State University, Northridge.
Retrieved December 12, 2005, from http://www.csun.edu/cod/conf/2000/proceedings/0218Wald.htm
Wald, M. (2002). Hearing disability and technology, Phipps, L., Sutherland, A., Seale, J. (Eds) Access All Areas: disability, technology and learning, JISC TechDis and ALT, 19-23.
Wald, M. (2005) Personalised Displays. Speech Technologies: Captioning, Transcription and Beyond, IBM T.J. Watson Research Center New York Retrieved December 27, 2005, from http://www.nynj.avios.org/Proceedings.htm
Whittaker, S., Amento, B., (2004). Semantic speech editing, Proceedings of the SIGCHI conference on Human factors in computing systems (CHI 2004), Vienna, 527-534.