<< Назад
ДонНТУ   Портал магистров
[Ссылка на источник.]

ОБЗОР РАЗЛИЧНЫХ МЕТОДОВ СЕГМЕНТАЦИИ РУКОПИСНОГО СЛИТНОГО ТЕКСТА В ДОКУМЕНТАХ

Анкита Чанана*, Чандана Джайн Студент факультета компьютерных наук и инженерии мемориального колледжа имени Яна Наяка Чаудхари девилала, Сирса, Харьяна, Индия
Доцент кафедры cse, мемориальный колледж Яна Наяка Чаудхари девилала, Сирса, Харьяна, Индия
Перевёл Поздняков Г. А. Источник: A. Chanana A review on various techniques for character segmentation of handwritten text documents /
A. Chanana – Haryana, 2015. – pp. 1-5,

Аннотация:

Сегментация символов - это процесс отделения символов от слов. Сегментация рукописного текста по символам является сложной задачей в O.C.R из-за его особенностей и различных стилей письма разных авторов. Рукописный текст также подвержен проблемам перекрывающихся символов, соприкасающихся символов, искаженных символов, неработающих символов , что усложняет процесс сегментации. Точность сегментации символов зависит от того, в какой степени решены эти проблемы и сегментирован символ. В этой статье мы приводим обзор различных методов , используемых для сегментации символов, а также обсуждаем существующие проблемы сегментации. Правильная сегментация необходима для правильного распознавания символов.

Вступление

O.C.R (оптическое распознавание символов) было одной из самых сложных областей исследований в области обработки изображений . Основной целью O.C.R. является преобразование отсканированных документов в редактируемый формат. O.C.R помогает нам читать и распознавать отсканированные документы.

Материалы и методы

В сегодняшнем исследовании Senarios существуют различные методы, которые обсуждались для сегментации символов. Сегментация рукописного текста является более сложным процессом, чем сегментация символов в печатном документе.

Алгоритм определения конца сегментации прерывистых и соприкасающихся символов в рукописном слове гурумукхи” Исследование, проведенное Парикой Манглой и Харлин Каур (IEEE). В статье предлагается новый метод сегментации, основанный на соседних пикселях для соприкасающихся и прерывистых символов рукописного текста на панджаби, который является шрифтом гурумукхи. “Фрагментация рукописных трогательных символов в сценарии Девнагари” Исследование Шучи Капура и Вивека Верма. В котором разрабатывается методика, позволяющая найти решение для трогательных символов.

“Для извлечения признака рукописного сценария Девнагари” Аджай Гарг использует технику извлечения признака и Симпель Джиндал распознает рукописный документ на языке Девнагари. ”Обнаружение строк текста и сегментация в рукописных сценариях Гурумукхи” Эффективный метод предложен Намиша Моди и Хушнит Джиндал за сегментацию текстовых строк в рукописном документе на пенджабском языке, в котором рассматриваются такие проблемы, как перекрывающиеся и связанные компоненты.

“Методы сегментации рукописного текста на хинди для строк и символов” опрос, проведенный Сайпракашем палаколлу, Рену Дхир и Раджниш Рани. В этой статье рассматриваются различные методы сегментации строк и символов.. В этой статье основной метод, которому следуют, заключается в том, что строки заголовка обнаруживаются и преобразуются в прямые линии. После этого каждое слово делится на верхний модификатор, затем на согласную, а затем на нижнюю часть, чтобы упростить сегментацию символов . Алгоритм основан на нахождении заголовочных и базовых строк путем оценки средней высоты строки. Этот метод эффективно сегментирует строки с точностью до 93%, сегментирует слова с точностью до 96% и символы с точностью до 89%. Этот метод для линейного сегмента эффективно работает в случаях разных размеров текста и разного разрешения.

”Опасности при сегментации рукописного текста на хинди” В этой статье Нареш Кумар Гарг, Лахвиндер Каур и М.К. Джиндал проделали очень хорошую работу, эта статья дает общее представление о проблемах, которые в настоящее время существуют в Рукописный текст. “Сегментация рукописного текста на хинди” этот опрос также проведен Нарешем Кумаром Гаргом, Лахвиндером Кауром и М.К. Джиндалом, которые также работают над сегментацией рукописного текста на хинди. В данной статье представлена новая методика сегментации, основанная на структурном подходе. ”Методы сегментации отдельных рукописных слов в письменности Гурумукхи” В этой статье, Бансал и Дхарамвир Шарма работал над сегментацией изолированных слов в письменности Гурумукхи. Основной целью этой статьи было обсуждение комплексного решения для этапа сегментации символов в сценарии Гурумукхи.

”Сегментация печатного текста в шрифтах Деванагри и Гурумукхи” Опрос проведен Виджаем Кумаром и Панкаджем К. Сенгар на печатном тексте шрифтом деванагри и Гурумукхи. В этой статье рассматривается сегментация строк, слов, символов и верхних символов для печатного текста на хинди в сценарии Деванагари, а также описывается сегментация строк и слов для печатного текста в сценарии Гурумукхи. В этой статье предложен единый алгоритм для сегментации Сценарий Девнагари и сценарий Гурмукхи. Производительность составляет 100% на уровне строки, примерно 100% на уровне слова, 99% на уровне символа и 97% на уровне верхнего символа. “Исследование различных видов деградации в печатном шрифте Гурумукхи” М.К. Джиндал, Р.К. Шарма и Г.С. Лехал изучили различные виды деградации в печатном тексте и предложили решение некоторых из них.

Проблемы сегментации символов

В рукописном тексте соседние символы соприкасаются друг с другом, и разделение таких символов является серьезной задачей. Прикосновение к символам снижает эффективность распознавания символа. Если между символами нет пробелов , то они обрабатываются как один символ.

Наложение символов - еще одна серьезная проблема, которая возникает при сегментации. Символы могут перекрываться во всех трех регионах – Символы средней зоны с другими символами средней зоны. Символы средней зоны перекрываются с символами нижней зоны. Символы средней зоны перекрываются с символами верхней зоны.

Неработающие символы или отсутствующие символы также являются одной из проблем, которые можно увидеть в рукописном тексте гурмукхи. Разбитые символы приводят к чрезмерной сегментации. Сломанные символы в основном встречаются в средней зоне. Крактеры могут быть разбиты по горизонтали или вертикали.

Символы могут быть перекошены вправо или влево из-за различий в стилях написания разных авторов Основная проблема перекошенных символов связана с их неровной линией заголовка, что создает проблему при сегментации по вертикальной проекции профиля.

Выводы

Из этой статьи мы делаем вывод, что работа выполняется над слитными символами, пропущенными символами, но нет никакой работы над перекрывающимися символами. Таким образом, предстоит проделать большую работу по сегментации символов.

Литература

  1. Parika Mangla,Harleen Kaur”An end detection algorithm of segmentation of broken and touching characters in Handwritten Gurumukhi word” in IEEE,2014.
  2. Shuchi Kapoor and Vivek Verma “Fragmentation of Handwritten Touching Characters in Devnagari Script”in IJITMC,2014 .
  3. Ajay Garg and Simpel Jindal “To Extract Feature of Handwritten Devnagari Script”in IJ of Advanced Research in Computer and Communication,2014.
  4. Namisha Modi and Khushneet Jindal ”Text Line Detection and Segmentation in Handwritten Gurumukhi Scripts”in IJ of Advanced Research in Computer Science and Software Engeenring, 2013.
  5. Saiprakash palakollu, Renu Dhir and Rajneesh Rani “Handwritten Hindi Text Segmentation Techniques for Line and Characters” in WCECS 2012.
  6. Naresh Kumar Garg, Lakhwinder Kaur and M.K. Jindal ”The Hazards in segmentation of Handwritten Hindi Text” in International Journal of Computer Applications,2011
  7. Naresh Kumar Garg, Lakhwinder Kaur and M.K. Jindal “Segmentation of Handwritten Hindi Text” in International Journal of Computer Applications,2010
  8. Galaxy bansal, Dharamveer Sharma ”Isolated Handwritten Words Segmentation Techniques in Gurumukhi Script”in IJ of computer applications,2010
  9. Vijay kumar and Pankaj K. Senagar ”Segmentation of Printed Text in Devanagri Script and Gurumukhi Script” in IJCA 2010.
  10. M.K. Jindal, R.K. Sharma and G.S. Lehal “A Study of Different kinds of Degradation in printed Gurumukhi Script” in IEEE, 2007.