Сканирование и распознавание текстовой информации

Автор: Пользователь скрыл имя, 28 Марта 2013 в 13:29, контрольная работа

Описание работы

Oдним из основных способов ввода информации в вычислительные системы является сканирование. Именно сканер стал тем устройством, с помощью которого в компьютер попадает огромное количество информации. Например, в цветной полиграфии изображения, полученные сканированием, имеют долю, близкую к 95% по отношению к объему всей информации, заключенной в публикации. Тенденции ввода и обработки информации в полиграфии во многом будут прослеживаться и в офисных технологиях. Это связано, прежде всего, с внедрением в информационные технологии качественных цветных изображений.

Скачать полностью (15.50 Кб) Сколько стоит заказать работу?

Работа содержит 1 файл

Документ Microsoft Word - копия.docx

— 18.08 Кб (Скачать)

Сканирование

На сегодняшний день изобретено много способов ввода информации в компьютер. Это традиционный набор текста с клавиатуры, стремительно развивающийся голосовой ввод текста и команд управления компьютером, разнообразные аналоговые датчики и аналого-цифровые преобразователи для передачи информации в инженерных приложениях и т. д.

С помощью современной аппаратуры сканирования с высоким разрешением (а именно к такому классу относятся многофункциональные устройства Xerox) из исходного документа довольно просто формируется графический файл специального формата. Такой файл после соответствующей обработки может быть преобразован в любой из форматов, которые применяются в информационных технологиях. Это форматы представления текстов и графических видов информации – фотографий, слайдов, рисунков и т.п.

И вот здесь сканирование, как единый сквозной процесс, распадается на две независимых ветви. По одному направлению идёт ввод в вычислительные системы текстовых массивов информации, по другому – графических.

Задача сканирования текстов, при необходимом качественном разрешении, на 90% состоит в распознавании. А для этого разработано математическое обеспечение, которое позволяет эффективно построить технологию получения качественных электронных документов.

Существенно: более трудоёмкой является задача сканирования цветных изображений. Она обычно заключается в наиболее полном считывании информации с оригинала, т. е. его тонового и цветового диапазона, а также разрешения. При этом желательно по необходимости скорректировать недостатки оригинала с точки зрения последующего использования изображения. Например, компенсировать нежелательный цветовой сдвиг, тоновый дисбаланс или подавить полиграфический растр оригинала.

Обе этих ветки сканирования интенсивно используются в специализированных информационных технологиях. По сканированию текста наиболее полно наработан опыт в создании электронных библиотек Интернета. По второму направлению – цветной графики, давно работают в области полиграфии.

При использовании технологий сканирования в современном офисе, для органичного встраивания ввода и обработки документов сканированием в информационные системы можно использовать опыт применения сканирования в двух указанных выше областях. Это тем более возможно, что применение полного набора приёмов со всеми техническими тонкостями, как правило, в офисных технологиях не требуется. А овладеть базовым набором приёмов сканирования не более сложно, чем обучиться десятипальцевому слепому методу набора текстов на клавиатуре компьютера. Да, это потребует усилий и даже значительных, но они стоят того! Точно так же, как все сотрудники офиса фирмы должны уметь работать на клавиатуре вслепую, они должны уметь вводить в вычислительную систему информацию с помощью сканирования.

А вот сделать это с помощью МФУ Xerox и специально разработанного для этих аппаратов математического обеспечения удобно и просто.

Сканирование и распознавание текстовой информации

При вводе в компьютер текстовой информации с помощью сканера пользователь неизбежно встречается с целым рядом трудностей и проблем. Условно эти трудности можно разделить на две группы.

Первая группа связана с качеством исходной информации и ошибками в получаемых документах, которые инициируются некачественным состоянием сканируемых материалов. Это обусловлено разнообразием типов документов, множеством шрифтов, наличием графики в документах (фотографии, картинки, таблицы и т.д.). Все эти особенности порождают ошибки при сканировании. Организовать технологическую цепочку получения адекватного образа исходного документа – процесс творческий. И качество работы зависит от наличия опыта.

Вторая группа трудностей связана с оборудованием, на котором ведется ввод информации – сканирование, и с программным обеспечением преобразования полученных первичных графических файлов в текстовые форматы, а также их корректировку. В настоящее время для решения этих задач многие фирмы производят соответствующее оборудование и разрабатывают математическое обеспечение. Однако именно в наличии большого количества возможностей и способов организовать технологический процесс сканирования и кроется главная опасность. Выбор определённого устройства и программ позволяет удовлетворительно и без перенастроек работать только со сравнительно небольшим диапазоном типов документов.

Ориентируясь на многофункциональные устройства Xerox, мы можем исходить из заложенной уже на этапе разработки данных аппаратов унификации, которая позволяет, используя специально разработанное для данных аппаратов программное обеспечение, легко строить технологию создания из исходных материалов разного качества электронных документов высокой надёжности. При этом МФУ позволяют после обработки немедленно получить аналог (копию, отпечаток) исходного документа, значительно более высокого качества.

Информация о работе Сканирование и распознавание текстовой информации