Автор: Пользователь скрыл имя, 13 Ноября 2011 в 07:44, реферат
Однако, если рассматривать сканер как средство «оцифровки» документов, все эти параметры не играют столь уж большой роли: даже при помощи самого «слабого» (т.е. дешевого) сканера можно изготовить практически такие же по качеству электронные копии документа, как и на более мощном (а значит и дорогом) – единственным отличием будет только время, затраченное на подготовку документа.
Какой
бы формат мы не выбирали в качестве
предпочтительного при
Так
как сканируемые документы
Автоподатчик страниц у сканера существенно облегчает сканирование документа, ведь при его наличии сканер может сам сканировать нужное количество страниц– нужно просто в него вставить пачку страниц, требующих сканирования, и сказать программе сканирования сканировать страницы с автоподатчика, и дальше сканирование будет происходить без участия человека.
Однако сканеры с автоподатчиками страниц гораздо более дорогие, чем обычные сканеры, и вследствие этого менее распространены. Однако и на обычном сканере без автоподатчика можно производить пакетное сканирование страниц документа – лишь бы используемое программное обеспечение позволяла выполнять сканирование такого типа (роль ADF-устройства в этом случае придется играть сканировщику).
Кроме таких особенностей, как наличие или отсутствие автоподатчика, у сканеров различают следующие основные характеристики:
Однако, если рассматривать сканер как средство «оцифровки» документов, все эти параметры не играют столь уж большой роли: даже при помощи самого «слабого» (т.е. дешевого) сканера можно изготовить практически такие же по качеству электронные копии документа, как и на более мощном (а значит и дорогом) – единственным отличием будет только время, затраченное на подготовку документа.
Итак, как уже отмечалось, неважно какой сканер у нас имеется – главное чтобы он был, так как основная тяжесть работы ляжет на плечи программы сканирования. По этому желательно, чтобы программа сканирования умела:
В качестве такой программы рассмотрим программу сканирования и распознавания текста FineReader компании ABBYY Software (демо-версию программы можно взять с сайта компании: http://www.abbyy.ru), которая является одной из лидирующих на рынке программных продуктов для сканирования и распознавания документов.
Рассмотрим основные шаги при сканировании и распознавании документа.
Перед
сканированием нового документа
для него рекомендуется создать
так называемый «пакет», в котором
будут храниться как
Теперь необходимо настроить параметры сканирования изображений. Для этого необходимо выполнить команду меню [Сервис→Опции…] и в появившемся окне выбрать закладку [Сканирование/открытие]:
Если в поле [TWAIN-драйвер сканера] еще не указан сканер, с которым будет работать программа, то его нужно указать при помощи кнопки [Выбрать драйвер]. После этого нужно указать [Использовать интерфейс FineReader], чтобы была возможность включения режима пакетного сканирования.
В секции [Обработка изображений] доступны следующие опции сканирования:
Следующую опцию стоит указывать если предполагается не только сканирование страниц, но и распознавание текста (например, если наша цель подготовить электронный документ не в формате DjVU, а, например, в RTF или PDF)
Теперь нужно настроить сам сканер, для этого нужно нажать на кнопку [Настройки сканера] в секции [Сканер] текущего окна, и в появившемся диалоговом окне указать следующие параметры:
Таким образом, мы произвели настройку параметров сканирования и можно приступать непосредственно к сканированию документа.
Для
начала необходимо проверить, насколько
соответствуют наши настройки сканирования
документу, который мы собираемся сканировать.
Для этого можно сделать
и спустя
некоторое время в нашем пакете
появится со сканера изображение
страницы документа. Произведя оценку
качества изображения и если оно
удовлетворяет нашим
После
того, как документ будет полностью
отсканирован, мы получим набор изображений
страниц документа в формате TIF,
из которых можно после некоторой
предварительной обработки
Если мы решили создавать электронный документ в формате, подразумевающем хранение текста как набора букв и цифр (т.е. не в формате DjVU), то после сканирования необходимо произвести распознавание текста, хранящегося в изображениях документа.
Настройку параметров распознавания текста можно произвести при помощи команды меню [Сервис→Опции…] (закладка [Распознавание]):
где указать основные характеристики распознаваемого текста.
Запуска
процесса распознавания можно
после чего программа проанализирует изображения пакета, разметит в каждом изображении блоки различных типов (текст, таблица, изображение) и произведет распознавание документа в соответствии с размеченными блоками.
Рабочая область FineReader приобретет следующий вид:
На рисунке видно, какие блоки на странице разметил FineReader (верхняя левая и нижняя часть рабочей области программы) и как он эти блоки распознал (правая верхняя часть рабочей области программы).
Если мы не согласны с расстановкой, типами или порядком следования блоков на странице, мы можем отредактировать их, задать другой тип или порядковый номер (при помощи контекстного меню, выпадающем при правом щелчке мыши на блоке):
после чего необходимо произвести распознавание повторно.
При всем качестве распознавания, FineReader не дает 100% точного распознавания документа (участки, в точности распознавания которых программа не уверена, выделяются цветом в окне, где показывается результат распознавания – см. рис. выше). Поэтому после сканирования и распознавания документа необходимо производить проверку документа. Проверку и исправление ошибок распознавания можно производить как непосредственно в FineReader-е перед сохранением электронного документа, так и после его сохранения в редакторе, соответствующем формату хранения электронного документа (например, при помощи Word для форматов RTF и DOC).
В FineReader-е
«работа над ошибками»
после чего в интерактивном режиме обработать неуверенно распознанные участки документа:
После того, как мы исправили ошибки распознавания в документе необходимо его сохранить.
Для этого сначала нужно определить при помощи команды меню [Сервис→Опции…] (закладка [Форматирование]) как мы желаем сохранить текст – либо сохранить полное оформление документа, либо сохранить только начертание и размер шрифта, либо не сохранять оформление документа, а так же сохранять или нет картинки:
После того, как мы определились с этими параметрами, можно либо сохранить документ (или его часть) в файле нужного формата при помощи команды меню [Файл→сохранить текст как]: