Адрес для входа в РФ: exler.world

Как много нам открытий чудных...

02.05.2006 14:26  7610   Комментарии (5)
Вы знаете, что в MS Office есть распознавалка, причем вполне неплохая? Я не знал. Спасибо ne0d1n, который просветил.

Программа называется Microsoft Office Document Imaging и находится в папке "Средства Microsoft Office". (Если компонент не установлен, то Office при первом запуске программы попросит дистрибутивный диск, чтобы его установить.)

Я потестировал - вполне понравилось.



Сканирует быстро и просто, не задавая лишних вопросов. Поддерживает режим сканирования многостраничных документов (опционально). Сам процесс сканирования достаточно наглядный.



Распознается текст очень быстро, так что после сканирования остается только выбрать пункт меню "Отправить текст в Microsoft Word", задав опционально возможность сохранения картинок. Смешанный (русский с английским) текст определяет вполне достойно.

Что классно, при распознавании текст сохраняется в достаточно простом формате (удобном для дальнейшей обработки), и программа старается сохранять только варианты начертания - например, полужирный и курсив. Картинки сохраняются в отдельной папке.

Вот, например, текст Word, полученный после сканирования простого листочка - текст.

Потестировал и на более сложной задаче - журнальный лист в несколько колонок с иллюстрацией: вот  отсканированный лист, вот распознанный документ.

Раньше для решения подобной задачи я пользовался Abbyy FineReader HomeEdition (он, в отличие от FineReader Pro, стоит вполне разумных, а не совершенно заоблачных денег). Но у этой версии есть серьезные недостатки, главный из которых - жесткое сохранение формата оригинального текста (и это в Home-версии не настраивается), в результате чего его потом обрабатывать в Word крайне сложно, потому что сначала нужна убирать все эти бесконечные таблицы, настройки абзацев, шрифтов и так далее. Ну и со сканированием (а точнее - с сохранением результатов распознавания) многостраничных документов там тоже большие проблемы - все это делается весьма неудобно

В данном же случае программа, с одной стороны, простенькая, но с другой - делает все что нужно, причем быстро и удобно.

"А пацаны-то и не знают" (с)
02.05.2006 14:26
Комментарии 5

В Офисе есть Документ Сканинг и Документ Имджинг (последний шире). Но при сканировании много ошибок, которые надо редактировать в Ворде. Файнридер и Омнипейдж (другие не пробовал) позволяют редакцию на уровне распознвания и дают возможные варианты замен. Да и качество распознавания много лучше.
06.10.06 20:20
0 0

Ага, я сам бы не узнал, если б не получил однажды документ с расширением .mdi . Оказалось, что это Microsoft Document Imaging, и для чтения нужно установить соответствующий компонент.
02.05.06 23:59
0 0

Понял, спасибо. Значит, мы не знали его много лет 😉
02.05.06 22:21
0 0

Небольшое замечание: Microsoft Office Document Imaging доступно, если я не ошибаюсь, с версии 2002 (т.е. Office XP). В 2000 его еще нет.
02.05.06 22:18
0 0

жесткое сохранение формата оригинального текста (и это в Home-версии не настраивается), в результате чего его потом обрабатывать в Word крайне сложно, потому что сначала нужна убирать все эти бесконечные таблицы, настройки абзацев, шрифтов и так далее.

Хм, а кто мешает сохранить из Ворда как "обычный текст" (.txt) ? При этом всё уберётся автоматом. А потом уже делать с текстом всё что нужно.
02.05.06 14:40
0 0
Теги
Сортировать по алфавиту или записям
BLM 21
Calella 143
exler.ru 272
авто 442
видео 3998
вино 359
еда 500
ЕС 60
игры 114
ИИ 29
кино 1581
попы 191
СМИ 2761
софт 930
США 132
шоу 6