Оптическое распознавание символов (англ. optical character recognition, OCR) — механический или электронный перевод изображений рукописного, машинописного или печатного текста в текстовые данные,
использующихся для представления символов в компьютере (например, в текстовом редакторе).
Распознавание широко используется для конвертации книг и документов в электронный вид,
для автоматизации систем учёта в бизнесе или для публикации текста на веб-странице.
Оптическое распознавание текста позволяет редактировать текст, осуществлять поиск слов или фраз,
хранить его в более компактной форме, демонстрировать или распечатывать материал,
не теряя качества, анализировать информацию, а также применять к тексту электронный перевод,
форматирование или преобразование в речь.
Оптическое распознавание текста является исследуемой проблемой
в областях распознавания образов, искусственного интеллекта и компьютерного зрения.
Системы оптического распознавания текста требуют калибровки для работы с конкретным шрифтом;
в ранних версиях для программирования было необходимо изображение каждого символа,
программа одновременно могла работать только с одним шрифтом.
В настоящее время больше всего распространены так называемые «интеллектуальные» системы,
с высокой степенью точности распознающие большинство шрифтов.
Некоторые системы оптического распознавания текста способны восстанавливать исходное форматирование текста,
включая изображения, колонки и другие нетекстовые компоненты.
Программное обеспечение для оптического распознавания символов | |||
---|---|---|---|
Свободное |
|
||
Проприетарное |