OpenSource OCR программа!!!

апреля 04, 2008

Ну вот, наконец то, свершилось то, о чем так давно мечтали обладатели сканеров.

Появилась достойная альтернатива коммерческим системам распознавания текста.
Хочу отметить, что одной из таких систем является Tesseract, проект достаточно молодой но перспективный, поскольку развивается самим Google. Единственным недостатком, который пока, что не позволяет использовать систему русскоговорящим пользователям - отсутствие полноценного распознавания кириллических тестов, но я думаю в будущем эта самая поддержка должна появится.
Сайт проекта - Tesseract
И на добавок, по словам специалиста Google Люка Винсента, "Tesseract имеет ряд ограничений, в частности, она плохо определяет колонки и другие виды макетирования в документах, не принимает цветные или полутоновые изображения. Но на сегодняшний день, по его мнению, это лучшая OCR с открытым кодом."

Но теперь появилась еще одна система, достаточно старая и известная - это CuneiForm, буду чи ранее закрытой коммерческой системой, разработчики решили, открыть исходный код программы и предоставить его широкой общественности OpenSource. Исходники распространяются под BSD лицензией.
Видимо на такой шаг, самих разработчиков и компанию подтолкнула та ситуация которая сложилась на рынке программ данного класса, а именно отставание CuneiForm от своего ближайшего собрата ABBYY FineReader. И отставание не по качеству распознавания!!!, а именно по экономическому состоянию этой программы на рынке.
Откровенно говоря, в проведенных мною тестах CuneiForm 12 на порядок лучше распознает тексты чем FineReader 8.0.
В отличии от Tesseract, CuneiForm не имеет перечисленных выше ограничений.
Будем надеятся на дальнейшее развитие проекта и появлении кроссплатформенного продукта!!!
А пока что для пользователей Линукса и МакОС есть возможность запускать данную OCR (CuneiForm) под Wine последней версии т.е. 0.9.58. Удачи!
Одним словом - УРА!!!
1. Сайт проекта
2. Программа и исходники
3. Форум поддержки

Поиск по этому блогу

Drug Morning

OpenSource OCR программа!!!

Комментарии

Популярные сообщения из этого блога

Отсутствует исполняющее ядро для расширения имени файла vbs

Как в The Bat 4.x изменить кодировку шаблона письма.

Для этой книги недоступны проект VBA... - проблема решена!