Cuneiform — аналог FineReader для Linux
Несмотря на название это не совсем стабильная порт системы распознавания текста Cuneiform на платформы Linux. В новой версии проведена большая работа по исправлению ошибок и чистке исходных текстов, в ходе которой померло множество комментариев на русском языке. Работы по восстановлению комментариев ведутся параллельно.
Номер 1.0 обусловлен тем, что мейнтейнер основной ветки Cuneiform-linux Jussi Pakkanen решил, что логичным после версии 0.9 выпустить версию 1.0 ^_^
Кроме основной ветки есть и другие ветки разработки. Например, стоит отметить ветку активного рефакторинга кода Сергея Полтавского.
Код Cuneiform для Linux распространяется под упрощенной лицензией BSD и основан на коде открытом компанией Cognitive Technologies в 2007 году.
В последнее время в сообществе ведутся разговоры о слиянии веток разработки Cognitive Technologies и Cuneiform-linux, но официальных комментариев от Дмитрия Полевого у нас нет.
OCR CuneiForm может распознавать любые полиграфические, машинописные гарнитуры всех начертаний и шрифты, получаемые с принтеров за исключением декоративных и рукописных. В систему встроены специальные алгоритмы для распознавания текста с матричного принтера, плохих ксерокопий факсов и машинописи. Поддерживается более чем 20 языков. А вот с добавлением новых -- проблема, т.к. формат файлов dat остаётся пока загадкой.
Отдельно стоит отметить отличную поддержку распознавания текста на русском и украинском языках. Результат распознавания может быть сохранен в форматах HTML, hOCR, RTF или PDF с сохранением особенностей начертания оригинала (выделение жирным, курсивом и т.д.), но пока Cuneiform-linux умеет сохраняться только в HTML и plain text.
Комментарии
pomodor
5 июля, 2010 - 12:41
Укажите, пожалуйста, источник.
Чингачгук
5 июля, 2010 - 12:51
Источник -- я. Брал инфу тут: https://lists.launchpad.net/cuneiform/, тут http://openocr.org/ и из других источников.
pomodor
5 июля, 2010 - 12:57
Ух ты, как здорово получилось! Профессионально. Поэтому и решил, что перепечатка. :)
Чингачгук
5 июля, 2010 - 13:15
Спасибо. Ещё кое-что взял из старого русского readme.
Комментировать