Cuneiform — аналог FineReader для Linux

Несмотря на название это не совсем стабильная порт системы распознавания текста Cuneiform на платформы Linux. В новой версии проведена большая работа по исправлению ошибок и чистке исходных текстов, в ходе которой померло множество комментариев на русском языке. Работы по восстановлению комментариев ведутся параллельно.

Номер 1.0 обусловлен тем, что мейнтейнер основной ветки Cuneiform-linux Jussi Pakkanen решил, что логичным после версии 0.9 выпустить версию 1.0 ^_^

Кроме основной ветки есть и другие ветки разработки. Например, стоит отметить ветку активного рефакторинга кода Сергея Полтавского.

Код Cuneiform для Linux распространяется под упрощенной лицензией BSD и основан на коде открытом компанией Cognitive Technologies в 2007 году.

В последнее время в сообществе ведутся разговоры о слиянии веток разработки Cognitive Technologies и Cuneiform-linux, но официальных комментариев от Дмитрия Полевого у нас нет.

OCR CuneiForm может распознавать любые полиграфические, машинописные гарнитуры всех начертаний и шрифты, получаемые с принтеров за исключением декоративных и рукописных. В систему встроены специальные алгоритмы для распознавания текста с матричного принтера, плохих ксерокопий факсов и машинописи. Поддерживается более чем 20 языков. А вот с добавлением новых -- проблема, т.к. формат файлов dat остаётся пока загадкой.

Отдельно стоит отметить отличную поддержку распознавания текста на русском и украинском языках. Результат распознавания может быть сохранен в форматах HTML, hOCR, RTF или PDF с сохранением особенностей начертания оригинала (выделение жирным, курсивом и т.д.), но пока Cuneiform-linux умеет сохраняться только в HTML и plain text.

Главная тема: 
Дистрибутивы: 
Программное обеспечение: 
field_vote: 
Ваша оценка: Нет Средняя: 5 (1 оценка)

Комментарии

Укажите, пожалуйста, источник.

Источник -- я. Брал инфу тут: https://lists.launchpad.net/cuneiform/, тут http://openocr.org/ и из других источников.

Ух ты, как здорово получилось! Профессионально. Поэтому и решил, что перепечатка. :)

Спасибо. Ещё кое-что взял из старого русского readme.

Комментировать

Filtered HTML

  • Use [fn]...[/fn] (or <fn>...</fn>) to insert automatically numbered footnotes.
  • Доступны HTML теги: <a> <em> <strong> <cite> <code> <ul> <ol> <li> <dl> <dt> <dd> <blockquote> <strike> <code> <h2> <h3> <h4> <h5> <del> <img>
  • Адреса страниц и электронной почты автоматически преобразуются в ссылки.
  • Строки и параграфы переносятся автоматически.

Plain text

  • HTML-теги не обрабатываются и показываются как обычный текст
  • Адреса страниц и электронной почты автоматически преобразуются в ссылки.
  • Строки и параграфы переносятся автоматически.