Сегодня компания Cognitive Technologies представила журналистам технологию автоматического анализа текстов - Cognitive Text Analyzer. Технология, по заверениям создателей, облегчит процедуру понимания и сравнения текстов, а при необходимости позволит определить их авторство.
Технология Text Analyzer обрабатывает загруженные в программу тексты (на русском или английском языках), проводя синтаксический, семантический и структурный разбор, выявляет порядка сотни характеристик, им присущих. При этом технология во-первых учитывает характерные для текста грамматические категории, во-вторых - выделяет свойственные тексту структурные связи, зависимость одних конструкций в предложении от других, и так далее. Такой метод анализа позволяет определять авторство текста даже в том случае, если заменить в нем определенные слова другими, а заодно поменять местами абзацы и предложения.
На конференции, посвященной релизу Cognitive Text Analyzer, возможность распознавать текст-"близнец", отличающийся от оригинала на несколько слов, была продемонстрирована на примере басни Крылова "Ворона и лисица": слова "ворона", "лисица" и "сыр" были заменены на другие, при этом система распознала текст как чрезвычайно похожий на исходник (показатель отличий близился к нулю).
Интереснее повела себя система при сравнении печально известной девятнадцатой главы романа Дарьи Донцовой "Жаба в кошельке" и рассказа известного блоггера и редактора журнала "Maxim" Игоря Черс-кого. Напомним, последний обвинил писательницу детективов всея Руси в плагиате: якобы текст Донцовой почти один в один копирует его рассказ, опубликованный несколько лет назад в Интернете. Согласился с Черс-ким и бездушный механизм: выяснилось, что отрывок из детектива и рассказ Черс-кого почти полностью совпадают.
Интересно, что для сравнения использовались ещё несколько произведений блоггера и несколько книг писательницы. Выяснилось, что все остальные творения Черс-кого гораздо больше похожи на злосчастную главу, чем другие книги писательницы. Книги Донцовой при этом тоже сильно отличаются друг от друга (в несколько раз сильнее, чем басня Крылова от её переделанной версии). Услышать комментарий мастерицы детективов по этому поводу не удалось. "Мы звонили Донцовой, хотели пригласить, но она не берет трубку" - жаловался своему собеседнику вице-президент по маркентингу и общественным коммуникациям компании Cognitive Technologies Николай Никольский по окончании пресс-конференции.
По словам создателей, система Text Analyzer является гораздо более продвинутой в деле распознавания текстов, чем известный всем проект "Антиплагиат". Правда, и назначение у неё несколько иное: проверка текстов на нарушение авторского права является лишь одной из функций. Разработчики считают, что Text Analyzer будет широко применяться в криминалистике, работе историков и так далее.
Стоит отметить, что удобного для простых пользователей визуального интерфейса у программы пока нет. Например, она не выдаст по результатам анализа текста сообщение, что "текст является плагиатом", а просто предоставит сведения о близости двух текстов между собой. Делать выводы из предоставленных данных так или иначе придется самому пользователю. Впрочем, о коммерческой реализации, как сообщили представители Cognitive Technologies, говорить пока тоже рано. Text Analyzer в настоящий момент реализуется в ряде крупных проектов наряду с другими разработками компании.
Отправить комментарий