Программа предназначена для сравнения текстов или статей методом шинглов (Shingles). Есть мнение, что на основе этого метода или более грубого (супершинглы) поисковики оценивают уникальность контента. Программа бесплатная, без ограничений. 

По сравнению с известным аналогом у программы есть важные преимущества:

  • Эмуляция лемматизации (нормализации) текста. По специальному алгоритму отбрасываются окончания слов, чтобы отсечь изменения слов при склонении, спряжении и т.п. Качество определения схожести увеличивается до десятков процентов (обычно точнее на 5-15%). За счет грубости метода могут быть некоторые неточности, но только в сторону повышения строгости проверки.
  • Отбрасывание стоп-слов. Метод снижает нагрузку при расчете сравнения, отбрасывая распространенные союзы, предлоги. Позволяет обойти некоторые простейшие синонимичные изменения. При небольшом объеме текста — процент совпадений снижается, т.к. отбрасывается зачастую схожая часть текста. Опционально, т.к. не совсем ясно, в плюс оно ли нет.

Скачать

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *