Что такое шингл?

Шингл - это часть текста определенной длины, которая состоит из последовательно расположенных слов. Длина шингла - количество этих последовательно расположенных слов. Данный термин был введен сотрудником Yahoo! - Андреем Бродером в 1997 году.

Что такое ШинглШингл - это часть текста определенной длины, которая состоит из последовательно расположенных слов. Длина шингла - количество этих последовательно расположенных слов. Данный термин был введен сотрудником Yahoo! - Андреем Бродером в 1997 году. Задачей метода шинглов является определение уникальности текста.

Обработка текста

Перед тем как составить шингл и перейти к проверке уникальности, выбранный текст обрабатывается посредствам методики канонизации. Канонизация – приведение текста к единому виду путем удаления из текста знаков препинания и несущественных слов (междометия, союзы, предлоги и т.д.). В качестве примера можно привести следующую фразу:

"Сниппет представляет из себя блок с краткой информацией о сайте, который показывается на странице выдачи. "

После обработки данной фразы методом канонизации получится следующее:

"Сниппет представляет себя блок краткой информацией сайте который показывается странице выдачи"

Процесс составления шинглов

После обработки текста начинается процесс составления шинглов. Перед этим важно задать их длину. Точность анализа уникальности текста напрямую зависит от выбранного размера шингла. Чем он больше, тем выше вероятность возникновения ошибок и неточностей в оценке уникальности. И, соответственно, чем длина шингла меньше, тем выше точность анализа. Его размер может быть равен от 2 до 10 слов. Для проверки уникальности текста лучше всего использовать длину, равную четырем словам. При их составлении применяется правило, согласно которому второе слово последнего шингла является первым словом нового, то есть формирование шинглов происходит внахлест. Именно это правило позволяет точно проверять уникальность, анализируя различные варианты сочетания частей текста. Рассмотрим пример:

"наглядный пример составления длиной четыре слова"

Разбив данный текст на шинглы, мы получим следующий результат:

  1. наглядный пример составления длиной;
  2. пример составления длиной четыре;
  3. составления длиной четыре слова.

Алгоритм шинглов

После того как текст был приведен в нужный вид и разбит на шинглы, происходит сравнивание шинглов двух разных документов между собой с помощью специального алгоритма. Поисковые системы, использующие шингловой метод проверки уникальности контента, без труда находят похожие документы, сравнивания число совпадений их шинглов. Для того чтобы сделать текст отличным от оригинала, необходимо заменять слова синонимами, разбавлять их фразами, работать над структурой текста и т.д.

Похожие вопросы

12.05.2016

Вебвизор – инструмент Яндекс. Метрики, который позволяет анализировать поведение посетителя на сайте в видеорежиме. С его помощью можно узнать, что делает пользователь на каждой странице, как передвигаются по сайту, на какие ссылки кликают и куда передвигают курсор мышки.

02.11.2015

АГС – это фильтр Яндекса, который анализирует сайты и оценивает их полезность для пользователей. Сайты, созданные только для продажи ссылок, содержащие дубли страниц, неуникальный контент, неинформативные страницы и т.д. попадают под действие этого фильтра.