Что такое шингл?

Шингл - это часть текста определенной длины, которая состоит из последовательно расположенных слов. Длина шингла - количество этих последовательно расположенных слов. Данный термин был введен сотрудником Yahoo! - Андреем Бродером в 1997 году.

Что такое ШинглШингл - это часть текста определенной длины, которая состоит из последовательно расположенных слов. Длина шингла - количество этих последовательно расположенных слов. Данный термин был введен сотрудником Yahoo! - Андреем Бродером в 1997 году. Задачей метода шинглов является определение уникальности текста.

Обработка текста

Перед тем как составить шингл и перейти к проверке уникальности, выбранный текст обрабатывается посредствам методики канонизации. Канонизация – приведение текста к единому виду путем удаления из текста знаков препинания и несущественных слов (междометия, союзы, предлоги и т.д.). В качестве примера можно привести следующую фразу:

"Сниппет представляет из себя блок с краткой информацией о сайте, который показывается на странице выдачи. "

После обработки данной фразы методом канонизации получится следующее:

"Сниппет представляет себя блок краткой информацией сайте который показывается странице выдачи"

Процесс составления шинглов

После обработки текста начинается процесс составления шинглов. Перед этим важно задать их длину. Точность анализа уникальности текста напрямую зависит от выбранного размера шингла. Чем он больше, тем выше вероятность возникновения ошибок и неточностей в оценке уникальности. И, соответственно, чем длина шингла меньше, тем выше точность анализа. Его размер может быть равен от 2 до 10 слов. Для проверки уникальности текста лучше всего использовать длину, равную четырем словам. При их составлении применяется правило, согласно которому второе слово последнего шингла является первым словом нового, то есть формирование шинглов происходит внахлест. Именно это правило позволяет точно проверять уникальность, анализируя различные варианты сочетания частей текста. Рассмотрим пример:

"наглядный пример составления длиной четыре слова"

Разбив данный текст на шинглы, мы получим следующий результат:

  1. наглядный пример составления длиной;
  2. пример составления длиной четыре;
  3. составления длиной четыре слова.

Алгоритм шинглов

После того как текст был приведен в нужный вид и разбит на шинглы, происходит сравнивание шинглов двух разных документов между собой с помощью специального алгоритма. Поисковые системы, использующие шингловой метод проверки уникальности контента, без труда находят похожие документы, сравнивания число совпадений их шинглов. Для того чтобы сделать текст отличным от оригинала, необходимо заменять слова синонимами, разбавлять их фразами, работать над структурой текста и т.д.

Похожие вопросы

15.06.2016

SERP - это сокращение от английского Search Engines Result Page, в переводе - страница с результатами поисковой выдачи. В выдаче могут быть представлены ссылки не только на страницы веб-ресурсов, но и на файлы формата .pdf, .doc и др.Некоторые поисковые системы, могут добавлять в SERP свои элементы.

19.11.2014

Структура заголовков очень важна с точки зрения раскрутки сайта в поисковой системе. Она помогает поисковым роботам разобраться со структурой документа и сформировать его иерархию. Правильные заголовки указывают на то, какие части содержания важны и каким образом они связаны между собой.