Анализ лог-файла веб-сервера для обнаружения seo-проблем

  • 12.07.2017 в 09:51

Иногда на сайтах возникают проблемы с поисковой оптимизацией, которые сложно или даже невозможно обнаружить с помощью популярных сервисов веб-аналитики вроде Google Analytics, Яндекс.Метрики, Рамблер/Топ-100 или Спутник/Аналитики. Когда это происходит, опытные оптимизаторы часто полагаются на методы старой школы. Например, начинают изучать лог-файлы веб-серверов.

Что такое лог-файл веб-сервера

Многие вебмастера и оптимизаторы полагают, что Google Analytics и подобные аналитические платформы фиксируют каждое посещение их сайтов. Однако платформы веб-аналитики не регистрируют большинство посещений роботов, в том числе и ботов поисковых систем. Другое дело лог-файлы веб-серверов. Там фиксируется каждое посещение сайта – людьми или роботами. Обычно в них содержится информация об IP-адресе посетителя, агенте пользователя, запрошенные страницы и страницы, откуда приходят посетители.

Основная проблема в данном случае заключается в том, что информация находится в необработанном виде, и вебмастеру / оптимизатору необходимо предпринять дополнительные шаги для анализа данных. Например, так выглядит информация из лога Apache.

66.249.64.34 - frank [05/Apr/2017:13:55:36 -0700] "GET /product-123 HTTP/1.1" 200 2326 "http://www.webstore.com/home.html" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"

Можно выделить ключевые элементы записи : IP-адрес посетителя, время посещения, посещенная страница, ссылающаяся страница, а также информация о посетителе (человек или бот).

3 примера использования лог-файлов веб-серверов в SEO
Ниже представлены три реальных кейса использования логов веб-серверов, чтобы добраться до корня SEO-проблем.

Боремся с дублями страниц на сайте интернет-магазина

Первый пример касается сайта крупного онлайн-ритейлера. В разделе Google Search Console > Сканирование> Файлы Sitemap отображалось сообщение о том, что в файле Sitemap XML данного ресурса прописано более 100 тыс. страниц. Но в индексе Google было менее 20 тыс. из них. Как это возможно?

Робот Google может сканировать множество страниц с повторяющимся контентом и пропускать часть таких страниц при индексировании. Определить, какие дублирующиеся страницы индексируются, а какие реальные – нет, бывает непросто. К сожалению, сервис Google Search Console не предоставляет список проиндексированных URL-адресов и не указывает, какие страницы из файлов Sitemap XML не индексируются.

Чтобы их получить соответствующие данные, были проанализированы лог-файлы веб-серверов за 3 месяца. Выяснилось, что за этот период Google просканировал менее 9 процентов страниц в XML-файле Sitemap (91,6% URL-адресов сайта из Sitemap не сканировались). После внимательного изучения страниц, которые не сканировались, обнаружилось, что большинство из них имеют точно такой же контент и шаблон. Единственным отличием было название продукта. Роботу Googlebot такое не нравится. В этом случае решением было создание уникального контента для каждой страницы, начиная со страниц самых продаваемых продуктов.

Находим отсутствующие параметры URL

Второй пример - большой сайт автомобильной тематики. После перехода на HTTPS его владельцы столкнулись с многочисленными задержками при повторном индексировании, которые ухудшали позиции сайта в поисковой выдаче. Этот случай был особенно сложным, поскольку было подозрение, что на сайте имеются серьезные "ловушки для ботов", которые заставляют поисковых роботов продолжать сканировать страницы в бесконечном цикле. Причиной зачастую является непродуманная навигация или структура сайта. Подобные проблемы следует оперативно решать, ведь бюджет сканирования (crawl budget) робота Googlebot не резиновый.

Для решения проблемы снова пришлось обработать данные из лог-файлов с нескольких веб-серверов. Это позволило найти страницы, которые сканируются необычно часто, что свидетельствует о наличии "ловушки для ботов". Затем проблемные страницы были классифицированы по типу. Разбивка страниц по типу позволила "сузить круг подозреваемых" до группы URL-адресов "Год-Марка-Модель-Категория". После анализа этих страниц обнаружился ряд новых параметров, информации по которым не было в разделе Google Search Console> Сканирование> параметры
URL.

Избавляемся от лишних статей информационного сайта, которые не видят программы для сканирования

Третий пример касается сайта популярного веб-издателя. Оптимизаторы знали, что на сайте есть дублирующиеся страницы. Но когда они запускали инструмент для скирдования ScreamingFrog, то не смогли найти такие страницы, потому что они не были перелинкованы между собой. Однако при поиске в Google в SERP можно было увидеть несколько таких страниц. Это подтверждало, что они были проиндексированы. Угадывать проблемные URL-адреса – не вариант. Пришлось использовать лог-файлы.

Были проанализированы данные из логов за один месяц. При анализе необходимо было получить ответ на вопрос: какие из просканированных Googlebot адресов URL не включены в XML-Sitemap? Были найдены несколько бесполезных страниц с дублирующимися заголовками и без уникального контента, от которых пришлось избавиться.

В данном случае важно отметить, что робот Google может находить и сканировать страницы, которые сторонние инструменты для сканирования вроде ScreamingFrog не замечают, по следующим причинам:

Google использует ссылки с любого веб-сайта, а не только внутренние ссылки сканируемого ресурса.
Популярные платформы для блогов вроде WordPress имеют встроенные системы оповещения поисковых систем о создании нового контента.
У Google длинная память: если страница была просканирована в прошлом, Google может повторно ее просканировать в будущем.

127 0 Menopiat
Комментарии: 0
avatar

Поиск

Категории

Новости сайта [13]
IT проекты [8]
ВКонтакте [45]
Instagram [3]
YouTube [3]
Одноклассники [6]
Facebook [2]
Twitter [4]
Mail ru [13]
Periscope [0]
Yandex [78]
Google [115]
Другие соц. сети [9]
Платежные системы [1]
СберБанк Онлайн, WebMoney, QIWI, PayPal, Яндекс Деньги, Apple Pay, Android Pay и другие.

Реклама