Анализ логов сайта Betting тематики

 Публичный пост
19 ноября 2021  340

Всем громкий ЧИРИК🐣

В этот раз проведем экспресс-анализ access логов сайта https://prognozist.ru/

Это первый подобный пост из новой рубрики на канале, которую планирую освежать пока раз в 2 недели. Если коротко, то вы можете предложить свой сайт для бесплатного экспресс-анализа логов (условия опубликую позже тут и на канале.

ПАААЕХАЛИ

Проект: https://prognozist.ru/ (тематика: Betting)
Период: 2021.09.01 - 2021.11.15
Размер лог файла: 1.6GB в архиве, 15.5GB в разархивированном состоянии
- Здравствуйте, что болит?
- Нужно узнать как роботы Google и Yandex ходит по сайту, в частности, страницам юзеров и пагинации. Плюс посмотреть, кто активно парсит/краулит сайт. Нужен свежий взгляд под другим углом, а также может найдутся какие-то проблемы в процессе.

Приступим! Уточню, дальнейший анализ основан на данных по запросам Googlebot и YandexBot к сайту, которых всрато провалидировал моим тулом.

Распределение по HTTP коду

Запросы валидных ботов по HTTP коду
Запросы валидных ботов по HTTP коду

Рекомендация: Видим довольно большую долю запросов с 301 кодом. Следует обратить внимание на страницы (предоставил CSV обладателю логов).

Фейковые боты

Невалидных ботов в выборке мало. В основном это боты сервисов.

Доля фейковых ботов
Доля фейковых ботов

Ботом поисковика часто представляются сеошники, когда краулят сайт, или разные сервисы. Также тут писал ранее, как Цукер тоже грешит этим делом, представляясь Googlebot.

Как проверяю фейк бота я и как нужно это делать?

Делаю обратный запрос к IP адресу, если в запросе у User-Agent был Googlebot или YandexBot и получаю Hostname, привязанный к IP.

Как правильно делать?
Оба поисковика для валидации рекомендуют проверять в обе стороны. Т.е. сначала получаем Hostname, а после еще к Hostname полученному шлем запрос и получаем IP. Плюс тот же Google недавно опубликовал диапазоны IP адресов, с которых краулит сайты.

Краулинг валидными ботами Google и Yandex
Краулинг валидными ботами Google и Yandex

Рекомендация: обратить внимание на пиковые значениями Yandex (оранжевый график) и сопоставить с изменениями на сайте.

Краулинг Googlebot с распределением по HTTP кодам ответа сервера
Краулинг Googlebot с распределением по HTTP кодам ответа сервера

Краулинг YandexBot с распределением по HTTP кодам ответа сервера
Краулинг YandexBot с распределением по HTTP кодам ответа сервера

Выводы: бот Яндекса, судя по графику, не умеет в 304 код.
На графике видим странный всплеск 206 кода для YandexBot.

А вот это уже интересно, т.к. YandexBot сделал запрос к 2 файлам, внимание, >259 тыс. раз за период. Один из которых был обычным MP3 длительностью 2 сек со звуком входящего сообщения в чате.

Рекомендация: Закрыть бесполезные для YandexBot файлы либо как минимум убрать ссылки на них в коде.

Краулинг ботами разделов сайта

Классифицируем функцией класса PageClassifier URL в датасете для дальнейшего анализа краулинга по разделам.
Contains - вхождение в URL, match - строгое соответствие.

На диаграммах ниже изображено распределение запросов от валидных ботов по разделам:

Краулинг по разделам сайта Googlebot
Краулинг по разделам сайта Googlebot

Краулинг по разделам сайта YandexBot
Краулинг по разделам сайта YandexBot

Выводы: На диаграммах видим, что бот Яндекс активнее Google краулит раздел user и совсем слабо betting_school.

Ниже изображен краулинг по разделам в динамике по датам:

Краулинг по разделам Googlebot в динамике по датам
Краулинг по разделам Googlebot в динамике по датам

Краулинг по разделам YandexBot в динамике по датам
Краулинг по разделам YandexBot в динамике по датам

А что с пагинацией?

Доля запросов к страницам пагинации Googlebot
Доля запросов к страницам пагинации Googlebot

Доля запросов к страницам пагинации Googlebot
Доля запросов к страницам пагинации Googlebot

Выводы: Видно, что бот Яндекс пагинацию раздела forecast. Запросов бота Яндекс к страницам пагинации разделов forecast и user довольно большое в абсолютных цифрах.

Запросы к страницам пагинации
Запросы к страницам пагинации

Что с этими данными теперь делать?(с)

Маленькое отступление: Я не учу SEO и не позиционирую себя как эксперта в данном вопросе. Считаю себя таким же всратым SEO-специалистом, как и кодером, поэтому в рамках данной рубрики я не буду давать указаний, что делать с пагинацией или как закрыть от бота корректнее, а лишь могу порекомендовать обратить внимание на какой-то момент.

  1. Скорее всего у проекта уже есть приоритезация по URL/разделам/семантике. Накладываем полученные срезы на свою стратегию и смотрим, где не сходится. И помним, что краулинг и ранжирование - не одно и то же, но корреляция между ними тоже есть. Примеры в стиле "Спасибо, КЭП":

    • в новостях нужен свежий индекс, а в обзорах компаний особо ничего не меняется;
    • user страницы, предположительно, не такие трафикообразующие, как те же событийные страницы, обзоры, развернутая аналитика с прогнозом.
  2. Медиа Яндексу не упали вообще, тем более эти файлы.

  3. Необходимо проверить URL с 301 кодом и выяснить, как их обнаружили боты. Иногда ссылки на сайте нет, а бот стучится, т.к. у него записан старый URL или есть где-то ссылка со старым URL на другом сайте. Ну или это может быть проблема "внутряка". Некоторые западные эксперты утверждают, что через редиректы утекает некий link equity. Не проверял, поэтому не могу достоверно подтвердить или опровергнуть.

Больше материалов и выводов отправил в личку тому, кто предоставил логи. Антон, спасибо, что разрешил опубликовать URL и практически все полученные графики🤙

С вами был drkwng, главный утенок по штукам на коленке в штате Северная Дакота по версии кота одного из сенаторов.

Аватар Drkwng Dck
Drkwng Dck @drkwng
Chief Executive DuckDrkwng Inc.
📍Одесса, Украина
Команда Клуба

<!-- Self Promo -->

Чирик🐣
Пишу сюда (иногда годноту по версии моей мамы):
https://t.me/drkwng

🤘Тулы для вебмастеров, аналитика, dummy text...

Мамкин муркетолог / Папкин дата ссаентист / Бабкин филантроп и миллиардер

<!-- ./Self Promo -->

Связанные посты
Откомментируйте первым 👇

😎

Автор поста открыл его для большого интернета, но комментирование и движухи доступны только участникам Клуба

Что вообще здесь происходит?


Войти  или  Вступить в Клуб