Всем громкий ЧИРИК🐣
В этот раз проведем экспресс-анализ access логов сайта https://prognozist.ru/
Это первый подобный пост из новой рубрики на канале, которую планирую освежать пока раз в 2 недели. Если коротко, то вы можете предложить свой сайт для бесплатного экспресс-анализа логов (условия опубликую позже тут и на канале.
ПАААЕХАЛИ
Проект: https://prognozist.ru/ (тематика: Betting)
Период: 2021.09.01 - 2021.11.15
Размер лог файла: 1.6GB в архиве, 15.5GB в разархивированном состоянии
- Здравствуйте, что болит?
- Нужно узнать как роботы Google и Yandex ходит по сайту, в частности, страницам юзеров и пагинации. Плюс посмотреть, кто активно парсит/краулит сайт. Нужен свежий взгляд под другим углом, а также может найдутся какие-то проблемы в процессе.
Приступим! Уточню, дальнейший анализ основан на данных по запросам Googlebot и YandexBot к сайту, которых всрато провалидировал моим тулом.
Распределение по HTTP коду
Рекомендация: Видим довольно большую долю запросов с 301 кодом. Следует обратить внимание на страницы (предоставил CSV обладателю логов).
Фейковые боты
Невалидных ботов в выборке мало. В основном это боты сервисов.
Ботом поисковика часто представляются сеошники, когда краулят сайт, или разные сервисы. Также тут писал ранее, как Цукер тоже грешит этим делом, представляясь Googlebot.
Как проверяю фейк бота я и как нужно это делать?
Делаю обратный запрос к IP адресу, если в запросе у User-Agent был Googlebot или YandexBot и получаю Hostname, привязанный к IP.
Как правильно делать?
Оба поисковика для валидации рекомендуют проверять в обе стороны. Т.е. сначала получаем Hostname, а после еще к Hostname полученному шлем запрос и получаем IP. Плюс тот же Google недавно опубликовал диапазоны IP адресов, с которых краулит сайты.
Рекомендация: обратить внимание на пиковые значениями Yandex (оранжевый график) и сопоставить с изменениями на сайте.
Выводы: бот Яндекса, судя по графику, не умеет в 304 код.
На графике видим странный всплеск 206 кода для YandexBot.
А вот это уже интересно, т.к. YandexBot сделал запрос к 2 файлам, внимание, >259 тыс. раз за период. Один из которых был обычным MP3 длительностью 2 сек со звуком входящего сообщения в чате.
Рекомендация: Закрыть бесполезные для YandexBot файлы либо как минимум убрать ссылки на них в коде.
Краулинг ботами разделов сайта
Классифицируем функцией класса PageClassifier URL в датасете для дальнейшего анализа краулинга по разделам.
Contains - вхождение в URL, match - строгое соответствие.
На диаграммах ниже изображено распределение запросов от валидных ботов по разделам:
Выводы: На диаграммах видим, что бот Яндекс активнее Google краулит раздел user и совсем слабо betting_school.
Ниже изображен краулинг по разделам в динамике по датам:
А что с пагинацией?
Выводы: Видно, что бот Яндекс пагинацию раздела forecast. Запросов бота Яндекс к страницам пагинации разделов forecast и user довольно большое в абсолютных цифрах.
Что с этими данными теперь делать?(с)
Маленькое отступление: Я не учу SEO и не позиционирую себя как эксперта в данном вопросе. Считаю себя таким же всратым SEO-специалистом, как и кодером, поэтому в рамках данной рубрики я не буду давать указаний, что делать с пагинацией или как закрыть от бота корректнее, а лишь могу порекомендовать обратить внимание на какой-то момент.
Скорее всего у проекта уже есть приоритезация по URL/разделам/семантике. Накладываем полученные срезы на свою стратегию и смотрим, где не сходится. И помним, что краулинг и ранжирование - не одно и то же, но корреляция между ними тоже есть. Примеры в стиле "Спасибо, КЭП":
- в новостях нужен свежий индекс, а в обзорах компаний особо ничего не меняется;
- user страницы, предположительно, не такие трафикообразующие, как те же событийные страницы, обзоры, развернутая аналитика с прогнозом.
Медиа Яндексу не упали вообще, тем более эти файлы.
Необходимо проверить URL с 301 кодом и выяснить, как их обнаружили боты. Иногда ссылки на сайте нет, а бот стучится, т.к. у него записан старый URL или есть где-то ссылка со старым URL на другом сайте. Ну или это может быть проблема "внутряка". Некоторые западные эксперты утверждают, что через редиректы утекает некий link equity. Не проверял, поэтому не могу достоверно подтвердить или опровергнуть.
Больше материалов и выводов отправил в личку тому, кто предоставил логи. Антон, спасибо, что разрешил опубликовать URL и практически все полученные графики🤙
С вами был drkwng, главный утенок по штукам на коленке в штате Северная Дакота по версии кота одного из сенаторов.