Отправка URL Googlebot на индексацию/удаление

 Публичный пост
3 декабря 2021  977
ОХУЕННО
Отправка URL Googlebot на индексацию/удаление

Тул шлет запросы через Google Indexing API. Можно выбирать, индексировать или удалять боту URL. Все манипуляции происходят в консоли.

  1. Полная Python версия

  2. Обрезанная .exe версия 🕎 - без защит от "дураков", выбора режима работы и прочих ништяков (в архиве лежит readme.txt)

Максимальное число запросов в сутки - 200 URL. Это бесплатно, никаких банковских карт для включения конкретно этого API в консоли не требуется. 200 запросов - лимиты Google, я не виноват, но никто не мешает вам сделать несколько API аккаунтов😇

Что делать для запуска полной версии c GitHub❓

  1. Качаем мой мутный код с GitHub (ссылка еще раз (https://github.com/drkwng/google-indexing-api)).

  2. Выполняем все танцы по получению ключика API Google для отправки запросов, описанные в README на GitHub.

  3. Устанавливаем Python 3.8.x или старше на своего резвого коня. При установке обязательно нажимаем галочку возле "Add to PATH".

  4. Ставим библиотеку oauth2client. Для этого заходим в консоль/терминал (на Windows: Win + R > cmd) и пишем

pip install oauth2client.

  1. Кладем JSON ключ к API в папку с программой и называем его cred.json

  2. Даем сервисному аккаунту (что-то такое "xxxxx.xxx.iam.gserviceaccount.com") права !!!ВЛАДЕЛЬЦА!!! ресурсам, URL которых будете отправлять Googlebot'у, в Google Search Console.

Права владельца устанавливаются в разделе Настройки ресурса GCS, нажав на три точки возле текущего владельца.

  1. Создаем файл с URL, которые нужно скормить Googlebot. Называем его urls.txt

  2. Запускаем программу и общаемся уже с ней по понятиям.

А в справке Google написано... ко-ко-ко

Currently, the Indexing API can only be used to crawl pages with either JobPosting or BroadcastEvent embedded in a VideoObject. For websites with many short-lived pages like job postings or livestream videos, the Indexing API keeps content fresh in search results because it allows updates to be pushed individually. Источник

Т.к. в справке Google всегда правда (дирижабль, ага), я решил проверить, как себя ведет Googlebot, когда мы шлем ему запрос через Indexing API, который работает только с видео, вакансиями и т.д.

1️⃣ Как быстро бот заходит на страницу после отправки запроса через API?
2️⃣ Переходит ли бот по 301 редиректам и цепочкам редиректов при подобной отправке, а именно, междоменным редиректам?

Для этого я взял 10 разных доменов живых сайтов разного уровня, которые уже есть в индексе Google. На каждый сайт залил по 4 .html файла, отправил запросы Googlebot через тул и пошел в серверные логи за ответами.

Как быстро бот заходит на страницу после отправки запроса через API?
На 10 сайтах бот зашел на URL в течение 1 минуты после отправки запроса.

Следует ли бот по внутренним и междоменным редиректам к конечному URL?
На каждом домене на один из html можно было попасть только по редиректной ссылке с другого домена.
Основываясь на логах сервера, Googlebot не перешел ни по одному из междоменных редиректов, хотя заход на "редиректящий" URL был в 100% случаев.

Как далеко в цепочке редиректов зайдет Googlebot?
Дополнительно сгенерил на нескольких доменах цепочки редиректов по 100 шт через .htaccess

Googlebot дошел до 21 URL в цепочке, соответственно, бот может обработать цепочку из 20 редиректов.

Больше про эксперимент тут: https://t.me/drkwng/29 (там еще Yandex и Bing участвовали)

ЧаВо

Не работает, в консоли пишет, что прав нет у сервисного аккаунта, что делать?
Дать нужные права (не полные, а права ВЛАДЕЛЬЦА/OWNER) ресурсу в Google Search Console.

Это же касается и любой другой ошибки, которую вам выплюнет в консоль. 99.9%, что сделали что-то так или забыли установить библиотеку.

! Читаем внимательно пост и README на GitHub

Не могу найти, где в API консоли Google скачать JSON
Google как всегда сделал интуитивный и понятный интерфейс

Выбираете ваш созданный проект в Google Cloud Platform, слева в меню Service Accounts, во вкладке Keys (вверху) нажимаете Add Key -> Create New Key -> JSON.

Вот так
Вот так

С радостью приму критику/слова благодарности, отвечу на вопросы.
Всем КРЯ🐣

Аватар Drkwng Dck
Drkwng Dck @drkwng
Chief Executive DuckDrkwng Inc.
📍Одесса, Украина
Команда Клуба

<!-- Self Promo -->

Чирик🐣
Пишу сюда (иногда годноту по версии моей мамы):
https://t.me/drkwng

🤘Тулы для вебмастеров, аналитика, dummy text...

Мамкин муркетолог / Папкин дата ссаентист / Бабкин филантроп и миллиардер

<!-- ./Self Promo -->

36 комментариев 👇

Спасибо! Юзал раньше Google Indexing API, но софтинка попроще в хозяйстве и для помощников.

Отправил для теста пачку урлов, которые не никак Гугл не хотел обходил и большинство из них долго висели в статусе Просканировано, не проиндексировано или Обнаружено, не проиндексировано - к вечеру почти 10% зашли в индекс (

)

Аватар Drkwng Dck Drkwng Dck 17 декабря 2021 автор Команда Клуба

@shabananton, Еее🤘 Попробуй еще пару рингов в ближайшие 2 дня этих URL, мне помогало. Да, скан - не добавление в индекс, но это лучше и безопаснее, чем моргать ссылочным на левых сетках сайтов сомнительного качества

  Развернуть 1 комментарий

@drkwng, да, попробую, спасибо за совет. Тут большинство урлов по идее не должны зайти в индекс, качество не очень, но для теста норм)

  Развернуть 1 комментарий

@drkwng, результат на той же выборке спустя пару дней + еще 1 добавление на переобход тем же способом того, что не зашло до этого. Все норм работает)

  Развернуть 1 комментарий
Аватар Drkwng Dck Drkwng Dck 19 декабря 2021 автор Команда Клуба

@shabananton, Спасибо, что поделился результатами. Закрепил тред

  Развернуть 1 комментарий
Алексей Алексеич , СЕО Команда Клуба 3 декабря 2021

Десять тысяч лайков этому господину!

  Развернуть 1 комментарий
fuzzzylogic , Сайты под трафон. Много сайтов. Очень много. Сайтов. 8 декабря 2021

Предлагаю чуть раскрыть пункт номер 3 в ридми. "Даем права !!!ВЛАДЕЛЬЦА!!! на сервисный аккаунт из консоли доменам в Google Search Console, URL которых будете отправлять Googlebot'у"

Это нужно в GSC в настройках сайта устанавливать в разделе Настройки, нажав на три точки и добавив второго владельца для акка из cloud.google.com (xxxxx.xxx.iam.gserviceaccount.com)

  Развернуть 1 комментарий
Аватар Drkwng Dck Drkwng Dck 8 декабря 2021 автор Команда Клуба

@fuzzzylogic, Скорректировал, но уверен, что это не поможет. Ведь приблизительно это же есть в Readme + в консоли после запуска выводится предупреждение, что нужно дать права владельца на такой-то акк.

  Развернуть 1 комментарий

Лайк, однозначно..

  Развернуть 1 комментарий
fuzzzylogic , Сайты под трафон. Много сайтов. Очень много. Сайтов. 8 декабря 2021

Отличная штука, рекомендую!

  Развернуть 1 комментарий

Топовая тулза, есче.
Если на маке не работает установка через pip- юзайте pip3 (в этом случае у вас скорее всего установлен питон 3 версии)

  Развернуть 1 комментарий
Аватар Drkwng Dck Drkwng Dck 14 декабря 2021 автор Команда Клуба

@fialsagency, Да, обычно так бывает, когда установлено несколько версий python на машине.

Спасибо тебе, добрый человек🤜🤛

  Развернуть 1 комментарий
Сергей , Я пишу код и сеошу 4 декабря 2021

Инфа для многих новая, тул тоже многим пригодится. Вот только некоторые выводы не правильные.

"Основываясь на логах сервера, Googlebot не перешел ни по одному из междоменных редиректов, хотя заход на "редиректящий" URL был в 100% случаев"

Бот ходит по междоменному 301, только с задержкой, у меня вплоть до суток.
Еще если ваш гугл акк или ресурс в Google Search Console гавно, то бота можно и не дождаться вообще. И если сегодня бот к вам приходит достаточно бодро, то это не значит, что он от вас не начнет морозиться завтра.

  Развернуть 1 комментарий
Аватар Drkwng Dck Drkwng Dck 4 декабря 2021 автор Команда Клуба

@Vincent, нет, я подождал сутки. Эксперимент имеет отношение только что запросам, отправленным через indexing API. Мы всё понимаем, что бот ходит по междоменным в целом. Но у меня при запросах через API он ни разу не зашёл.

  Развернуть 1 комментарий

@drkwng, Я и говорю только про api. Просто ваша выборка не показательна. Api ходит по междомену 301.

  Развернуть 1 комментарий
Аватар Drkwng Dck Drkwng Dck 4 декабря 2021 автор Команда Клуба

@Vincent, ну ок, если так. Я не обнаружил. Проведу ещё раз может в будущем, чтобы проверить.

Может есть идеи, как сделать выборку более показательной. 10 доменов по 4 страницы - мало? Если проводили похожий эксперимент, поделитесь результатами, выборкой. Это будет мега полезно

  Развернуть 1 комментарий

@drkwng,

Может есть идеи, как сделать выборку более показательной.

Копайте в сторону качества сайтов, над которыми экспериментируете и гугл аккаунтов, я уже писал выше.

10 доменов по 4 страницы - мало?

Мало и 100 будет если они все примерно одинаковые. Снова же, разные сайты - разные результаты.

Если проводили похожий эксперимент, поделитесь результатами, выборкой.

Не готов я пока светить доменами своими )

  Развернуть 1 комментарий
Аватар Drkwng Dck Drkwng Dck 4 декабря 2021 автор Команда Клуба

@Vincent, ок, ладно. Никто не светил вроде тут доменами.

Мало и 100 будет если они все примерно одинаковые. Снова же, разные сайты - разные результаты.

Сайты разные были сильно. Разные регионы, ниши, услуги и екомм. С трафиком и позициями. Про 100+ - не в моих интересах проводить такие эксперименты, но может кому интересно будет копать в эту сторону.

Тул по сути примитивный, как и это экспериментальное API, и посещение ботом не гарантирует добавление в индекс совсем, как и переход по редиректу не делает склейку. Это просто переход. Что вижу в логах, то и пишу. А чего не вижу, того не пишу😋

  Развернуть 1 комментарий

Запустил нажав https://c2n.me/4edTgrx
в urls.txt - добавил урлы
cred.json - тут Api
файл csv - не создается и в консоли нет ничего https://c2n.me/4edThhA
что я не так делаю?

  Развернуть 1 комментарий
Аватар Drkwng Dck Drkwng Dck 4 декабря 2021 автор Команда Клуба

@renkid, Качни exe версию. Python ,программу нужно из консоли запустить. Для exe это не нужно.

Если же нужно использовать полную версию, то погугли, как запустить программу python. Плюс в посте есть инструкция по запуску.

  Развернуть 1 комментарий

@drkwng, все ровно что-то никак.

  Развернуть 1 комментарий

@drkwng, https://c2n.me/4edUiAq -запустилось. но logs.csv пустой.

  Развернуть 1 комментарий
Аватар Drkwng Dck Drkwng Dck 4 декабря 2021 автор Команда Клуба

@renkid, Либо в API консоли не включил Indexing API или сделал неправильный ключик. Читай readme.txt в архиве и сверяйся еще раз, 99% что-то пропустил

  Развернуть 1 комментарий

@drkwng, https://c2n.me/4edUrF3 - все включено ж да?) извини, что может вопросы прям глупые

  Развернуть 1 комментарий
Аватар Drkwng Dck Drkwng Dck 4 декабря 2021 автор Команда Клуба

@renkid, Это ключ просто. Я не вижу тип на скрине (если это Service Account, то ок). После включаешь в Library Indexing API (в readme.txt есть про это)

  Развернуть 1 комментарий

@drkwng, https://c2n.me/4eg7Kwu - тут в logs.csv пишет Permission denied. Failed to verify the URL ownership. PERMISSION_DENIED - как будто в гугл консоли нет сайта? а он там есть. или это какая-то другая ошибка?

  Развернуть 1 комментарий
Аватар Drkwng Dck Drkwng Dck 7 декабря 2021 автор Команда Клуба

@renkid, Нужно Owner права давать в вебмастерке на сервисный аккаунт, который создал в API консоли. Т.е. твой сервис акк называется в духе blablabla@ololol-696969.iam.gserviceaccount.com Вот этот акк нужно добавить как Owner в вебмастерке

  Развернуть 1 комментарий

@drkwng, а..все - понял - разобрался. Спасибо за терпение)

  Развернуть 1 комментарий

как использовать Google Indexing API без добавления домена а консоль вебмастера ?

  Развернуть 1 комментарий
Аватар Drkwng Dck Drkwng Dck 4 декабря 2021 автор Команда Клуба

@yurgon, Никак🐣

  Развернуть 1 комментарий
bi6liotekar , SEO специалист 8 декабря 2021

может тупой вопрос, но как дать права овнера, если в выпадашке предлагается только Full и Restricted?)

  Развернуть 1 комментарий
Аватар Drkwng Dck Drkwng Dck 8 декабря 2021 автор Команда Клуба

@bi6liotekar, Owner ресурса может дать права. Но перейти в менюшку управления делегированными владельцами можно в консоли только через задний проход

контекстное меню под владельцем в консоли
контекстное меню под владельцем в консоли

  Развернуть 1 комментарий

@drkwng, спасибо! всё четко отработало

  Развернуть 1 комментарий

😱 Комментарий удален его автором...

  Развернуть 1 комментарий
bi6liotekar , SEO специалист 8 декабря 2021

😱 Комментарий удален его автором...

  Развернуть 1 комментарий

Есть проблема у экзешника с антивирусом только(
https://www.virustotal.com/gui/file/694e23a3227a742857292aceb59fdf7cdbfe76174b09cef523aaac2906a1b21e - результат проверки. Не знаю, с чем это связано. Просто на всякий случай.

По работе софта: работает отлично, в прошлом месяце для Интернет-магазина 3000 URL добавили в индекс в интернет-магазине.

  Развернуть 1 комментарий
Аватар Drkwng Dck Drkwng Dck 13 января 2022 автор Команда Клуба

@shabananton, на exe антивирь всегда будет ругаться. Это самораспаковывающийся архив с пайтоном. Точно так же себя трояны ведут. Увы, это не победить малой кровью. Либо исключение в антивирь ставить на файл, либо установить пайтон по руководству и все пакеты. Есть еще вариант с докером, но на винде это будет еще та дичь, поэтому не предлагал даже.

  Развернуть 1 комментарий

@drkwng, понял, спасибо) Я-то в исключения поставил, вопросов нет.

  Развернуть 1 комментарий

😎

Автор поста открыл его для большого интернета, но комментирование и движухи доступны только участникам Клуба

Что вообще здесь происходит?


Войти  или  Вступить в Клуб