Тул шлет запросы через Google Indexing API. Можно выбирать, индексировать или удалять боту URL. Все манипуляции происходят в консоли.
Обрезанная .exe версия 🕎 - без защит от "дураков", выбора режима работы и прочих ништяков (в архиве лежит readme.txt)
Максимальное число запросов в сутки - 200 URL. Это бесплатно, никаких банковских карт для включения конкретно этого API в консоли не требуется. 200 запросов - лимиты Google, я не виноват, но никто не мешает вам сделать несколько API аккаунтов😇
Что делать для запуска полной версии c GitHub❓
Качаем мой мутный код с GitHub (ссылка еще раз (https://github.com/drkwng/google-indexing-api)).
Выполняем все танцы по получению ключика API Google для отправки запросов, описанные в README на GitHub.
Устанавливаем Python 3.8.x или старше на своего резвого коня. При установке обязательно нажимаем галочку возле "Add to PATH".
Ставим библиотеку oauth2client. Для этого заходим в консоль/терминал (на Windows: Win + R > cmd) и пишем
pip install oauth2client
.
Кладем JSON ключ к API в папку с программой и называем его
cred.json
Даем сервисному аккаунту (что-то такое "xxxxx.xxx.iam.gserviceaccount.com") права !!!ВЛАДЕЛЬЦА!!! ресурсам, URL которых будете отправлять Googlebot'у, в Google Search Console.
Права владельца устанавливаются в разделе Настройки ресурса GCS, нажав на три точки возле текущего владельца.
Создаем файл с URL, которые нужно скормить Googlebot. Называем его
urls.txt
Запускаем программу и общаемся уже с ней по понятиям.
А в справке Google написано... ко-ко-ко
Currently, the Indexing API can only be used to crawl pages with either JobPosting or BroadcastEvent embedded in a VideoObject. For websites with many short-lived pages like job postings or livestream videos, the Indexing API keeps content fresh in search results because it allows updates to be pushed individually. Источник
Т.к. в справке Google всегда правда (дирижабль, ага), я решил проверить, как себя ведет Googlebot, когда мы шлем ему запрос через Indexing API, который работает только с видео, вакансиями и т.д.
1️⃣ Как быстро бот заходит на страницу после отправки запроса через API?
2️⃣ Переходит ли бот по 301 редиректам и цепочкам редиректов при подобной отправке, а именно, междоменным редиректам?
Для этого я взял 10 разных доменов живых сайтов разного уровня, которые уже есть в индексе Google. На каждый сайт залил по 4 .html файла, отправил запросы Googlebot через тул и пошел в серверные логи за ответами.
Как быстро бот заходит на страницу после отправки запроса через API?
На 10 сайтах бот зашел на URL в течение 1 минуты после отправки запроса.
Следует ли бот по внутренним и междоменным редиректам к конечному URL?
На каждом домене на один из html можно было попасть только по редиректной ссылке с другого домена.
Основываясь на логах сервера, Googlebot не перешел ни по одному из междоменных редиректов, хотя заход на "редиректящий" URL был в 100% случаев.
Как далеко в цепочке редиректов зайдет Googlebot?
Дополнительно сгенерил на нескольких доменах цепочки редиректов по 100 шт через .htaccess
Googlebot дошел до 21 URL в цепочке, соответственно, бот может обработать цепочку из 20 редиректов.
Больше про эксперимент тут: https://t.me/drkwng/29 (там еще Yandex и Bing участвовали)
ЧаВо
Не работает, в консоли пишет, что прав нет у сервисного аккаунта, что делать?
Дать нужные права (не полные, а права ВЛАДЕЛЬЦА/OWNER) ресурсу в Google Search Console.
Это же касается и любой другой ошибки, которую вам выплюнет в консоль. 99.9%, что сделали что-то так или забыли установить библиотеку.
! Читаем внимательно пост и README на GitHub
Не могу найти, где в API консоли Google скачать JSON
Google как всегда сделал интуитивный и понятный интерфейс
Выбираете ваш созданный проект в Google Cloud Platform, слева в меню Service Accounts, во вкладке Keys (вверху) нажимаете Add Key -> Create New Key -> JSON.
С радостью приму критику/слова благодарности, отвечу на вопросы.
Всем КРЯ🐣
Спасибо! Юзал раньше Google Indexing API, но софтинка попроще в хозяйстве и для помощников.
Отправил для теста пачку урлов, которые не никак Гугл не хотел обходил и большинство из них долго висели в статусе Просканировано, не проиндексировано или Обнаружено, не проиндексировано - к вечеру почти 10% зашли в индекс (
)
Десять тысяч лайков этому господину!
Предлагаю чуть раскрыть пункт номер 3 в ридми. "Даем права !!!ВЛАДЕЛЬЦА!!! на сервисный аккаунт из консоли доменам в Google Search Console, URL которых будете отправлять Googlebot'у"
Это нужно в GSC в настройках сайта устанавливать в разделе Настройки, нажав на три точки и добавив второго владельца для акка из cloud.google.com (xxxxx.xxx.iam.gserviceaccount.com)
Лайк, однозначно..
Отличная штука, рекомендую!
Топовая тулза, есче.
Если на маке не работает установка через pip- юзайте pip3 (в этом случае у вас скорее всего установлен питон 3 версии)
Инфа для многих новая, тул тоже многим пригодится. Вот только некоторые выводы не правильные.
Бот ходит по междоменному 301, только с задержкой, у меня вплоть до суток.
Еще если ваш гугл акк или ресурс в Google Search Console гавно, то бота можно и не дождаться вообще. И если сегодня бот к вам приходит достаточно бодро, то это не значит, что он от вас не начнет морозиться завтра.
Запустил нажав https://c2n.me/4edTgrx
в urls.txt - добавил урлы
cred.json - тут Api
файл csv - не создается и в консоли нет ничего https://c2n.me/4edThhA
что я не так делаю?
как использовать Google Indexing API без добавления домена а консоль вебмастера ?
может тупой вопрос, но как дать права овнера, если в выпадашке предлагается только Full и Restricted?)
😱 Комментарий удален его автором...
Есть проблема у экзешника с антивирусом только(
https://www.virustotal.com/gui/file/694e23a3227a742857292aceb59fdf7cdbfe76174b09cef523aaac2906a1b21e - результат проверки. Не знаю, с чем это связано. Просто на всякий случай.
По работе софта: работает отлично, в прошлом месяце для Интернет-магазина 3000 URL добавили в индекс в интернет-магазине.