Amazon готовит своего LLM ЧатБота

Amazon готовит своего LLM ЧатБота на сайтах

Тексты нужны понятное дело для обучения моделей LLM (типа ChatGPT).

Все LLM сейчас усиленно качают большие текстовые сайты, вот и мой не стал исключением.

Amazon проник на мой сайт

Залез я в админку, а там уже больше недели amazonbot резвится.

Забрался на один из моих сайтов и усиленно его выкачивает! Я в общем-то не против. Но «шотодолхо» Уже неделю лазиет.

 

Дата Сайт User-Agent Количество
запросов
2023-11-29 ankiermo.ru Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/600.2.5 (KHTML, like Gecko) Version/8.0.2 Safari/600.2.5 (Amazonbot/0.1; +https://developer.amazon.com/support/amazonbot) 33544

Amazon готовит своего LLM ЧатБота 3

Я понимаю, что на ankiermo.ru у меня ОЧЕНЬ МНОГО контента, но блин неделю ползает не может выкачать. А сайт ankiermo.ru нагружает так, будто там трафика как у топ сайта…

В общем подожду еще пару дней, а после поставлю блок на это пожирающее контент чудище amazonbot.

Как заблокировать Amazonbot

Как я могу контролировать, что Amazonbot сканирует на моем сайте?

Robots.txt:

Amazonbot учитывает директивы user-agent и Disallow в файле robots.txt. В приведенном ниже примере робот Amazonbot не будет сканировать документы, находящиеся под параметром /do-not-crawl/ или /not-allowed:

User-agent: Amazonbot               # Amazon's user agent
Disallow: /do-not-crawl/            # disallow this directory

User-agent: *                # any robot
Disallow: /not-allowed/      # disallow this directory

 

AmazonBot не поддерживает crawl-delayдирективы в robots.txt и метатеги robots на HTML-страницах, такие как «nofollow» и «noindex».

Параметр Rel на уровне ссылки:

Amazonbot поддерживает директиву rel=nofollow на уровне ссылки. Включите их в свой HTML-код, чтобы робот Amazonbot мог переходить и сканировать определенную ссылку с вашего веб-сайта.

<a href="signin.php" rel=nofollow>Sign in </a>
...

 

♦️♦️♦️♦️♦️БОЛЬШЕ ИНТЕРЕСНОГО В МОЕМ ТЕЛЕГРАМ-КАНАЛЕ♦️♦️♦️♦️♦️
➡️➡️➡️https://t.me/mfose ⬅️⬅️⬅️Подпишись!

 

© Автор этой замечательной статьи Маг Fose (Борис Шабрин) — маг, парапсихолог, экстрасенс. А еще дипломированный психолог с правом практики, в т.ч. на гештальт терапию (мое второе высшее), гипнолог, писатель, художник да и просто творческий человек. Рад Приветствовать Вас на своем сайте! На главной странице можно прочесть больше обо мне.

Если вам необходима ❤️ магическая помощь - пишите мне на вацап +7-900-120-9996, на bbcult@gmail.com  или НАЖМИТЕ СЮДА. Ваш маг Fose (Борис Шабрин)

Добавить комментарий