Какую работу выполняют роботы пауки. Поисковый робот google: какую работу выполняет. Поисковые роботы Яндекса
Просматривая логи сервера, иногда можно наблюдать чрезмерный интерес к сайтам со стороны поисковых роботов. Если боты полезные (например, индексирующие боты ПС) — остается лишь наблюдать, даже если увеличивается нагрузка на сервер. Но есть еще масса второстепенных роботов, доступ которых к сайту не обязателен. Для себя и для вас, дорогой читатель, я собрал информацию и переделал ее в удобную табличку.
Кто такие поисковые роботы
Поисковый бот , или как еще их называют, робот, краулер, паук — ни что иное, как программа, которая осуществляет поиск и сканирование содержимого сайтов, переходя по ссылкам на страницах. Поисковые роботы есть не только у поисковиков. Например, сервис Ahrefs использует пауков, чтобы улучшить данные по обратным ссылкам, Facebook осуществляет веб-скраппинг кода страниц для отображения репостов ссылок с заголовками, картинкой, описанием. Веб-скраппинг — это сбор информации с различных ресурсов.
Использование имен пауков в robots.txt
Как видим, любой серьезный проект, связанный с поиском контента, имеет своих пауков. И иногда остро стоит задача ограничить доступ некоторым паукам к сайту или его отдельным разделам. Это можно сделать через файл robots.txt в корневой директории сайта. Подробнее про настройку роботса я писал ранее, рекомендую ознакомиться.
Обратите внимание — файл robots.txt и его директивы могут быть проигнорированы поисковыми роботами. Директивы являются лишь рекомендациями для ботов.
Задать директиву для поискового робота можно, используя секцию — обращение к юзер-агенту этого робота. Секции для разных пауков разделяются одной пустой строкой.
User-agent: Googlebot Allow: /
User - agent : Googlebot Allow : / |
Выше приведен пример обращения к основному поисковому роботу Google.
Изначально я планировал добавить в таблицу записи о том, как идентифицируют себя поисковые боты в логах сервера. Но так как для SEO эти данные имеют мало значения и для каждого токена агента может быть несколько видов записей, было решено обойтись только названием ботов и их предназначением.
Поисковые роботы G o o g l e
User-agent | Функции |
---|---|
Googlebot | Основной краулер-индексатор страниц для ПК и оптимизированных для смартфонов |
Mediapartners-Google | Робот рекламной сети AdSense |
APIs-Google | Агент пользователя APIs-Google |
AdsBot-Google | Проверяет качество рекламы на веб-страницах, предназначенных для ПК |
AdsBot-Google-Mobile | Проверяет качество рекламы на веб-страницах, предназначенных для мобильных устройств |
Googlebot-Image (Googlebot) | Индексирует изображения на страницах сайта |
Googlebot-News (Googlebot) | Ищет страницы для добавления в Google Новости |
Googlebot-Video (Googlebot) | Индексирует видеоматериалы |
AdsBot-Google-Mobile-Apps | Проверяет качество рекламы в приложениях для устройств Android, работает по тем же принципам, что и обычный AdsBot |
Поисковые роботы Я ндекс
User-agent | Функции |
---|---|
Yandex | При указании данного токена агента в robots.txt, обращение идет ко всем ботам Яндекса |
YandexBot | Основной индексирующий робот |
YandexDirect | Скачивает информацию о контенте сайтов-партнеров РСЯ |
YandexImages | Индексирует изображения сайтов |
YandexMetrika | Робот Яндекс.Метрики |
YandexMobileBot | Скачивает документы для анализа на наличие верстки под мобильные устройства |
YandexMedia | Робот, индексирующий мультимедийные данные |
YandexNews | Индексатор Яндекс.Новостей |
YandexPagechecker | Валидатор микроразметки |
YandexMarket | Робот Яндекс.Маркета; |
YandexCalenda | Робот Яндекс.Календаря |
YandexDirectDyn | Генерирует динамические баннеры (Директ) |
YaDirectFetcher | Скачивает страницы с рекламными объявлениями для проверки их доступности и уточнения тематики (РСЯ) |
YandexAccessibilityBot | Cкачивает страницы для проверки их доступности пользователям |
YandexScreenshotBot | Делает снимок (скриншот) страницы |
YandexVideoParser | Паук сервиса Яндекс.Видео |
YandexSearchShop | Скачивает YML-файлы каталогов товаров |
YandexOntoDBAPI | Робот объектного ответа, скачивающий динамические данные |
Другие популярные поисковые боты
User-agent | Функции |
---|---|
Baiduspider | Спайдер китайского поисковика Baidu |
Cliqzbot | Робот анонимной поисковой системы Cliqz |
AhrefsBot | Поисковый бот сервиса Ahrefs (ссылочный анализ) |
Genieo | Робот сервиса Genieo |
Bingbot | Краулер поисковой системы Bing |
Slurp | Краулер поисковой системы Yahoo |
DuckDuckBot | Веб-краулер ПС DuckDuckGo |
facebot | Робот Facebook для веб-краулинга |
WebAlta (WebAlta Crawler/2.0) | Поисковый краулер ПС WebAlta |
BomboraBot | Сканирует страницы, задействованные в проекте Bombora |
CCBot | Краулер на основе Nutch, который использует проект Apache Hadoop |
MSNBot | Бот ПС MSN |
Mail.Ru | Краулер поисковой системы Mail.Ru |
ia_archiver | Скраппит данные для сервиса Alexa |
Teoma | Бот сервиса Ask |
Поисковых ботов очень много, я отобрал только самых популярных и известных. Если есть боты, с которыми вы сталкивались по причине агрессивного и настойчивого сканирования сайтов, прошу в комментариях указать это, я добавлю их также в таблицу.
1.1.1. Компоненты поисковых машин
Информация в Сети не только пополняется, но и постоянно изменяется, но об этих изменениях никто никому не сообщает. Отсутствует единая система занесения информации, одновременно доступная для всех пользователей Интернета. Поэтому с целью структурирования информации, предоставления пользователям удобных средств поиска данных и были созданы поисковые машины.
Поисковые системы бывают разных видов. Одни из них выполняют поиск информации на основе того, что в них заложили люди. Это могут быть каталоги, куда сведения о сайтах, их краткое описание либо обзоры заносят редакторы. Поиск в них ведется среди этих описаний.
Вторые собирают информацию в Сети, используя специальные программы. Это поисковые машины, состоящие, как правило, из трех основных компонентов:
Индекса;
Поискового механизма.
Агент , или более привычно - паук, робот (в англоязычной литературе - spider, crawler), в поисках информации обходит сеть или ее определенную часть. Этот робот хранит список адресов (URL), которые он может посетить и проиндексировать, с определенной для каждой поисковой машины периодичностью скачивает соответствующие ссылкам документы и анализирует их. Полученное содержимое страниц сохраняется роботом в более компактном виде и передается в Индекс. Если при анализе страницы (документа) будет обнаружена новая ссылка, робот добавит ее в свой список. Поэтому любой документ или сайт, на который есть ссылки, может быть найден роботом. И наоборот, если на сайт или любую его часть нет никаких внешних ссылок, робот может его не найти.
Робот - это не просто сборщик информации. Он обладает довольно развитым "интеллектом". Роботы могут искать сайты определенной тематики, формировать списки сайтов, отсортированных по посещаемости, извлекать и обрабатывать информацию из существующих баз данных, могут выполнять переходы по ссылкам различной глубины вложенности. Но в любом случае, всю найденную информацию они передают базе данных (Индексу) поисковой машины.
Поисковые роботы бывают различных типов:
? Spider (паук) - это программа, которая скачивает веб-страницы тем же способом, что и браузер пользователя. Отличие состоит в том, что браузер отображает информацию, содержащуюся на странице (текстовую, графическую и т. д.), паук же не имеет никаких визуальных компонентов и работает напрямую с HTML-текстом страницы (аналогично тому, что вы увидите, если включите просмотр HTML-кода в вашем браузере).
? Crawler (краулер, "путешествующий" паук) - выделяет все ссылки, присутствующие на странице. Его задача - определить, куда дальше должен идти паук, основываясь на ссылках или исходя из заранее заданного списка адресов. Краулер, следуя по найденным ссылкам, осуществляет поиск новых документов, еще неизвестных поисковой системе.
? Индексатор разбирает страницу на составные части и анализирует их. Выделяются и анализируются различные элементы страницы, такие как текст, заголовки, структурные и стилевые особенности, специальные служебные HTML-теги и т. д.
Индекс - это та часть поисковой машины, в которой осуществляется поиск информации. Индекс содержит все данные, которые были переданы ему роботами, поэтому размер индекса может достигать сотен гигабайт. Практически, в индексе находятся копии всех посещенных роботами страниц. В случае если робот обнаружил изменение на уже проиндексированной им странице, он передает в Индекс обновленную информацию. Она должна замещать имеющуюся, но в ряде случаев в Индексе появляется не только новая, но остается и старая страница.
Поисковый механизм - это тот самый интерфейс, с помощью которого посетитель взаимодействует с Индексом. Через интерфейс пользователи вводят свои запросы и получают ответы, а владельцы сайтов регистрируют их (и эта регистрация - еще один способ донести до робота адрес своего сайта). При обработке запроса поисковый механизм выполняет отбор соответствующих ему страниц и документов среди многих миллионов проиндексированных ресурсов и выстраивает их в порядке важности или соответствия запросу.
Друзья, я снова приветствую Вас! Сейчас мы разберем, что такое поисковые роботы и подробно поговорим про поисковый робот google и как с ними дружить.
Сначала надо понимать, что вообще такое поисковые роботы, еще их называют пауки. Какую работу выполняют пауки поисковых систем?
Это программы, которые проверяют сайты. Они просматривают все записи и страницы на вашем блоге, собирают информацию, которую потом передают в базу той поисковой системы, на которую они трудятся.
Не надо знать весь список поисковых роботов, самое главное знать, что у гугла сейчас появились два основных паука, которые называются «панда» и «пингвин». Они борются с некачественным контентом и мусорными ссылками и надо знать как отражать их атаки.
Поисковый робот google «панда» создан для того, чтобы продвигать в поиске только качественный материал. Все сайты с низкопробным контентом понижаются в поисковой выдаче.
Первый раз этот паук появился в 2011 году. До его появления можно было продвинуть любой сайт публикуя в статьях большой объем текста и используя огромный объем ключевых слов. В совокупности эти два приема выводили на верх выдачи поиска не качественный контент, а хорошие сайты понижались в выдаче.
«Панда» сразу навел порядок проверив все сайты и расставил всех по своим заслуженным местам. Хотя она и борется с низкопробным контентом, зато сейчас можно продвинуть даже небольшие сайты с качественными статьями. Хотя раньше такие сайты продвигать было бесполезно, они не могли конкурировать с гигантами у которых большое количество контента.
Сейчас мы с вами разберемся, как можно избежать санкций «панды». Надо сначала понять что ей не нравится. Я уже писал выше, что она борется с плохим контентом, но какой текст для нее плохой, давайте разберемся в этом, чтобы не публиковать такой на своем сайте.
Поисковый робот google стремиться чтобы в этом поисковике выдавалась только качественные материалы для соискателей. Если у вас есть статьи в которых мало информации и они не привлекательные внешне, то срочно перепишите эти тексты, чтобы «панда» не добралась до вас.
Качественный контент может иметь как большой объем, так и маленький, но если паук видит длинную статью с большим количеством информации значит она больше принесет пользы читателю.
Затем надо отметить дублирование, а другими словами плагиат. Если вы думаете что будете переписывать чужие статьи себе на блог, то можете сразу поставить крест на своем сайте. Копирование строго наказывается наложением фильтра, а проверяется плагиат очень легко, я писал статью на тему как проверять тексты на уникальность .
Следующее что надо заметить, это перенасыщение текста ключевыми словами. Кто думает, что напишет статью из одних ключей и займет первое место в выдаче – очень сильно ошибается. У меня есть статья, как проверять страницы на релевантность, прочитайте обязательно.
И еще что может привлечь к вам «панду», так это старые статьи, которые устарели морально и не приносят трафик на сайт. Их нужно обязательно обновить.
Существует так же поисковый робот google «пингвин». Этот паук борется со спамом и мусорными ссылками на вашем сайте. Так же он вычисляет купленные ссылки с других ресурсов. Поэтому, чтобы не бояться этого поискового робота, надо не заниматься закупом ссылок, а публиковать качественный контент, чтобы люди сами на вас ссылались.
Сейчас давайте сформулируем, что надо сделать чтобы сайт глазами поискового робота смотрелся идеально:
- Для того чтобы сделать качественный контент, сначала хорошо изучите тему, прежде чем писать статью. Затем надо понимать, что данной темой реально интересуются люди.
- Используйте конкретные примеры и картинки, это сделает статью живой и интересной. Разбивайте текст на мелкие абзацы, чтобы читать было легко.Вот например, если вы открыли в газете страницу с анекдотами, то какие сначала прочитаете? Естественно каждый человек сначала читает короткие тексты, затем подлиньше и в самую последнюю очередь уже длинные портянки.
- Любимая придирка «панды» — это не актуальность статьи в которой содержится устаревшая информация. Следите за обновлениями и изменяйте тексты.
- Следите за плотностью ключевых слов, как определить эту плотность я написал выше, в сервисе о котором я рассказал вы получите точное необходимое количество ключей.
- Не занимайтесь плагиатом, всем известно что нельзя воровать чужие вещи или текста – это одно и то же. За воровство будете отвечать попаданием под фильтр.
- Тексты пишите минимум на две тысячи слов, тогда такая статья будет выглядеть глазами роботов поисковых систем информативной.
- Не уходите от темы вашего блога. Если вы ведете блог по заработку в интернете, то не надо печатать статьи про пневматическое оружие. Это может снизить рейтинг вашего ресурса.
- Красиво оформляйте статьи, делите на абзацы и добавляйте картинки, чтобы приятно было читать и не хотелось побыстрее уйти с сайта.
- Закупая ссылки, делайте их на самые интересные и полезные статьи, которые реально будут читать люди.
Ну вот сейчас вы знаете какую работу выполняют роботы поисковых систем и сможете с ними дружить. А самое главное поисковый робот google и «панда» и «пингвин» вами подробно изучен.
Поисковым роботом называется специальная программа какой-либо поисковой системы, которая предназначена для занесения в базу (индексирования) найденных в Интернете сайтов и их страниц. Также используются названия: краулер, паук, бот, automaticindexer, ant, webcrawler, bot, webscutter, webrobots, webspider.
Принцип работы
Поисковый робот — это программа браузерного типа. Он постоянно сканирует сеть: посещает проиндексированные (уже известные ему) сайты, переходит по ссылкам с них и находит новые ресурсы. При обнаружении нового ресурса робот процедур добавляет его в индекс поисковика. Поисковый робот также индексирует обновления на сайтах, периодичность которых фиксируется. Например, обновляемый раз в неделю сайт будет посещаться пауком с этой частотой, а контент на новостных сайтах может попасть в индекс уже через несколько минут после публикации. Если на сайт не ведет ни одна ссылка с других ресурсов, то для привлечения поисковых роботов ресурс необходимо добавить через специальную форму (Центр вебмастеров Google, панель вебмастера Яндекс и т.д.).
Виды поисковых роботов
Пауки Яндекса :
- Yandex/1.01.001 I — основной бот, занимающийся индексацией,
- Yandex/1.01.001 (P) — индексирует картинки,
- Yandex/1.01.001 (H) — находит зеркала сайтов,
- Yandex/1.03.003 (D) — определяет, соответствует ли страница, добавленная из панели вебмастера, параметрам индексации,
- YaDirectBot/1.0 (I) — индексирует ресурсы из рекламной сети Яндекса,
- Yandex/1.02.000 (F) — индексирует фавиконы сайтов.
Пауки Google:
- Робот Googlebot — основной робот,
- Googlebot News — сканирует и индексирует новости,
- Google Mobile — индексирует сайты для мобильных устройств,
- Googlebot Images — ищет и индексирует изображения,
- Googlebot Video — индексирует видео,
- Google AdsBot — проверяет качество целевой страницы,
- Google Mobile AdSense и Google AdSense — индексирует сайты рекламной сети Google.
Другие поисковики также используют роботов нескольких видов, функционально схожих с перечисленными.
Вопреки расхожему мнению, робот непосредственно не занимается какой-либо обработкой сканируемых документов. Он их только считывает и сохраняет, дальше их обработку осуществляют другие программы. Наглядное подтверждение можно получить, анализируя логи сайта, который индексируется в первый раз. При первом визите бот сначала запрашивает файл robots.txt, затем главную страницу сайта. То есть идет по единственной известной ему ссылке. На этом первый визит бота всегда и заканчивается. Через некоторое время (обычно на следующий день) бот запрашивает следующие страницы - по ссылкам, которые найдены на уже считанной странице. Дальше процесс продолжается в том же порядке: запрос страниц, ссылки на которые уже найдены - пауза на обработку считанных документов - следующий сеанс с запросом найденных ссылок.
Разбор страниц «на лету» означал бы значительно бо льшую ресурсоемкость робота и потери времени. Каждый сервер сканирования запускает множество процессов-ботов параллельно. Они должны действовать максимально быстро, чтобы успеть считывать новые страницы и повторно перечитывать уже известные. Поэтому боты только считывают и сохраняют документы. Все, что они сохраняют, ставится в очередь на обработку (разборку кода). Найденные при обработке страниц ссылки ставятся в очередь заданий для ботов. Так и идет непрерывное сканирование всей сети. Единственное, что бот может и должен анализировать «на лету» - это файл robots.txt, чтобы не запрашивать адреса, которые в нем запрещены. При каждом сеансе сканирования сайта робот в первую очередь запрашивает этот файл, а уже после него - все стоящие в очереди на сканирование страницы.
Виды поисковых роботов
У каждой поисковой системы есть свой набор роботов для различных целей.
В основном они различаются по функциональному назначению, хотя границы очень условны, и каждый поисковик понимает их по-своему. Системам только для полнотекстового поиска вполне достаточно одного робота на все случаи жизни. У тех поисковиков, которые заняты не только текстом, боты разделяются как минимум на две категории: для текстов и рисунков. Существуют также отдельные боты, занятые специфическими видами контента - мобильным, блоговым, новостным, видео и т.д.
Роботы Google
Все роботы Google носят общее название Googlebot. Основной робот-индексатор «представляется» так:
Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
Этот бот занят сканированием HTML -страниц и прочих документов для основного поиска Google. Он же изредка считывает файлы CSS и JS - в основном это можно заметить на ранней стадии индексирования сайта, пока бот обходит сайт впервые. Принимаемые типы контента - все (Accept: */*).
Второй из основных ботов занят сканированием изображений с сайта. Он «представляется» просто:
Googlebot-Image/1.0
Еще в логах замечены как минимум три бота, занятых сбором контента для мобильной версии поиска. Поле User-agent всех трех оканчивается строкой:
(compatible; Googlebot-Mobile/2.1; +http://www.google.com/bot.html)
Перед этой строкой - модель мобильного телефона, с которой этот бот совместим. У замеченных ботов это модели телефонов Nokia, Samsung и iPhone. Принимаемые типы контента - все, но с указанием приоритетов:
Accept: application/vnd.wap.xhtml+xml,application/xhtml+xml;q=0.9,text/vnd.wap.wml;q=0.8,text/html;q=0.7,*/*;q=0.6
Роботы Яндекса
Из поисковиков, активно действующих в Рунете, самая большая коллекция ботов у Яндекса. В разделе помощи для вебмастеров можно найти официальный список всего паучьего личного состава. Приводить его здесь полностью нет смысла, поскольку в этом списке периодически происходят изменения.
Тем не менее, о самых важных для нас роботах Яндекса нужно упомянуть отдельно.
Основной индексирующий робот
на текущий момент зовется
Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)
Ранее представлялся как
Yandex/1.01.001 (compatible; Win16; I)
Считывает HTML -страницы сайта и другие документы для индексирования. Список принимаемых медиатипов ранее был ограничен:
Accept: text/html, application/pdf;q=0.1, application/rtf;q=0.1, text/rtf;q=0.1, application/msword;q=0.1, application/x-shockwave-flash;q=0.1, application/vnd.ms-excel;q=0.1, application/vnd.ms-powerpoint;q=0.1
С 31 июля 2009 года в этом списке было замечено существенное расширение (число типов почти удвоилось), а с 10 ноября 2009 года список укоротился до */* (все типы).
Этого робота живо интересует вполне определенный набор языков: русский, несколько менее украинский и белорусский, еще чуть меньше английский и совсем мало - все остальные языки.
Accept-Language: ru, uk;q=0.8, be;q=0.8, en;q=0.7, *;q=0.01
Робот-сканер изображений несет в поле User-agent строку:
Mozilla/5.0 (compatible; YandexImages/3.0; +http://yandex.com/bots)
Занимается сканированием графики разных форматов для поиска в картинках.
В отличие от Google, у Яндекса есть отдельные боты для обслуживания некоторых специальных функций общего поиска.
Робот-«зеркальщик»
Mozilla/5.0 (compatible; YandexBot/3.0; MirrorDetector; +http://yandex.com/bots)
Ничего особенно сложного не делает - периодически появляется и проверяет, совпадает ли главная страница сайта при обращении к домену с www. и без. Также проверяет параллельные домены-«зеркала» на совпадение. По-видимому, зеркалами и канонической формой доменов в Яндексе занимается отдельный программный комплекс, не связанный напрямую с индексированием. Иначе решительно нечем объяснить существование для этой цели отдельного бота.
Сборщик иконок favicon.ico
Mozilla/5.0 (compatible; YandexFavicons/1.0; +http://yandex.com/bots)
Периодически появляется и запрашивает иконку favicon.ico, которая потом появляется в поисковой выдаче рядом со ссылкой на сайт. По каким причинам эту обязанность не совмещает сборщик картинок, неизвестно. По-видимому, также имеет место отдельный программный комплекс.
Проверочный бот для новых сайтов, работает при добавлении в форму AddURL
Mozilla/5.0 (compatible; YandexWebmaster/2.0; +http://yandex.com/bots)
Этот бот проверяет отклик сайта, посылая запрос HEAD к корневому URL . Таким образом проверяется существование главной страницы в домене и анализируются HTTP -заголовки этой страницы. Также бот запрашивает файл robots.txt в корне сайта. Таким образом после подачи ссылки в AddURL определяется, что сайт существует и ни в robots.txt, ни в HTTP -заголовках не запрещен доступ к главной странице.
Робот Рамблера
В настоящее время уже не работает
, поскольку Рамблер сейчас использует поиск Яндекса
Робота-индексатора Рамблера легко опознать в логах по полю User-agent
StackRambler/2.0 (MSIE incompatible)
По сравнению с «коллегами» из других поисковых систем этот бот кажется совсем простым: не указывает список медиатипов (соответственно, получает запрошенный документ любого типа), поле Accept-Language в запросе отсутствует, в запросах бота не встречено также поле If-Modified-since.
Робот Mail.Ru
Об этом роботе пока известно немного. Разработку собственного поиска портал Mail.Ru ведет уже давно, но все никак не соберется этот поиск запустить. Поэтому достоверно известно только наименование бота в User-agent - Mail.Ru/2.0 (ранее - Mail.Ru/1.0). Наименование бота для директив файла robors.txt нигде не публиковалось, есть предположение, что бота так и следует звать Mail.Ru.
Прочие роботы
Поиск в интернете, конечно, не ограничивается двумя поисковыми системами. Поэтому существуют и другие роботы - например робот Bing - поисковой системы от Microsoft и другие роботы. Так, в частности, в Китае есть национальная поисковая система Baidu - но ее робот вряд ли долетит до середины реки дойдет до русского сайта .
Кроме того, в последнее время расплодилось много сервисов - в частности solomono - которые хоть и не являются поисковыми системами, но тоже сканирует сайты. Часто ценность передачи информации о сайте таким системам сомнительна, и поэтому их роботов можно запретить в