Основная часть индекса Google Поиска создается специальным ПО – поисковыми роботами. Они автоматически открывают общедоступные веб-страницы и переходят по ссылкам на них, как это делают пользователи интернета. Поисковые роботы изучают каждую страницу и сохраняют найденные данные и другой общедоступный контент в индексе Google Поиска.
в Google Поиске
Во время сканирования наши системы обрабатывают контент страниц так же, как это делают браузеры. Мы регистрируем данные по ключевым словам и новизне контента, а затем создаем на их основе поисковый индекс.
Индекс Google Поиска включает сотни миллиардов веб-страниц. Его объем значительно превышает 100 млн гигабайт. Индекс похож на указатель в конце книги, в котором есть отдельная запись для каждого слова на всех проиндексированных страницах. Во время индексирования данные о странице добавляются в записи по всем словам, которые на ней есть.
Интернет непрерывно меняется. Чтобы гарантировать актуальность данных в поисковом индексе, сканирование не должно прекращаться ни на минуту. Поисковые роботы оценивают, как часто меняется уже просмотренный контент, и при необходимости возвращаются к нему. Они также проверяют информацию при появлении новых ссылок или материалов.
Google предлагает бесплатный набор инструментов Search Console, который помогает владельцам сайтов повышать эффективность сканирования своего контента. Им также доступны традиционные инструменты, например файлы Sitemap и robots.txt. С их помощью можно задать частоту сканирования контента или вообще исключить его из индекса Google Поиска.
Google не увеличивает частоту сканирования отдельных ресурсов за плату. Чтобы результаты поиска были максимально полезными для пользователей, владельцы сайтов получают одни и те же инструменты.
Помимо информации из интернета, в индексе Google Поиска содержатся полезные данные из других источников.
Google поддерживает несколько индексов с данными разных типов. Они собираются с помощью сканирования, предоставляются партнерами, берутся из фидов и из нашей собственной энциклопедии фактов – сети знаний.
Благодаря разным индексам можно искать информацию в миллионах книг из крупнейших библиотек, узнавать расписание общественного транспорта у местных перевозчиков или находить данные в открытых источниках, таких как Всемирный банк.