Как Google обнаруживает и сканирует веб страницы и предоставляет результаты

Если отправить в Google поисковый запрос, результаты поиска, найденные по всему Интернету, появляются почти мгновенно. Как Google находит веб-страницы, соответствующие введенному запросу, и определяет порядок расположения результатов поиска?

Если представить все в максимально упрощенном виде, то веб-поиск можно сравнить с просмотром огромной книги, имеющей очень длинное оглавление, в котором подробно указано, где что находится. Когда вы выполняете поиск Google, наши программы проверяют индекс с целью определить наиболее релевантные результаты поиска, которые вы получаете, сообщается в справке Google.

Мы используем огромную сеть компьютеров, чтобы извлечь (или «просканировать») содержание миллиардов веб-страниц. Программа, выполняющая сканирование, называется роботом Google (или пауком). Робот Googlebot использует алгоритмический процесс: программы определяют, какие сайты нужно сканировать, как часто это нужно делать, а также какое количество страниц следует выбрать на каждом сайте.

Процесс сканирования Google начинается со списка URL веб-страниц, созданного на основе предыдущих сеансов сканирования. Его дополняют данные из файлов Sitemap, предоставленных веб-мастерами. Просматривая каждый из этих сайтов, поисковый робот Googlebot находит на каждой странице ссылки и добавляет их в список страниц, подлежащих сканированию. Робот Googlebot отмечает все новые и обновленные сайты, а также неработающие ссылки.

Мы не берем плату за более частое сканирование сайта. Поисковая система представляет собой отдельную часть нашего бизнеса, не связанную с платной службой Google AdWords.

Индексирование

Робот Googlebot обрабатывает каждую сканируемую страницу, чтобы составить полный индекс всех найденных слов, а также отметить, в какой части страницы они находятся. Кроме того, мы обрабатываем данные из основных тегов и атрибутов, например тегов Title и атрибутов ALT. Робот Googlebot способен обрабатывать многие (но не все) типы содержания. К примеру, обработке не поддается содержание некоторых файлов мультимедиа и динамически создаваемых страниц.

Предоставление результатов

Когда пользователь вводит поисковый запрос, наша система находит в индексе подходящие страницы и выдает наиболее релевантные, по нашему мнению, результаты. Релевантность определяется различными факторами, которых насчитывается более 200. Один из них — это рейтинг PageRank для конкретной страницы. PageRank является показателем «важности» страницы и определяется на основе входящих ссылок с других страниц. Проще говоря, каждая ссылка на страницу вашего сайта с другого сайта увеличивает PageRank вашего сайта. Не все ссылки равноценны. Мы непрерывно совершенствуем алгоритмы оценки ссылок, чтобы отсеивать спам и другие данные, негативно влияющие на качество результатов поиска. Наибольший вес имеют ссылки, размещение которых связано с качеством содержания вашего сайта.

Это интересно:  Новый струйный принтер Epson WorkForce WF-2010W

Для обеспечения адекватного рейтинга сайта на страницах результатов поиска важно, чтобы робот Google мог корректно сканировать и индексировать сайт. В наших рекомендациях для веб-мастеров описывается ряд оптимальных методов, которые позволяют избежать распространенных ошибок и повысить рейтинг сайта.

Функции Google Возможно, вы имели в виду и Автозаполнение помогают пользователям быстрее находить нужную информацию, исправляя орфографические ошибки и подсказывая похожие ключевые слова и популярные запросы. Как и в результатах поиска google.ru, ключевые слова, используемые этими функциями, автоматически создаются нашими веб-сканерами и алгоритмами поиска. Такие подсказки отображаются только в том случае, если, по мнению Google, они могут сэкономить время пользователя. Если сайт имеет высокий рейтинг в результатах поиска по ключевому слову, это связано с тем, что алгоритмы Google определили, что его содержание более релевантно запросу пользователя.

Если вы нашли ошибку, пожалуйста, выделите фрагмент текста и нажмите Ctrl+Enter.

Самое интересное в блоге

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *

8 + 3 =