
Кэрри Граймс, инженер разработки ПО, в официальном блоге Google сообщает о запуске новой системы индексирования под кодовым названием Caffeine. В компании заявляют, что Caffeine позволит получать на 50% более свежие результаты веб-поиска в сравнении с предыдущим алгоритмом, который лежал в основе работы поисковика.
Нововведения касаются оптимизации поиска релевантных ссылок для любых типов контента практически сразу после его публикации. Иными словами, если раньше индексирование в Google напоминало создание содержания данных "как в книге", то с развитием социальных сетей и генерацией большого объема пользовательского контента такой механизм работы поисковых алгоритмов устарел.
Механизм, положенный в основу системы Caffeine, позволит анализировать контент по мере его поступления и публикации, а не однократно за какой-то период времени. Caffeine позволяет обрабатывать параллельно сотни тысяч страниц. Общая емкость БД нового "движка" Caffeine составляет порядка 100 миллионов гигабайт, а темп добавления новой информации достигает сотен тысяч гигабайт в сутки ("примерно как 625 тысяч самых вместительных iPod’ов", – говорит инженер компании).