Алексей Тутубалин при обновлении
В ходе исследования были проанализированы индексы цитирования сайтов в доменах второго уровня в зонах .RU и .SU. Исследовались не все сайты - они должны были отвечать ряду условий: наличие имени http://www.domain.ru(su) или http://domain.ru(su), успешный ответ сайта на HTTP-запрос к головной странице, отсутствие зеркалирования другого домена RU/SU.
Получение Google PageRank производилось до начала массового пересчета индекса цитирования, начавшееся 28-29 сентября 2006 года. Получение ТИЦ Яндекса производилось в начале октября 2006 года для того же списка доменов.
Для получения значений тематического индекса цитирования "Яндекса" были использованы новаторские методики распределения труда: работу по собиранию данных выполняла тысяча китайцев с браузерами, в которых была установлена панель "Яндекс.Бар". Они разделили черный квадрат на подквадратики и честно их прокликали, так как "Яндекс" запрещает автоматическое получение информации о ТиЦ сайта.
Более половины сайтов Рунета мало кому интересны - 272969 сайтов (из рассматриваемых 477494) имеют ТиЦ менее 10. Похожая картина и с Google PR - более 265 тысяч сайтов имеют PageRank равный нулю.
С сайтами, которые имеют ненулевой вес в поисковиках, ситуация более интересная - график их распределения в логарифмических координатах выглядит как прямая. При этом в области высоких значений ТиЦ и PR число сайтов их имеющих сильно расходится - сайтов с высоким ТиЦ в Рунете меньше чем сайтов с высоким PR. По предположению Тутубалина основными причинами этого может быть нацеленность "Яндекса" на Рунет, или/и учет тематической близости сайтов.