![]() |
Internet - это то место, где можно зарабатывать деньги*Наш сайт рассказывает, как это сделать. |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| * - речь не идет о сетевом маркетинге и тому подобных "серых" схемах. Мы говорим здесь только о том, как Ваш сайт сможет приносить прибыль. | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
- Главная - Статьи - Мнения - Лучшие сайты мира - Учебник по продвижению - Полезные файлы - Поиск - Форум - |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
Тематические разделы сайта: |
Индексы цитирования сайтов Рунета
Цели, задачи и методы
Задачами настоящего исследования были:
Изучить распределение значений индексов цитирования
для сайтов Рунета, покрываемых проектом Черный квадрат.
Получение Google PageRank производилось до начала
массового пересчета индекса цитирования, которое началось 28-29
сентября 2006 г. Получение тематического ИЦ Яндекса производилось в
начале октября 2006 г. для того же списка доменов.
*
единственный сайт с PR=9 был создан специально для накачки PR как
зеркало сайта php.net. После октябрьского пересчета Google индекса
цитирования Google он имеет PR=3
Обычное для
WWW-страниц распределение цитируемости выглядит в логарифмических
координатах как прямая линия, однако для головных страниц сайтов
Рунета получается зависимость, характерная для цитирования в научных
работах: значительно меньшая доля документов с экстремально низкими
индексами цитирования. В обоих случаях изменение вида распределения
может быть объяснено самоцитированием (ученые ссылаются на
собственные работы, вторые страницы сайтов - на головную страницу).
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Класс (logCY) |
Диапазон значений ТИЦ |
Количество сайтов |
| 8 | 59 880—236 800 | 2 |
| 7 | 15 140—59 870 | 34 |
| 6 | 3 830—15 130 | 298 |
| 5 | 970—3 820 | 3730 |
| 4 | 250—960 | 26 098 |
| 3 | 70—240 | 58 308 |
| 2 | 20—60 | 75 147 |
| 1 | 10 | 40 908 |
| 0 | <10 | 272 969 |
Из таблицы видно, что логарифмирование исходно-линейного индекса цитирования приводит к шуму в области малых значений. В то же время, распределение сайтов по логарифмическим классам практически точно повторяет аналогичный график для PageRank (см. ниже).
Выведем на график в логарифмических координатах одновременно распределение сайтов по PR и по логарифму ТИЦ.

Как видно
из графика, для первых пяти (из девяти) логарифмических классов,
имеется практически точное совпадение функций распределения (сайтов
по классам). Это позволяет утверждать, что Toolbar PageRank получен
путем логарифмирования целых значений индекса цитирования, а шум в
области малых значений вызван, в первую очередь, ошибками округления.
В области высоких значений индекса цитирования два графика
распределения значимо расходятся (на диаграмме приведены графики
полиномов второго порядка, описывающих, соответственно,
распределение сайтов по PR и по ТИЦ, каждый из них имеет коэффициент
корреляции с исходными данными на уровне 0.98). Как мы видим,
количество сайтов с высоким ТИЦ падает быстрее, чем количество
сайтов с высокими значениями PR. Это может объясняться рядом причин:
Google строит индексы цитирования по всем WWW-страницам, а Яндекс -
только по русскоязычному подмножеству. В результате, максимальный
индекс цитирования по Яндексу будет меньше.
Google учитывает все сайты одинаково (в соответствии с их весом,
полученным при расчете PageRank). ТИЦ, согласно описанию учитывает
тематическую близость. Тематическая близость, по всей видимости,
определяется близостью рубрик каталога Яндекса. Таким образом,
отсутствующий в каталоге сайт имеет меньше шансов получить высокий
ТИЦ. При этом:
около половины сайтов с PR>4 отсутствуют в каталоге Яндекса;
но 3/4 сайтов с ТИЦ > 1000 присутствуют в каталоге.
Другими словами, получить высокий ТИЦ труднее, чем высокий PR, а
следовательно почетнее.
Для сайтов с положительными PR и ТИЦ (всего таких сайтов 162941)
была построена таблица медианных значений ТИЦ для заданного PR:
PR |
Кол-во сайтов с ТИЦ>0 |
Медианное значение ТИЦ |
| 8 | 11 | 900* |
| 7 | 114 | 1400 |
| 6 | 1066 | 750 |
| 5 | 6 411 | 350 |
| 4 | 24 609 | 160 |
| 3 | 50 929 | 80 |
| 2 | 50 618 | 40 |
| 1 | 29 183 | 20 |
* Данных по
сайтам с PR=8 недостаточно для рассчета статистически-достоверного
значения медианного ТИЦ
Сравнивая данные индексов цитирования конкретного сайта с данной
таблицей можно определить "международность" или "рунетность" данного
сайта: у "более рунетного" сайта ТИЦ будет больше медианного.
Логарифмичность Google Toolbar PageRank можно считать доказанной.
Высокий ТИЦ встречается в Рунете реже высокого PageRank, а значит
высокий ТИЦ почетнее.
Автор благодарит Константина Рощупкина за конструктивную критику.
Источник: www.rukv.ru
Авторы:
Казимир Малевич
Владимир Липка
Алексей Тутубалин
Александр Гагин