Базы данныхИнтернетКомпьютерыОперационные системыПрограммированиеСетиСвязьРазное
Поиск по сайту:
Подпишись на рассылку:

Назад в раздел

Коллекция Web-safe палитр

div.main {margin-left: 20pt; margin-right: 20pt}Кривые Зипфа и популярность веб-сайтов

Якоб Нильсен

Кривые Зипфа выглядят как прямые линии, если их нарисовать на двойной логарифмической шкале. На рисунках, представленных ниже, изображен набор из 300 элементов, подчиняющийся распределению Зипфа. Обратите внимание, что на правой диаграмме линия, соединяющая все точки, образует прямую (на графике обе шкалы - логарифмические). Большинство графиков, которыми мы пользуемся в жизни, имеют линейную шкалу, поэтому в качестве сравнения на левой диаграмме представлены те же самые данные, но на графике с линейной шкалой по осям.



Линейная шкала
по обеим осям
Логарифмическая шкала
по обеим осям
Одни и те же данные, изображенные на линейной и логарифмической шкале.
Оба графика изображают распределение Зипфа на примере 300 точек.


Из вышеприведенных графиков понятно, что кривые Зипфа при изображении на линейных шкалах имеют тенденцию очень плотно прилегать к осям графиков. Именно поэтому мы обычно рисуем эти кривые на логарифмической шкале, даже несмотря на то, что большинство людей не привыкло с ними работать. Простое описание данных, подчиняющихся распределению Зипфа, таково: Небольшое количество элементов имеет очень высокий рейтинг (левый "рог" диаграммы) Среднее количество элементов имеет средний рейтинг (средняя часть диаграммы) Огромное количество элементов имеет очень низкий рейтинг (правый "рог" диаграммы) Как показывает практика, распределения Зипфа можно использовать для описания употребления слов в человеческом языке (например, английском) и популярности книг в библиотеке. Так, например: В языке есть небольшое количество слов ("the", "and" и т.д.), которые используются чрезвычайно часто, а в библиотеке есть небольшое количество книг, которые пользуются очень высоким спросом (например, бестселлеры) В языке есть достаточно большое количество слов ("dog", "house" и т.д.), которые используются достаточно часто, а в библиотеке есть добрая доля книг, которые берет очень много людей (детективы и прочее) В языке полно слов ("Зипф", логарифмическая шкала" и т.д.), которые практически никогда не используются, а в библиотеках есть груды книг, которые берутся лишь раз в несколько лет (например, руководство по эксплуатации текстового процессора для Apple II) Множество данных свидетельствуют, что и Web следует распределению Зипфа. На следующем рисунке показано распределение входящих запросов к страницам сайта www.sub.com в течение одного месяца прошлого года (1996 год). Каждая точка соответствует одной странице. По оси X страницы отсортированы по популярности: первая страница - самая популярная (это главная страница сайта), вторая страница - вторая по популярности за месяц, и так далее, пока мы не достигнем 10.000-ой страницы, которую запросили в течение месяца лишь один раз. Жирная линия показывает реальное распределение популярности страниц, а тонкая красная линия - теоретическую популярность в соответствии с распределением Зипфа. Можно увидеть, что совпадение практически полное за исключением правого "рога". Это отклонение связано с различными причинами, например, с тем фактом, что сайт был еще не достаточно "старым", чтобы накопить достаточное количество запросов к наименее интересным страницам.

Сравнение фактических данных веб-сайта Sun с теоретическими данными распределения Зифпа.
Обратите внимание, график использует логарифмическую шкалу по обеим осям.


Вышеприведенный рисунок отображает входящие запросы, поступающие на сайт. Другие исследования показывают, что кривой Зипфа можно представить и исходящие запросы работников организации (небольшое количество ссылок, которые посещаются работником чаще всего, и большое количество ссылок, посещенное только один раз). Оказывается, что распределение гипертекстовых ссылок в Web-е также подчиняется распределению Зипфа: есть небольшое количество сайтов, на которые ссылаются все, и огромное количество сайтов, на которые практически никто не ссылается; а также каждый сайт получает большую часть посетителей от небольшого количества сайтов, сделавших на него ссылку, а от огромного числа других сайтов приходит лишь небольшая часть посетителей Участие в конференциях Usenet также следует распределению Зипфа: большую часть сообщению пишет лишь небольшая группа людей, а огромная оставшаяся часть пишет в конференции очень редко.

  • Главная
  • Новости
  • Новинки
  • Скрипты
  • Форум
  • Ссылки
  • О сайте




  • Emanual.ru – это сайт, посвящённый всем значимым событиям в IT-индустрии: новейшие разработки, уникальные методы и горячие новости! Тонны информации, полезной как для обычных пользователей, так и для самых продвинутых программистов! Интересные обсуждения на актуальные темы и огромная аудитория, которая может быть интересна широкому кругу рекламодателей. У нас вы узнаете всё о компьютерах, базах данных, операционных системах, сетях, инфраструктурах, связях и программированию на популярных языках!
     Copyright © 2001-2024
    Реклама на сайте