Автор: Пользователь скрыл имя, 24 Марта 2011 в 20:53, сочинение
Из курса по выборочному методу мы знаем, что при применении выборочного наблюдения возникают несколько основных задач, одной из которых является определение объема выборки, необходимого для получения требуемой точности результатов с заданной вероятностью.
«Определение максимального объема выборки»
Из курса по выборочному методу мы знаем, что при применении выборочного наблюдения возникают несколько основных задач, одной из которых является определение объема выборки, необходимого для получения требуемой точности результатов с заданной вероятностью. Что такое объем выборки? (sample size) — это количество единиц совокупности, которые нужно изучить. Определение объема выборки представляет собой сложный процесс, затрагивающий анализ ряда качественных и количественных факторов. Назовем наиболее значимые качественные факторы, определяющие объем выборки: важность принимаемого решения, характер исследования, количество переменных, характер анализа, объем выборки в аналогичных исследованиях, коэффициент охвата, коэффициент завершенности, а также ограниченность ресурсов.
Как правило, для принятия важных решений необходима детальная, максимально точная информация. Ее получение предусматривает создание больших выборок, но при увеличении объема выборки возрастает и стоимость получения каждой дополнительной единицы информации. Большой объем выборки необходим при проведении углубленного анализа данных с использованием разнообразных методов многомерного статистического анализа. Это же касается данных, которые анализируются с особой точностью. Таким образом, для анализа данных на уровне сегмента или подгруппы потребуется больший объем выборки, чем для анализа выборки в целом.
Так как же определить максимальный объем выборки? Хотелось бы привести пример задачи(область программирования), который мне подсказал мой молодой человек. Задача состоит в том, чтобы оценить доли рекурсивных( т.е. вычисляемых) серверов среди всех серверов, поддерживающих домены второго уровня, методом полного сканирования (просмотр всех уникальных имен DNS серверов в NS записях зоны RU) занимает около 10 часов (при числе серверов порядка 27000). При ожидании увеличения числа доменов в зоне RU до 300000 (такое количество может быть достигнуто в течение ближайших 2-3 лет при текущей тенденции прироста числа регистрируемых доменов) оценивать долю рекурсивных серверов на ежедневной основе станет затруднительно, т.к. результат можно будет получить только к концу дня.
Чтобы было понятно полностью ясно, что такое домены 1-го и 2-го уровней (не все владеют программной терминологией по компьютерам) объясню. Вот адрес: http://konstantinfirst.com
http:// – это универсальная приставка, ее не рассматриваем, тогда остается: konstantinfirst.com - это и есть домен. В данном случае – домен второго уровня. Доменом первого уровня (доменной зоной) является окончание после точки. Он определяет принадлежность всех доменов второго и более низкого уровня, которые расположены в этой доменной зоне, к стране (.ru – Россия, .ua – Украина, .kz – Казахстан и т.д.), либо к роду деятельности владельца домена (.com – трактуется двояко, как “обычные” (common) домены и как коммерческие организации, .gov – госучреждения, .edu – образовательные учреждения и т.д.).
Итак, возможно два варианта решения задачи: полное параллельное сканирование и выборочное оценивание. Выбираем второй способ, т.к. в конечном счете, при увеличении числа серверов он более универсален, т.к. предъявляет более "мягкие" требования к технической базе, на которой может быть реализована система оценивания.
Порядок решения задачи .Для оценки доли признака по случайной безвозвратной выборке из генеральной совокупности при небольших n и небольшом объеме генеральной совокупности применяется формула:
(1) p = m/n; где m - это число испытаний с выявленным признаком, а n - размер выборки
При этом максимальный объем выборки nmax оценивается по формуле [1]:
(2) Nmax = t2N/(1+4e2(N-1)), где t - значение статистики Стьюдента, N - объем генеральной совокупности, e - ошибка оценки доли признака.
В нашем случае размер генеральной совокупности - 27000 серверов. Для таких объемов больше подходит формула:
(3) Nmax = z2/4e2, где z - это квантиль распределения Лапласа, e - ошибка оценки доли признака.
Ошибка |
Nmax |
0,1 | 100 |
0,05 | 400 |
0,025 | 1600 |
0,015 | 4445 |
0,01 | 10000 |
Будем рассчитывать nmax для разных ошибок, при размере генеральной совокупности - 27000 и уровне значимости 0.02:
Таблица1. Размер максимального объема случайной выборки для оценки доли рекурсивных серверов в зоне RU
В нашем
случае z примерно равна 2, следовательно,
объем выборки обратно
Информация о работе Определение максимального объема выборки