|
5.2. Быстрее!Обсудим задачу прогнозирования результата спортсмена на соревнованиях при помощи результатов, показанных им в процессе подготовки. Заметим, что любое предсказанное значение какого-либо параметра, вычисленное на основе ограниченного числа опытов, всегда, конечно, будет содержать элемент случайности, поэтому это значение называют оценкой соответствующего параметра. Так, оценку времени t, которое показывает спринтер на стометровке, будем обозначать . Рассмотрим сначала более общую задачу. Пусть имеется случайная величина X, закон распределения которой содержит неизвестный параметр t (обычно речь идет о математическом ожидании и дисперсии). Требуется найти подходящую оценку X значения этого параметра по результатам n независимых опытов, в каждом из которых случайная величина X принимает соответственно значения x1, ..., xn. Эти значения можно рассматривать как n "экземпляров" случайной величины X. Каждая из случайных величин Xt распределена по тому же закону, что и величина X. Вполне очевидно, что оценка является некоторой функцией величин x1, ..., xn и, следовательно, сама является случайной величиной. Предъявим к оценке параметра t ряд требований, которым она должна удовлетворять, чтобы быть, в определенном смысле, "хорошей" оценкой. Во-первых, естественно потребовать, чтобы оценка при увеличении числа опытов приближалась (сходилась по вероятности) к значению параметра t. Оценка, обладающая таким свойством, называется состоятельной. Во-вторых, желательно, чтобы, пользуясь оценкой вместо t, мы не совершали систематической ошибки, т. е. чтобы для математического ожидания оценки выполнялось равенство M [] = t. Оценка, удовлетворяющая этому условию, называется несмещенной. Наконец, потребуем, чтобы выбранная оценка обладала по сравнению с другими наименьшей дисперсией; такая оценка называется эффективной. На практике не всегда удается удовлетворить всем этим требованиям одновременно. Например, может оказаться, что, хотя эффективная оценка и существует, формулы для ее вычисления оказываются слишком сложными, и приходится пользоваться другой оценкой, с несколько большей дисперсией. В качестве оценки математического ожидания mx естественно выбрать среднее арифметическое полученных в опыте значений случайной величины X, т. е. = m*x = 1/n (x1 + ... + xn). В курсе теории вероятностей показывают, что эта оценка состоятельная и несмещенная, а при некоторых предположениях о виде закона распределения случайной величины X эта оценка оказывается также и эффективной. В качестве оценки дисперсии Dx выбирается величина являющаяся ее состоятельной и несмещенной оценкой. Рассмотренная выше оценка параметра t (в частности, оценки и математического ожидания и дисперсии) выражается одним числом и потому называется точечной. При незначительном объеме статистических данных, т. е. при малом числе n результатов независимых опытов, точечная оценка может существенно отличаться от оцениваемого параметра и приводить зачастую к значительным ошибкам. Поэтому при малых n пользуются так называемой интервальной оценкой. Интервальная оценка определяется двумя числами - концами оценивающего интервала. Отсылая читателя за подробностями к руководствам по теории вероятностей, изложим лишь общие соображения, приводящие к понятию интервальной оценки. Допустим, что для параметра t уже получена несмещенная оценка . Ясно, что оценка тем точнее приближает параметр, чем меньше абсолютная величина разности |t - |. Коль скоро при некотором положительном числе е выполняется неравенство |t - |<ε, то ε естественно принять за меру точности оценки. Следует иметь в виду, однако, что методы математической статистики не позволяют утверждать, что для оценки ε неравенство |t - |<ε выполняется наверняка. Имеет смысл говорить лишь о вероятности P(|t - |<ε), с которой это неравенство выполняется. Вероятность α = P(|t - |<ε), с которой осуществляется неравенство |t - |<ε, называется доверительной вероятностью {надежностью) оценки t с помощью числа . Как правило, доверительную вероятность задают (назначают) заранее. Полагают, например, α равной 0,85, 0,90, 0,999 или иному числу, близкому к единице. Итак, потребуем, чтобы при некотором неизвестном пока значении εα выполнялось требование P(|t - |<εα) = α. Это требование равносильно тому, что P( - εα<t<t + εα) = α. Последнее следует понимать в том смысле, что вероятность попадания точки t в интервал Iα = (t - εα; t + εα) равна α. Заметим, что сам интервал Iα также случаен, так как случайно положение на числовой оси его середины и случайна его длина 2εα, вычисляемая по опытным данным. Интервал Iα называют доверительным интервалом, а его концы - доверительными границами. Доверительный интервал естественно рассматривать как диапазон возможных значений параметра г, совместимых с данными опыта (не противоречащих этим данным). В то же время вероятность выполнения неравенства |t - |>εα, т. е. вероятность того, что точка t не попадает в интервал Iα, составляет 1 - α, и чем ближе α к единице, тем эта вероятность ближе к нулю. Рамки настоящей книги не позволяют обосновать метод определения εα по назначенному α. Поэтому мы ограничимся "рецептурным" изложением. В Допустим, по-прежнему, что проведено n независимых опытов над случайной величиной X и зафиксированы ее значения x1, ..., xn. Для неизвестных числовых характеристик величины X - математического ожидания и дисперсии - находим соответствующие оценки Можно доказать, что для назначенной вероятности α величина εα находится по формуле в которой является функцией, обратной функции Лапласа. Иными словами, является таким значением аргумента, при котором значение функции Лапласа равно Для удобства дальнейших вычислений (в том числе и тех, на которые, быть может, решится читатель) приведем здесь небольшого объема табл. 1 значений функции Таблица 1 Пусть наш спринтер в течение последнего месяца подготовки к соревнованиям 20 раз пробегал стометровку и показал следующие результаты: 10,5; 10,8; 11,2; 10,9; 10,4; 10,6; 10,9; 11,0; 10,3; 10,8; 10,6; 11,3; 10,5; 10,7; 10,8; 10,9; 10,8; 10,7; 10,9; 11,0. Требуется оценить ожидаемый на соревнованиях результат и найти доверительный интервал для доверительной вероятности α = 0,8. Сначала находим статистические значения = 10,78 и = 0,064. Затем по таблице находим Таким образом, Границы доверительного интервала при этом оказываются равными - 0,072 = 10,71 и + 0,072 = 10,85. Таким образом, с вероятностью 0,8 спортсмен покажет результат между 10,71 и 10,85. Если в качестве доверительной вероятности взять α = 0,9, то можно найти, что εα = 0,93 и соответственно с этой вероятностью ожидаемый результат спортсмена будет находиться между 10,52 и 11,06.
|
|
|||
© MATHEMLIB.RU, 2001-2021
При копировании материалов проекта обязательно ставить ссылку на страницу источник: http://mathemlib.ru/ 'Математическая библиотека' |