Статистика
Статья на тему «Математика за 20 уроков»
Раздел 1. Пример со стрелками (00:00)
Два стрелка стреляют по цели (см. рис. 1). Каждый из них выстрелил по 10 раз. Кто из стрелков точнее стреляет? Понятно, что стрелок Б относительно профессиональнее, чем стрелок А. Но ведь результаты могут быть и более плотными? Нужно ввести такой параметр, который бы характеризовал разброс значений случайной величины.
Рис. 1. Два стрелка стреляют по мишеням
В математике таким инструментом является дисперсия. С помощью неё можно посчитать этот разброс и, в частности, определить, кто из стрелков более меткий.
Раздел 2. Среднее значение (математическое ожидание) (00:53)
Перед дисперсией обычно вводят понятие среднего значения (или математического ожидания).

Если говорить о среднем, то оно может вводить в заблуждение. Например, в рассмотренном примере искусно стреляли оба стрелка. Другой пример: если я один раз зашёл в третий подъезд, а другой раз – в первый, то в среднем я захожу во второй подъезд.

Есть также известное выражение, «средняя температура по больнице», когда у одного пациента температура 40°C, у другого – комнатная, а в среднем у них у обоих 36°C.

Можно также привести социальный пример: если один ест мясо, а другой капусту, то в среднем оба едят голубец. Правда, с точки зрения математики в этом рассуждении кроется ошибка: среднее – это общая сумма, делённая на общее количество. Поэтому правильнее сказать, что в среднем оба едят по полголубца. Кроме того, капусты можно съесть много, а мяса – чуть-чуть, и среднее значение получится совсем другим.
Таким образом, среднее – это такая первичная характеристика (фильтр грубой очистки), которая позволяет анализировать некоторые явные ситуации.
Например, на рис. 2 явно видно, что стрелок А стреляет хуже, чем стрелок Б. А вот по рис. 3 такой однозначный вывод сразу сделать нельзя.
Рис. 2. Стрелок А стреляет явно хуже, чем Б
Рис. 3. Нельзя сразу сказать, кто из стрелков точнее
Дело в том, что можно посчитать среднее для обоих стрелков – получится 10 в обоих случаях. Значит, нужна другая характеристика для определения точности (мы уже её называли – дисперсия).

Аналогично можно говорить о распределении массы. Два примера – гиря и гантель (см. рис. 4). Массы одинаковые, а их распределение разное.
Рис. 4. Разное распределение массы
Говоря о среднем, можно также привести пример центра тяжести бублика. Фактически он есть, но с ним ничего сделать нельзя (см. рис. 5). Нельзя «схватить» бублик за центр тяжести.
Рис. 5. Центр тяжести разных тел
Раздел 3. Дисперсия (03:23)
Для характеристики таких распределённых вещей недостаточно одного параметра (среднего значения). Нужна ещё одна – дисперсия. Если мы для каждого выстрела возьмём его расстояние от центра, возведём в квадрат и все сложим, то это и будет характеристикой:
В предельной характеристике видно, на сколько второй стрелок точнее, чем первый (см. рис. 6).
Рис. 6. Дисперсия выстрелов стрелков
Раздел 4. Задача статистики (03:52)
Статистика работает с характеристиками больших объёмов данных. По одной мишени, как мы сейчас рассуждаем, очень тяжело сделать вывод о том, как они стреляют. Потому что результаты могли быть случайными: мог быть сбит прицел и т. д. Обычно для того, чтобы сделать какой-то вывод, исследуют большой объём данных. Т. е. 5 выстрелов явно недостаточно, чтобы понять, как человек стреляет. Нужно 100, 1000 и т. д., в зависимости от задачи.
Задача статистики – обработать большой массив данных и свести этот массив к одной-двум-трём характеристикам, по которым можно сделать какие-то выводы.
Рассмотрим такой пример. Предположим, что мы измеряем размер обуви у группы людей. В среднем есть 5 основных размеров. Построим распределение (см. рис. 7). Мы видим, что 10 человек имеют размер 41, 20 человек имеют размер 42 и т. д. С этими обобщёнными данными уже можно работать.

Для больших массивов измерений, для большой выборки мы уже можем применять различные вероятностные законы.
Рис. 7. Распределение размеров обуви
Раздел 5. Статистика и теория вероятности (05:06)
Можно ли автоматизировать учителя и насколько? Что делает учитель? Он рассказывает и отвечает на вопросы. Оказывается, что 100 человек по теореме Байесса или Пифагора на 90% зададут те же самые вопросы, что и 100000 человек. Конечно, можно придумать вопрос типа: «Какое отношение теорема Пифагора имеет к варке пельменей?», но все подобные вопросы войдут в те самые несколько процентов. Поэтому на основании 100 первых вопросов учителя можно автоматизировать так, что вы будете слушать лекцию по теореме Пифагора, потом скажете: «А у меня возник вопрос». Вам предложат все вопросы, которые уже задавались, и 90% детей найдут тот, который был уже задан до этого.

Сколько должно быть станций скорой помощи? Сколько должно их быть в городе на определённое количество людей, сколько должно быть врачей и т. д.? Казалось бы, для каждого человека перелом ноги – это случайная вещь. Но в среднем по городу каждый день одно и то же количество человек ломает ногу (так называемый закон больших чисел). Данные показатели зависят от погоды, но если ожидается гололёд, то заранее можно оценить, сколько людей сломает ногу в такой день.
Вывод: на большой выборке для каждого событие может быть случайным, но для всех вместе оно закономерно. Это даёт возможность нам жить вместе. Поэтому выгодно жить в большом городе.
К примеру, я только сегодня купил определённое мороженое, которое раньше не покупал. Но в среднем у мороженщицы покупают одно и то же количество, она знает, сколько мороженого и какого вида взять утром на складе. Хотя я, казалось бы, совершенно случайно для себя решил сегодня купить это мороженое.

Многие могут задаваться таким вопросом: как определяются нормативы по физкультуре? Почему учительница знает, что если я прыгну, например, 2,5 м, то это 5? По такому же принципу. Результаты замеряли на каких-то больших количествах учеников, а далее обобщали полученные результаты.
Раздел 6. Статистика и реальная жизнь (08:08)
Статистика – раздел математики, который прокладывает «мостик» от случайного к определённому: на большом количестве случайное становится определённым.
В больших городах жить удобнее, потому что в каждом магазине известно, какое количество определённого товара заказать. Вероятность того, что вы придёте в аптеку, а там нет нужного лекарства, даже довольно редкого, мала. Так как потребителей «редкого» в большом городе много. И почти наверняка в какой-то аптеке вы все же найдёте необходимое лекарство.

Тем, кто увлекается компьютерными играми, будет интересно, как работают, например, футбольные симуляторы. Ведь компьютер не может предсказать, куда я нажму сейчас, вправо или влево, как он играет против меня? Но принцип обучения, а все эти системы обучающиеся, состоит в том, что система запоминает, как сыграл тот или иной игрок. Идея та же: машина играет с первыми 1000 тестировщиками (назовём их так), запоминает, как они себя ведут, и дальше уже может в 95% случаев предсказать, как будет себя вести тот или иной игрок из миллионов пользователей.

Статистика – это вероятностная наука, но всё же это переход от вероятности к определённости, к детерминированности, от модели к жизни, где нужно принимать какие-то решения: сколько строить больниц, ресторанов, столовых и т. д.
Раздел 7. Заключение (10:20)
Мы хотели показать переход от жизни к теории вероятности, к той начальной фазе этой науки, которая изучается в школе. Поговорили о том, что такое вероятность, как её правильно использовать. Рассмотрели пример страхования и обсудили, почему не надо расстраиваться, если мы принимаем неверные решения. Потому что важен результат не в конкретной ситуации, а в среднем. Также показали, где мы можем ошибиться, хотя интуиция подсказывает иначе (парадокс Монти Холла). Обсудили вопрос принятия решений. Важно понимать, как теория вероятности связана со статистикой и чем они отличаются. Поговорили о законе больших чисел, и о том, что определённость, в которой мы живём, основана преимущественно на этом законе. Например, узнали, что можно вывести стандартные ответы на вопросы на основании опроса 1000 учеников, и они будут применимы также для миллиона учеников.

Другие материалы