blog.lexa.ru
Количество дискуссий "о статистике" в которых я тут, сдуру, участвую, начинает меня нервировать. Хочу записать основные тезисы, дабы потом просто давать ссылку, а не писать одно и то же десять раз.
Для создания хоть какой-то конструктивной атмосферы в обсуждении, вынужден сообщить:
В качестве обоснования гауссианы в подавляющем большинстве дискуссий поминается "Центральная Предельная Теорема", исходя из которой эта гауссиана и обязана получаться.
Центральная Предельная Теорема в классическом выражении говорит нам (вот прямо по википедии):
Но
Отмечу, что если бы идея о гауссиане соблюдалась бы на практике, то всеобщие выборы были бы не нужны, было бы вполне достаточно нескольких сотен участков, причем вовсе не обязательно было бы их распределять по стране.
// Дальше — blog.lexa.ru
Израильские выборы:
(первоисточник:
meast_ru: Статистический анализ результатов израильских выборов 2009 года )
Еще раз к вопросу о "гребёнке Чурова"
Все видели эту гребенку (пики на кратных процентах: 50, 60, 75 и так далее), что якобы является свидетельством накруток за ЕР.
Многие, я надеюсь, читали и о другом объяснении, которое заключается в целочисленной арифметике: 50% голосов ровно дадут исходы 7 из 14, 8 из 16, 9 из 18 и так далее по всем размерам участков. И для участка с 8-ю явившимися избирателями возможны исходы с шагом 12.5% и никакие иные. А 51% ровно - получается куда меньшим числом способов. Аналогично 60% (3/5) будут возникать чаще, чем 59 или 61 (или 59.9 и 60.1 если взять бины помельче).
Понятно, что рассуждая таким образом нельзя отличить вброс (ровно на 50%, "ну давайте парочку добросим, а то у нас 49.9") от математических эффектов. Потому что и 50% и 60% - это круглые цифры, которые приятны не только целочисленной арифметике, но и избиркому.
По счастью, есть исключения: 2/3 (66.67%) и 7/8 (87.5%) - цифры не круглые, избиркомам неинтересные, то есть пики там будут именно за счет целочисленных эффектов.
...
Как видим, пик на 2/3 имеется, причем он ровно на 2/3 (66.7), избиркомы тянули бы до 67%, как мне кажется. Пик на 65% тоже есть, но он меньше по величине, чем на 2/3.
Вывод: как минимум частично, пики на круглых дробях (1/2, 3/5, 2/3, 3/4, 4/5) объясняются целочисленной арифметикой. Пик на 7/8 (87.5%) совсем невыразительный (участков мало), но тоже имеется.
Update: Как нам подсказывают в комментариях,
гребенка есть и для КПРФ на 20% (1/5) и на 25% (1/4) и для других партий - тоже. ПГ на том графике - просто случайная величина, так ведь тоже. Кругом враги!
Update2: продолжение про гребенку Чурова - в следующем посте.
blog.lexa.ru
После моего предыдущего разоблачения гребенок Чурова армянское радио спрашивают мне пишут, по смыслу примерно такое:
Отвечаем:
I. Я, собственно, ловил именно пик на 2/3 (66.66(6)%), как имеющий (скорее всего) естественное происхождение, потому и взял такой бин.
При ширине бина гистограммы в 0.5% поймать пик на 66.7% очень трудно, ибо и сам пик на 66.7 и провалы перед ним и после него на 66.5, 66.6, 66.8 и 66.9 попадут в один бин гистограммы и взаимоуничтожатся. Потому то у открывателей гребенки и не получилось пика на 66.7.
// Дальше — blog.lexa.ru
Как мне кажется, тема закрыта совсем, никаким "свидетельством фальсификаций" эта гребенка не является, это всего-лишь артефакт обработки данных.
Он меня почти убедил. Да, действительно очень похоже, что артефакты дискретности имеют место.
Сильный аргумент насчёт 2/3 и пр. обыкновенных дробей, не являющихся "красивыми" процентами.
Может быть, помозговав, можно оценить и долю возможных фальсификаций на пиках - сколько от артефакта, сколько от пририсовки.
И еще о гребёнке отдельно:
О Нумерологии - продолжение | blog.lexa.ru Мораль
Тему с "гребенкой Чурова" как "НЕОПРОВЕРЖИМЫМ СВИДЕТЕЛЬСТВОМ ФАЛЬСИФИКАЦИЙ" я предлагаю считать закрытой как минимум для 50% пика. Да, там есть пики дальше (60, 75), но я надеюсь, что их обработают без меня тем же способом.
И если высоченный пик на 50% исчез без следа после аккуратной обработки, то скорее всего и менее высокие пики на 60, 75 и т.п. окажутся или микроскопическими, или вовсе отсутствующими.Обработчикам данных с выборов надлежит быть аккуратнее. Выборы - штука принципиально целочисленная и неучет этого обстоятельства может больно укусить.
Update: прислали ссылку: если зафильтровать мелкие участки за дробность и нарисовать правильно бины, то остаются пики на 75 и 95% вот этот график. Цифра 200 по оси Х, насколько я понял, это не проценты, а номер бина для перехода к процентам надо на два поделить. Там же есть пики помельче, на 70, 65 и, отчего-то, 52%, но они разумные. А на 75% и 95% - да, похоже креативно подливали (что, впрочем, мы и так знаем про Чечню и про всякий Кавказ, где 75+-капелька - очень часты).