?

Log in

No account? Create an account
Статистический анализ результатов израильских выборов 2009 года - levrrr [entries|archive|friends|userinfo]
levrrr

[ userinfo | livejournal userinfo ]
[ archive | journal archive ]

Статистический анализ результатов израильских выборов 2009 года [Dec. 13th, 2011|08:09 pm]
levrrr
Результаты голосования по разным избирательным участкам (קלפי) на выборах в Кнессет 2009 года дают материал для проведения статистического анализа, аналогичного тому, который был проведен по данным недавних российских выборов и выявил в них аномалии, вызывающие серьезные подозрения в фальсификации выборов.

Заранее предупреждаю, что никаких сенсаций по Израилю не будет, хотя некоторые графики весьма любопытны и могут быть интересны разбирающимся в статистике. Я исходил из предположения, что серьезных нарушений при подсчёте голосов в Израиле не было. Наблюдатели сообщали об отдельных случаях “вливания” в харедимном и арабском секторах. Такие вливания хотя и могли добавить по одному мандату (скорее всего меньше) соответствующим партиям, но в целом по стране их влияние ничтожно.

Сравнение статистических аномалий в данных израильских выборов (в моем предположении с незначительным количеством фальсификаций) и российских (о серьезных фальсификациях в которых имеются красочные свидетельства) позволяет лучше понять, какие аномалии однозначно указывают на фальсификацию, а какие нет.



Итак, в Израиле 9264 избирательных участков (в 10 раз меньше чем в России).

На графике 1 изображена гистограмма распределения числа избирательных участков по различным процентам голосов, полученных ведущими партиями. Видно, что распределения не очень сильно похожи на нормальные. Все они имеют два максимума. Первый - в районе 0%, отражающий наличие большого числа избирательных участков, в которых партия совсем не пользуется популярностью. Это мусульманские избирательные участки для Ликуда и НДИ; поселения для Кадимы. Больше всего не любят харедимные партии.

1.



Пока что - ничего удивительного. Интереснее со вторым максимумом.

У харедимных партий есть локальный максимум в районе 100%, но этот максимум весьма незначителен. Я специально объединил две харедимные партии вместе, чтобы максимум стал хоть сколько-нибудь заметным. У Кадимы второй максимум очень сильно размазан. У меня нет чёткого объяснения этому факту, но, по-видимому, чем более разнородна публика, голосующая за партию, тем меньше распределение похоже на нормальное. Чтобы как-то подтвердить это, рассмотрим гистограмму, аналогичную приведенной выше, но не для отдельных партий, а для партийных блоков: право-религиозного и лево-арабского. Распределение приведено на графике 2. Здесь уже вообще никакой связи с гауссовым (нормальным) распределением не видно.

2.



Для сравнения приведу аналогичную гистограмму для российских выборов (график 3). Распределение для партии Яблоко очень напоминает ШАС; ЛДПР и СР - НДИ, КПРФ - Ликуд, а ЕР – Кадиму :-).

3.



Единственным отличием (на зато каким !) является наличие для ЕР многочисленных локальных максимумов на процентах кратных 5, - явный признак фальсификации. Никакими естественными причинами любовь русских избирателей к круглым числам объяснить нельзя (точность построения графика - бин = 0.5). Сама же форма распределения, включая неожиданный рост числа избирательных участков в области свыше 90% голосов, поданных за ЕР, вряд ли дают основание для однозначного заключения о фальсификации выборов.

Рассмотрим теперь зависимость между общим процентом проголосовавших на участке избирателей (“явка”) и процентом голосов, поданных за партию (графики 4-8). Каждая точка на этих графиках изображает один избирательный участок: по горизонтали - процент явки на участке, по вертикали - процент голосов, поданных за партию на участке.

4.


5.


6.


7.


8.


Что мы видим. Явка колеблется от 40% до 90%. Узкая полоска внизу, с 0-7% проголосовавших за конкретную партию, соответствует первому максимуму на графике 1 (голосование в арабских населенных пунктах за сионистские партии и в поселениях за левые). Если же рассматривать оставшуюся часть, то для Ликуда процент набранных голосов не сильно зависит от явки (корреляция 0.01). Интуитивно так и должно быть. Процент проголосовавших за НДИ падает с ростом явки (корреляция -0.28), а процент проголосовавших за Кадиму - растёт (корреляция +0.30). Эффект роста процента голосов с ростом явки становится особенно наглядным, если объединить вместе голоса, поданные за три левые партии. Для голосующих за харедимные партии получается два кластера. Один большой - внизу, имеет форму, аналогичную НДИ: падение процента голосов с ростом явки. Второй маленький - вверху справа, соответствующий близкой к 100% явке и близкому к 100% голосованию. Форма распределения для Кадимы похожа на аналогичное распределение для ЕР. Так как отсутствуют свидетельства наблюдателей о серьезных нарушениях при голосовании на участках, где Кадима и левые партии получили высокий процент голосов, то я бы не стал однозначно связывать форму распределения с фальсификацией выборов путём вбросов. Избиратели левых партий живут в кибуцах, а также компактно проживают в престижных районах больших городов. И те и другие имеют традицию (кибуцы) или высокую мотивацию (элиты), чтобы принять участие в голосовании.

Рассмотрим теперь гистограмму явок избирателей (график 9). Для Израиля он имеет типичную колоколообразную форму

9.



Вопреки распространенному мнению о голосовании в харедимном и арабском секторах, только в 7 из 9264 (менее 0.1%) избирательных участков процент проголосовавших превысил 95%. В России же процент избирательных участков с близким к 100%-му голосованию - около 10% (см. график 10, на котором, правда, представлены данные выборов 2007 года). Это ещё один явный признак фальсификации российских выборов. Обратите внимание на локальные пики явки при значениях 60%, 70%, 80% 90%

10.




Update:
1. Корреляция между процентом проголосовавших за партию и явкой имеется и в других странах, в которых наличие серьезных фальсификаций не предполагается. Здесь есть данные про Великобританию, и здесь тоже, а здесь про Германию. Гипотеза о нормальности (или, по-крайней мере, колоколообразности) распределения голосов, поданных за партию в этих странах также не подтверждается. Так что, такие аномалии не являются статистическим обоснованием фальсификации выборов.

2. Резкий пик на 50% в распределении поданных голосов (график 3) является артефактом целочисленного распределения. Грубое объяснение такое. Если брать дроби m/n, где m - случайное число проголосовавших за партию, а n - случайная же явка (m<=n), то соотношение 1/2 будет встречаться чаще чем, скажем, 138/275, так как 1/2 может получиться из 2/4 и из 125/250 и т. д., а у 138/275 - гораздо меньше возможностей. Пики, меньшие чем для 1/2, могут появляться и для 1/3 и 2/3; ещё меньшие для 1/4 и 3/4 и т. д. Гистограмма потом сглаживает эти различия и если брать шаг гистограммы больше 1%, то артефактных пиков не видно. При шаге гистограммы в 0.1% (как на графике 3) эффект целочисленности может быть заметен. Так как на графиках 3 и 10 нет заметных пиков в области 66.7% (2/3), то можно считать, что этот красивый сам по себе эффект объясняет выброс в районе 50%, возможно как-то в области 75%, но значительные выбросы на 65%, 70%, 85% и 95% он объяснить не может

LinkReply

Comments:
[User Picture]From: mitiaf
2011-12-13 06:17 pm (UTC)

только в 7 из 9264

Чурова на них нет :-)
(Reply) (Thread)
[User Picture]From: levrrr
2011-12-13 06:27 pm (UTC)

Re: только в 7 из 9264

Или наши чуровы знакомы не только с числами кратными 5, но также с иррациональными и даже мнимыми числами :-)
(Reply) (Parent) (Thread)
[User Picture]From: davidaidelman
2011-12-13 07:03 pm (UTC)
Спасибо
Интересно.
Утащу на фейсбук

Edited at 2011-12-13 07:03 pm (UTC)
(Reply) (Thread)
[User Picture]From: michk
2011-12-13 08:37 pm (UTC)
Интересно, спасибо
(Reply) (Thread)
[User Picture]From: kobak
2011-12-13 09:02 pm (UTC)
Очень интересно, спасибо! Главный вопрос, по-моему, заключается в том, можно ли объяснить корреляцию между явкой и голосами за Кадиму (и два пика у Кадимы на гистограмму) наличием нескольких кластеров внутри Израиля? То есть, например, если на арабских участках явка такая-то и голосуют так-то, а на еврейских участках явка другая и голосуют по-другому, то на двумерной гистограмме будет два кластера и появится корреляция -- не настоящая, а "артефактная". Есть две попытка защитить ЕР от обвинений во вбросе: утверждать, что в России есть разница между регионами или разница между городом и деревней. И разница действительно есть! Но если смотреть на отдельные регионы, отдельно на город и деревню, то часто (но не везде) мы все равно видим сильнейшие корреляции, которые остается уже только списать на подтасовки (в отстутствии хороших гипотез о другой кластеризации).
(Reply) (Thread)
[User Picture]From: levrrr
2011-12-13 09:10 pm (UTC)
У меня есть 2 возражения к сделанным Вами статистическим выводам.
1. Распределение избирательных участков (как функция поданных за партию голосов) должно иметь нормальный или, по крайней мере, колоколообразный вид.
Даже при отсутствии очевидных кластеров типа город-деревня, регионы, арабы-евреи - это не так, что видно из распределения для Кадимы и особенно для голосов, поданных за партийные блоки. Для Израиля влияние арабского кластера проявляется в пиках распределения в районе 0% и 100%, но никак не может объяснить, скажем, большое плато в районе 15%-40% в распределении для Кадимы.

2. Негоризонтальное расположение scatter-plots или heat maps для пар (явка, процент проголосовавших за партию). Для меня самого было большой неожиданностью, что объединение трёх левых израильских партий (без арабских партий) даст летящую под углом вниз комету, сходную с той, что Вы построили для ЕР (учтите, что у нас точек - избирательных участков в 10 раз меньше чем у Вас). Влиянием арабского кластера я это объяснить не могу. Возможно, это объясняется наличием мотивированного к голосованию кластера людей, которые живут в дорогих районах по всему Израилю (это могут быть престижные районы городов, в которых жители менее престижных районов голосуют по-другому) и имеют сильную тенденцию голосовать за левые партии. Так как по данным результатов выборов я такие районы выделить не могу, то и проверить свою гипотезу тоже не могу. В России, возможно, наличие сильной корреляции между явкой и голосованием за ЕР объясняется как раз не наличием какого-то специального кластера, который нельзя выявить простым разбиением на город-деревню или на регионы, а исключительно или в очень большой степени фальсификациями. Я хотел отметить лишь то, что картинки с кометами не обязательно являются статистическим доказательством фальсификации результатов.
(Reply) (Parent) (Thread) (Expand)
[User Picture]From: b_n_e
2011-12-14 07:09 am (UTC)

У меня впечатление, что стоит

У меня впечатление, что стоит попробовать смеси Бета и нормальных
Бета естественны при наличии границ (в нашем случае 0 и 1)
В российском случае похоже стоит ввести два бета-распределения - одно наглое, а второе с оглядкой
В Вашем случае интереснее было бы поработать и с полной многомерной матрицей данных (дифференцируя различия цветом и формой)
(Reply) (Thread)
[User Picture]From: herasim
2011-12-16 11:20 am (UTC)
"значительные выбросы на 65%, 70%, 85% и 95% он объяснить не может"

Может: http://anpaza.livejournal.com/21894.html#cutid1

(Reply) (Thread)
[User Picture]From: levrrr
2011-12-16 11:40 am (UTC)
Наиболее сильным должен быть выброс в районе 1/2 - он виден хорошо. Затем - 1/3 и 2/3, что соответствует 33.3 и 66.7%. (заметьте 66.7, а не 65) Этих выбросов уже не видно, стало быть не должно быть видно и более мелких эффектов, например, на 85% -> 17/20.
Выбросы, являющиеся следствием целочисленности эксперимента должны быть заметны и справа и слева от 50%, но слева они почему-то незаметны.
(Reply) (Parent) (Thread)
[User Picture]From: ben_tal
2011-12-22 07:11 am (UTC)
да, локальные пики на кратных процентах явки -- явный признак... интересно, спасибо.
(Reply) (Thread)
[User Picture]From: idelsong
2011-12-22 09:11 am (UTC)
На графиках 6 и 7, если приглядеться, видны 2 плохо разделившихся кластера: один со средней явкой ~60% и ~20% голосов за левые партии (~15% за Кадиму), а второй - с явкой ~75% и ~65% за левые партии (~40% за Кадиму).
(Reply) (Thread)
[User Picture]From: levrrr
2011-12-22 01:29 pm (UTC)
Возможно это так и есть, тем более что небольшие пики у Кадимы в районе 15% и 40% можно при желании разглядеть и на графике 1. Для меня было важно то, что существенная корреляция процента голосования за партию и явки не является статистическим доказательством фальсификаций.
(Reply) (Parent) (Thread) (Expand)
[User Picture]From: corbulon
2012-06-04 06:51 am (UTC)
Возможно вам будет интересно посмотреть на стат. анализ распределения последних цифр, который я сделал:
http://corbulon.livejournal.com/124878.html
(Reply) (Thread)
[User Picture]From: levrrr
2012-06-04 10:55 pm (UTC)
Спасибо, интересно
(Reply) (Parent) (Thread)
[User Picture]From: maxvl
2012-06-04 01:50 pm (UTC)
1. Причем здесь Израиль и другие страны? Зачем брать за эталон непонятно что, если есть теория вероятностей?
2. Никакого ГАУССа и не должно быть. Должно быть логнормальное распределение.
3. Пики на круглых процентах не означают, что сглаживанием мы уберём приписки. Эти пики говорят лишь о наличии придуманных ПРОЦЕНТОВ, т.е. о самом грубом методе фальсификаций, который очень редко используется, ибо обычно придумывают круглое количество, а не процент.
4. Даже после того как мы уерём пики и на круглых процентах голосов и на самих круглых голосах, всё равно останутся приписки на не круглых числах как в Кабардино-Балкарии на думских за ЕдРо проголосовали около 79%. Налицо явная приписка из головы, но без круглых процентов и чисел.
5. Кроме приписок были использованы и другие фальсификации (карусели, фальшивые УИК, и т.д.) , которые математически не ловятся. Особенно массово использовались 4 марта.
(Reply) (Thread)
[User Picture]From: nonenoun
2012-06-11 06:03 am (UTC)
2. Логнормального распределения быть не должно. Автор, который сделал данное утверждение, ошибся (не разобрался в том, на что ссылается).
5. Данные фальсификации тоже ловятся - карусели и т.п. повышают явку избирателей ЕР, приводят к повышенной дисперсии явки/результата в районе, участки начинают выделяться на фоне соседних. Равномерно поднять результат во всём районе (или городе) затруднительно. Самый эффективный метод обнаружения подобных фальсификаций - сравнение с результатами на прошлых выборах. Разумеется, речь об обнаружении серьёзных фальсификаций, т.е. меняющих результат на 5% и выше.
(Reply) (Parent) (Thread) (Expand)
[User Picture]From: nonenoun
2012-06-11 06:12 am (UTC)
Вы не могли бы построить гистограмму явки, где по оси ординат было бы отложено число голосов. И ещё было бы интересно узнать, что за участки находятся в левом хвосте явки (до 45%). Т.е. как эти участки можно охарактеризовать - например, там больше городских (крупных) участков, там преобладает какая-либо национальность/религия и т.п.
(Reply) (Thread)
[User Picture]From: levrrr
2012-06-11 07:32 pm (UTC)
Все необходимые Вам гистограммы вы можете построить воспользовавшись исходными данными результатов голосования.
Перевод названий столбцов (располагаются справа-налево !)
А - Населенный пункт
B - Код населенного пункта
С - Номер избирательного участка
D - Число зарегистрированных избирателей
Е - Общее число опущенных бюллетений
F - Недействительные бюллетени
G - Защитанные бюллетени

Остальные графы (H-AN)- голоса, полученные различными партиями

Что касается левого хвоста явки, то совсем низкие проценты (0-10%) относятся к ультра-релегиозным еврейским кварталам и отдельным арабским кварталам. Их объединяет то, что они не признают легитимность государства и в выборах не участвуют. В диапазоне 10-45% я ничего интересного не обнаружил: ничем не примечательные участки чаще всего в больших городах
(Reply) (Parent) (Thread) (Expand)
[User Picture]From: nonenoun
2012-06-13 03:32 am (UTC)
На участке 5089 (строка в Excel) явка 142% получилась (почти 146) :) Избирателей 198, опущено бюллетеней - 282. Это ошибка или особенность изб. системы?

Edited at 2012-06-13 03:34 am (UTC)
(Reply) (Thread)
[User Picture]From: levrrr
2012-06-13 07:34 am (UTC)
Это, по-видимому, ошибка при вводе данных. Я на неё тоже обратил внимание, но вроде, это единственный такой случай. В Израиле нет понятия "открепительный талон": голосовать можно только по официальному месту жительства.
(Reply) (Parent) (Thread) (Expand)