http://bbs1.agora.media.daum.net/gaia/do/debate/read?bbsId=D115&articleId=2243393&pageIndex=1
로지스틱함수에 의해, 박근혜 득표수를 실제로 추정했습니다. [416]
그루터기추억 (chf****)
주소복사 http://i1.daumcdn.net/img-section/agora2_blue/issue/ln_is_1.gif");">조회 27129 http://i1.daumcdn.net/img-section/agora2_blue/issue/ln_is_1.gif");">13.01.02 02:07즐겨찾기오늘은 ... 로지스틱함수를 가지고서 ... 박근혜 후보의 누적득표수를 실제로 사전에 예측하는 작업을 하겠습니다.
때문에 ... 수학적으로 조금 까다로운 부분이 있지만 ... 어렵게 생각되는 분들은 그냥 넘어가시고 ...
표와 그래프만을 중심으로 살펴보시면 되겠습니다.
제가 지난 번에 ... 광풍제월 님이 올린 1분단위의 누적득표수에 대한 엑셀자료를 가지고 분석작업을 했었습니다.
아래의 구간들을 분석했었데는 ... 이 구간들을 분석하면서 ... 거의 직선처럼 펼쳐져 있기 때문에 ...
구태여 ... 복잡한 로지스틱 함수를 사용할 필요도 없을 것 같이 생각 된다는 ... 그런 말씀을 드렸었습니다.
위 그래프에서 ... 누적득표수 자료가 중간에 끊긴 부분을 제외한 ... A, B, C 세 부분을 나누어서 분석했습니다.
이제 ... 그 분석도구들을 ... 모두 요약해서 정리하면 ... 아래와 같습니다.
분석 결과 ... 실제값 대비 추정치의 오차율은 전 구간에서 모두 다 ... 최대 1.5%이내의 매우 낮은 수준이었으며
추정치와 실제값의 그래프 피팅은 ... 정확히 일치하는 것으로 드러났었습니다.
그리고 이 세 구간에 해당되는 문재인 후보의 누적 득표수는 ... 박근혜 후보와의 매 분당 누적득표수와 ...
얼마나 차이가 나는지를 예측함으로써 ...
실제 개표된 득표수에 의하지 않고서도 ... 얼마든지 문재인 후보의 실제값도 사전 추정과 셋팅이 가능함을 ...
아래와 같은 방법으로 증명해 보였었습니다.
이렇게 해서 추정한 결과 ... 문재인 후보의 누적득표수에 대한 실제값에 대비한 ... 추정치의 오차율도 역시 ...
세 구간에서 모두 다 ... 최대 1.5%이내의 매우 낮은 수준이었고 ...
추정치와 실제값의 그래프 피팅도 ... 앞서 박근혜의 경우처럼 ... 정확히 일치하는 것으로 드러났었습니다.
그리고 이렇게 분석한 ... 이들 세 부분은 ... 전체 SBS 그래프에서 ... 아래와 같은 부분에 해당되었습니다
파란 수직선으로 표시된 ... 양쪽 화살표 사이에 있는 구간으로 ...
시간적으로는 ... 저녁 8시경부터 ~ 밤 11시경 까지의 구간이었습니다.
각 후보별 누적득표수에 대한, 30분 간격의 전체 그래프는 ... 아주 매끄러운 로지스틱 곡선을 나타내고 있지만,
제가 분석한 구간만을 ... 1분 간격의 자료를 가지고 그려본 그래프는 ... 거의 직선의 모습이었습니다.
따라서, 저는 이 구간들을 3 개로 나누어서 ... 로지스틱 함수가 아닌 ... 시간에 대한 2차함수를 이용하여 ...
분석을 시도하였고 ... 이를 통해서 ... 실제값들을 ... 거의 정확하게 추정할 수 있었습니다.
하지만 ... 제가 구간 분석을 시도한 2차함수의 형태로는 ... 위에서 보이는 로지스틱 곡선으로 나타난 ...
전구간의 분석이 불가능 한 것입니다 ... 왜냐하면 로지스틱곡선은 오직 로지스틱 함수로만 추정이 가능하니까요!
그러므로 ... 만약 누군가가 이번 대선의 득표수를 사전에 설계하고 ... 그 수치를 셋팅했다면 ...
다음과 같은 몇 가지 단계로 나누어서 ... 누적득표수를 사전에 예측해서 ... 이를 사용했을 것으로 생각됩니다.
( 첫째 ) 전체 구간에 대한 ... 누적득표수의 변화를 나타내는 그래프를 ... 로지스틱 곡선으로 설계한다.
( 둘째 ) 이를 위해서 SBS에서 발표한 것처럼, 약 30분 단위로 ... 곡선의 형태를 나타내는 값들을 사전 예측한다.
( 셋째 ) 좁게 나누어진 분할 구간에서는 ... 로지스틱함수가 아니라 ... 일반함수로 득표수들을 사전 예측한다.
( 넷째 ) 로지스틱 함수를 ... 전체 구간에 걸쳐 단일 함수로 추정하면 ... 나중에 발각될 염려가 크니까 ...
한 두개의 구간으로 분할하여 ... 각각의 로지스틱 함수값을 별도로 사전에 추정한다.
대략 이런 시나리오로 진행하면 ... 모든 사전 준비작업이 ... 다 완료될 수 있는 것이고 ...
나중에 개표가 진행 되는 날, 정확한 실행 시점만 잡아서 ... 준비된 값들을 셋팅하고 발표하면 끝나는 것입니다.
여기서 보통 로지스틱 함수값을 ... 분할해서 추정할 경우는 ... 대부분 로지스틱 함수의 변화량(미분값)의 부호가
양의 값(+)에서 음의 값(-)로 바뀌는 시점(변곡점)을 기준으로 ... 분리하는 것이 ... 작업하기에 매우 용이합니다.
즉, 아래와 같이 로지스틱 곡선을 ... 두 부분으로 나누어서 ... 아랫부분과 윗부분에 적용할 함수의 형태나 ...
함수의 파라메터를 다르게 설정하고 ... 이를 이용해서 값들을 추정하는 것입니다.
위의 로지스틱곡선 그래프에서 ... 빨간색 수직선을 경계로 ... 앞부분에서는 그 기울기가 점점 증가(+) 하고 ...
뒷 부분에서는 ... 그 기울기가 점점 감소(-) 하는 것을 알 수 있습니다 ... 이곳이 변곡점입니다.
따라서 이 부분을 경계로 ... 각각 별도의 로지스틱함수를 추정하여 ... 사전에 셋팅할 값들을 산출해 낸다면 ...
분석이나 설계 작업이 ... 대단히 용이하게 되는 것입니다.
제가 ... 처음에 SBS의 자료를 가지고 ... 박근혜 후보의 누적득표수 값들이 로지스틱 함수값이라고 했더니 ...
여러 네티즌들이 ... 왜 역산을 통해서 구한 확률을 가지고 ... 로지스틱 함수값이라고 하느냐 ... 라고 하면서 ...
데이터 조작을 통해서 ... 국민들을 대상으로 사기를 치는 것이다라고 ... 비난했었으며 ... 또 어떤 분들은 ...
저를 보고, 이번 대선의 부정선거를 바로 잡으려는 시도에 물타기 하는 ... X맨이라는 ... 소리도 했었습니다.
그래서 제가 ... 광풍제월님의 데이터를 이용해서 ... 앞서 말씀드린 A, B, C 구간에 대한 분석을 시도하여 ...
박근혜 후보와 문재인 후보의 ... 발표된 누적득표수 값들이 ... 얼마든지 사전에 셋팅될 수 있음을 보여주었는데,
이를 보고도 ... 왜 처음에는 로지스틱곡선과 ... 로지스틱 확률을 운운하더니 ...
이제와서 ... 전혀 다른 이차함수를 가지고 ... 분석을 시도 하느냐고 ... 또 다시 비난을 했었습니다.
( 물론 저에 대한 이런 비난에 비해서 ... 저에게 격려와 용기를 주신 분들은 ... 훨씬 더 많이 있었습니다.
지금 이 자리를 빌어서 ... 그런 모든 분들에게 ... 정말로 고맙다는 감사의 인사를 드립니다. 감사합니다. )
그러나 앞서도 말씀드린 것처럼 ... SBS 그래프처럼 ... 30분 간격의 전체적인 그래프는 로지스틱 곡선형태라도 ...
광풍제월님이 올려주신 1분 간격의 자료를 살펴보면 ... 전혀 로지스틱곡선의 형태가 나타나질 않는 것입니다.
그러므로 ... SBS 발표 자료의 전체 구간에 대한 설계는 ... 로지스틱 함수를 이용해서 해야만 되고 ...
이렇게 해서 구한 ... 로지스틱 함수값 추정치를 이용해서 ... 로지스틱 곡선의 변화를 가져오는 ...
( 예를들면 ... 앞서 말씀드린 변곡점 같은 ) ... 그런 중간의 사이 값들로 사용하고 ... 이 수치를 이용해서 ...
1분 간격의 그래프처럼 ... 거의 직선을 나타낼 수 있는 ... 또 다른 함수값들을 ... 추정해야만 되는 것입니다.
따라서 ... 실제로 SBS 발표된 30분 간격의 자료를 만들기 위해서 사용된 ... 로지스틱 함수를 가지고서는 ...
1분 간격의 자료를 만드는 값들을 추정할 수 없으며 ... 추정을 해 보아도 ... 반드시 큰 오차가 발생할 것입니다.
그 동안 저에게 ... 로지스틱 곡선과 로지스틱 확률 얘기만 실컷 떠들어 놓고 ... 막상 다른 짓을 한다고 ...
비판하시는 네티즌들을 위해서 ... 지금부터는 ... 30분 간격으로 만들어진 ... SBS의 자료를 이용하여 ...
앞서 말씀드린 것처럼 ... 로지스틱 곡선을 둘로 분할한 구간 중에서 .... 변곡점 뒷 부분에 해당되는 구간인 ...
밤 10시부터 ... 개표가 끝날 때까지의 구간을 ... 로지스틱 함수로 ... 실제로 추정해 보도록 하겠습니다.
그 이전의 값들은 ... 이미, 앞서 A, B, C 세 구간으로 나누어 분석한 부분에 ... 거의 포함되어 있기 때문에 ...
밤 10시 이후의 ... 뒷 부분 값들만을 정확히 예측하는, 로지스틱 함수형태와 파라메터(모수) 값을 추정했습니다.
분석에 사용된 ... 로지스틱 함수 L*(t) 의 형태와 ... 함수를 위해서 추정된 모수값은 ... 아래와 같습니다.
분석은 ... 박근혜 후보의 누적득표수를 추정하는 것으로 했습니다.
이제 이 함수를 이용해서 추정된 확률 f*(t)의 값과 ... 실제 누적 득표수 자료에서 구한 f(t) 값을 비교하면 ...
아래와 같습니다 ... 확인해 보시고 싶으신 분들은 ... 위의 함수형태와 모수값을 이용해서 검산해 보시면 됩니다.
( 실제 득표수 계산의 정확성을 위해서 ... 소숫점 아래 18자리까지 ... 추정된 확률값을 올려놓았습니다. )
이제 이들 두 확률, 즉 추정된 추정확률과, 실제값으로부터 구한 실제확률을 그래프를 통해 비교해 보겠습니다.
정확히 밤 10시 경의 ... 로지스틱 곡선의 변곡점을 중심으로 ... 뒷부분이 일치하는 것을 알 수 있습니다.
이제 이렇게 구한 추정 확률 f*(t) 값을 이용해서 ... 누적득표수를 추정하는 과정은 아래와 같습니다.
아래 표의 '실제자료'는 ... 선관위가 공식 홈페이지에서 < 18대 대선 투표구별 개표자료 >로 발표한 것입니다.
먼저 ... 전체 등록 유권자수가 ... 이미 사전에 조사되어 있습니다.
이렇게 사전 조사된 전체등록 유권자수( 즉, 선거인수 )를 ... 알고 있는 상황에서 ...
최종 투표율이 어느 정도 될 것인지를 ... 현실과 거의 비슷하도록 ... 예상하여 설정하고 ...
즉 이번처럼 75.8%로 선정했다면 ... 이 투표율 자료를 이용해서 ... 총 투표인수를 미리 계산해 놓습니다.
이렇게 해서 산출된 자료와 ... 실제 투표인수를 비교하면 ... 단지 0.05%의 오차율을 나타낼 뿐입니다.
그리고 이렇게 미리 사전에 계산된 투표인수를 가지고 ... 여기에다
<< 박근혜 후보가 얻을 것이라고 ... 예상했거나 계획한 득표율 ... 51.6%를 곱하면 ... >>
박근혜 후보가 얻게 될 최종 득표수가 산출됩니다 ... 이 값의 오차율은 ... 0.45% 입니다.
마찬가지 방법으로 문재인 후보의 최종 득표수도 산출할 수 있는데 ...
문재인 후보의 경우 48.0%를 적용하면 ... 약 0.31%의 오차율을 보이고 있습니다.
그동안 이곳에서 박근혜 후보와 문재인 후보의 ... 득표비율 51.6%: 48.0% 가 ... 대단히 이상하다고 했었는데 ...
이는 로지스틱 함수 추정확률에 적용할 ... 최종 득표수 값을 구하기 위해서 ...
미리 셋팅한 것으로 보면 ... 충분히 납득이 되는 것입니다.
특히 ... 로지스틱 함수값은 ... 마지막 부분으로 가면 ... 거의 변화가 없기 때문에 ...
51.5 :48.0 의 비율도 ... 마지막 부분에서는 ... 거의 흔들리지 않고 고정되어 버리게 됩니다.
암튼 ... 이렇게 해서 ... 미리 최종적으로 산출해 놓은 ... 박근혜 후보의 총 득표수 15,843,751명을 가지고 ...
앞서 구한 ... 소숫점 18자리로 표시된 ... 로지스틱 확률 L*(t) 값에 곱하면 ...
박근혜 후보의 ... 30분 단위의 ... 시간별 누적 득표율 값이 ... 자동적으로 산출됩니다.
이런 과정을 거쳐서 ... 최종적으로 산출된 ... 박근혜 후보의 30분간격의 로지스틱 확률 함수에 의한 ...
누적 득표수 추정치와 ... 실제 값에 대한 오차율(%)은 아래 표와 같습니다.
자정 (0:00 시)에만 ... 오차율이 -1.66%로 조금 높을 뿐이며 ... 대부분 오차율 1.5% 미만입니다.
그리고 이런 표를 ... 좀 더 이해하기 쉽게, 그래프로 그려보면 ... 다음과 같이 됩니다.
그래프에서도 ... 자정에만 ... 실제값과 추정치가 조금 벌어져 있을 뿐 ... 거의 같은 모양의 그래프가 됩니다
이제 ... 추가로 한가지 더 살펴보아야 될 것은 ... 많은 네티즌들이 ... 이곳 아고라에서 ...
제가 지금 이곳에서 분석하고 있는 것과 거의 비슷한 시점인 ... 밤 10:30 분 이후에 ...
왜 문재인 후보와 박근혜 후보의 득표율(%)의 비율이 ... 0.93으로 일정하게 나오는가 하는 의구심입니다.
즉, 이래의 표에 붉은 색 선으로 표시된 부분입니다.
이 표의 맨 마지막을 살펴보면 ... 문재인 후보는 48.0 %이고 ... 박근혜 후보는 51.6 %로 되어있습니다.
즉, 제가 위에서 추정치를 구하기 위해서 적용했던 ... 두 후보의 상대적 득표율 비율입니다.
각 후보의 상대적 득표울은 아래와 같이 구해질 수 있습니다.
군소 후보의 득표율과 ... 무효표의 비율을 합한 것이 ... 계속 0.4~0.5% 에 불과하기 때문인지는 몰라도 ...
박근혜, 문재인 두 후보의 상대적 득표율의 합계는 ... 정확히 1%의 범위 안에서만 움직이고 있습니다.
이를 광풍제월님이 올려주신 ... 1분 간격의 득표수 자료를 이용하여 ... 그래프로 그려보면 아래와 같습니다.
아주 재미있게 ... 정확히 99.5%~99.6% 사이의, 즉 1% 구간 안을 반복하면서 변하고 있습니다.
그것도 ... 처음에는 매우 자주 변하다가 ... 나중에는 서서히 느리게 변합니다 ... 마치 음파가 퍼져나가듯이 ...
누가 이런 모습의 변화를 ... 미리 설계한 것인지? 아니면 자연적으로 나타나는 현상인지? ... 조금 궁금합니다.
암튼 ... 박근혜 후보의 51.6%의 득표율과 ... 문재인 후보의 48.0%의 득표율은 ... 10시 이후로는 ...
서로가 서로를 만나는 방향으로 ... 그렇게 수렴하는 모습을 보이고 있습니다.
이런 현상을 ... 역시 그래프로 동시에 함께 그려보면 ... 아래와 같이 됩니다.
이처럼 두 그래프는 ... 정확히 50.0%의 값을 향해서 수렴해 나가고 있는 것입니다.
즉, 처음에는 상대적 득표율의 차이가 벌어져 있다하더라도 ... 최종적으로는 ...
이른 바 박빙이라고 말하는 ... 50 : 50 의 상황에서 ... 약간 벌어진 상태를 향해서 수렴해 나가고 있는 것입니다.
이것도 역시 ... 아주 자연스러운 현상인지? ... 아니면 누군가가 그렇게 되도록 설계해 놓은 것인지?
정말로 ... 이 모든 것들이 ... 궁금할 뿐입니다.
이제 이런 현상을 한 번더 확인하기 위해서 ... 앞서 제시한 표에서 살펴본 0.93의 수치를 확인해 보겠습니다.
0.93 이라는 수치는 ... 아래 두 번째 식에 의해서 산출된 것인데 ... 이를 뒤집은 역수도 계산해 보았습니다.
왜냐하면, 정수와 역수로 만든 두그래프를 동시에 그려보면 ... 앞에서 살펴본 문재인 후보와 박근혜후보의 ...
48.0%와, 51.6%의 두 그래프가 ... 어느 한 지점을 향해서 수렴해 가는 것을, 잘 확인할 수 있기 때문입니다.
위의 식은 ... 1.077의 값으로 수렴하고 있고 ... 아래의 식은 ... 0.93의 값으로 수렴하고 있습니다.
아래 식의 값이 네티즌들이 제시했었고 ... 왜 그렇게 되는지 궁금해 했었던 바로 그 ... 0.93 의 값입니다.
보시는 것처럼 ... 1 이라는 숫자를 향해서 ... 수렴해 나가고 있습니다.
물론 이것은 앞서의 그래프가 50.0%를 향해서 수렴해 나가는 것과 ... 전적으로 동일한 패턴입니다.
왜냐하면 ... 두 후보의 상대적 득표율을 ... 한 번은 바로 나누고 ... 또 한번은 거꾸로 나누었으니까요 ...
하지만 이렇게 구해보면 ... 1 이라는 점을 향해서 수렴해 나가는 모습이 ... 더욱 더 선명하게 잘 보이게 됩니다.
이것은 ... << 만약, 누군가가 ... 박근혜 후보의 최종 득표율을 ... 51.6%로 고정시켜 놓았다면 ... >>
이런 수렴현상과 ... 로지스틱 곡선의 함수값에 의해서 ... 나머지 문재인 후보이 득표율 48.0%는 자동 계산되고,
이로 인해, 두 후보의 대결은 ... 그야말로 ... 51.6 : 48.0 의 ... 박빙의 대결이 되는 것입니다.
그리고 만약 ... ( 만약이라고 했습니다 ) ... 이런 작업들을 선거 몇달 전부터 ... 사전에 치밀하게 시행했다면 ...
각종 언론과 여론조사기관을 활용하여 ... 이번 대선이 박빙의 대결이 될 것이라고 ... 지속적으로 홍보함으로써,
나중에 실제로 ... 미리 설계하고, 이를 그대로 적용한 값대로 ... 투표결과가 나오더라도 ...
이를 의심하고 이상하게 생각하는 사람들은 ... 급격히 줄어들게 되어 있습니다 ... 특히 선거에 이긴 쪽에서는 ...
왜냐하면 ... 사전에 미리 설계하고 준비해 놓아서 ... 이미 다 알고 있는 결과를 ... 여론조사와 언론을 통해서 ...
어느정도까지는 ... '세뇌(?)' 가 될 정도로 ... 충분히 주지시키고 알려 놓았기 때문입니다.
( 저는 앞에서 이 모든 것을 ... 만약이라고 했으며 ... 단지 그 가능성을 ... 지금 얘기하고 있는 중입니다. )
만약 이런 일들이 ... 제가 말씀드린 그대로 진행이 되었다면 ...
이런 상태에서의 선거란 ... 그야말로 ... 바위에 헤딩하는 식으로 ... 또는 달걀로 바위치는 식으로 ...
아무리 노력하고 애쓴다고하더라도 ... 상대방은 절대로 승리할 수 없는 ... 그런 경우가 되는 것입니다.
그동안 제가 이곳에서 ... 몇가지 분석들을 시행했습니다.
처음에 말씀드린대로 ... 로지스틱 함수에 의한 득표수 계산결과도 ... 지금 막 끝내고 올려 놓았습니다.
저는 이 모든 작업과정을 통해서 ... 어떤 것이 정말 실체적인 분명한 진실인지를 ... 정확히 알고 싶습니다.
이런 진실을 알기 위해서는 ... 수개표 재검과 아울러 ...
수개표되어 중앙으로 올려보낸 득표수 자료를 ... 최종 집계하는 서버의 모든 로그와 그 프로그램도 ...
모두 다 살펴보아야만 된다고 생각합니다.
그리고 ... 서버에 기록된 로그들을 통해서 ... 매 시각별로 ... 아주 정확한 누적득표율 자료와 ...
또 시간별 득표수 자료가 ... 모두 다 정확하게 공개되어야만 합니다.
그렇게 되어 질 수 있기만을 ... 간절히 바랍니다 ... 그리하여 ...
진실이 마침내 승리하고 ... 오직 fact 에 근거한 사실들만이 ... 우리나라를 이끌어 가는 힘이 되길 바랍니다.
그루터기추억관심 있는 0 관심 받은 1733관심끊기224713광풍제월님의자료, 대선득표수분석, 로지스틱함수추정, 설계된값들