제목은 빅데이터라고 했지만
안홍이 구글 트렌드를 근거로 자신들이 부동의 1위로 대선에 당선될 것이라고 떠들고 있네요
미국에서 여론조사보다 구글트렌드가 트럼프의 당선을 예측했기 때문에 자신들이 당선될 것이라고 얘기하고 있습니다
이것이 얼마나 허무맹랑한 것인지 설명 드립니다
미국과 한국은 여러가지 여건이 다르다는 점을 간과한 것이며, 빅데이터 분석의 기본을 모르고 하는 소리지요
일단 구글트렌드는 검색량을 기본으로 합니다
어떤 목적으로 검색했는지 긍정 부정의 방향은 고려되지 않지요
예를 들어 홍XX 후레자식으로 검색을 해도 홍XX의 검색량으로 포함됩니다
그리고 미국은 워낙에 땅덩어리가 크고 주마다 법률이 다른 것이 많아 중앙에서의 일괄적인 지지율 조사가 거의 불가능합니다
하더라도 예측률이 매우 낮지요
각 주마다 조사를 실시 했을 겁니다... 1개 주에서 1개 회사가 했으리란 보장도 없죠
당연히 각 조사마다 방법론이 표준화되기 어렵습니다
약간이라도 다른 방법론을 쓴 조사 결과를 하나로 합쳐서는 안되는데, 이를 지켰으리란 보장도 없습니다
그리고 선거법도 다릅니다
미국의 선거는 1개 주에서 1표라도 이기면 그 주의 선거인단 표를 모두 먹는 승자독식제도입니다
인구의 합이 천만인 ABC 3개 주에서 1등을 해도, 인구의 합이 9백만인 DEFG 4개 주에서 1등을 한 후보가 이긴 겁니다
그리고 빅데이터 분석에 있어서 정형 데이터보다 더 방대한 양을 차지하는 것이 이미지 등의 비정형 데이터입니다
정형 비정형 데이터를 모두 분석하고 긍정적 트래픽과 부정적 트래픽을 감안해서 결론을 내려야 하죠
이거 쉽고 빠르게 되는거 아닙니다
단순 검색량만 보고 당선자를 예측한다? 이거 우리나라에선 힘들 겁니다
제가 아는 지식 안에서 쓴 것이니, 혹시라도 제가 잘못 알고 있는 부분 지적해 주시면 달게 받겠습니다