본문 바로가기
소소한 도서리뷰

[도서후기] 숫자에 약한 사람들을 위한 통계학 수업: 데이터에서 세상을 읽어내는 법

by minnni 2025. 2. 14.
반응형

 

 

 

 

 

 

 

저자: 데이비드 스피겔할터

출판: 웅진지식하우스

 

 

 

 


-햄, 소시지가 암 발병률을 18% 높인다고 하던데, 그럼 다섯 중 하나꼴로 암에 걸린단 말인가?

-사고 다발 지역에 과속 단속 카메라를 설치했기 ‘때문에’ 교통사고가 줄어든 걸까?

-통상적인 기대 사망자 수보다 몇 명이나 더 죽어야 연쇄살인임을 알 수 있을까?

 

통계는 개별 자료들을 분석해 전체적인 상태를 유추하고 이를 구체적인 숫자로 나타낸 것이다. 통계는 하나씩 따로 봤을 때는 복잡하고 혼란스러워 보이던 것들에서 어떤 흐름이나 패턴을 보여주기 때문에, 주식 차트부터 인구 분포까지 통계는 다방면으로 사용된다. 특히 개인의 취향과 관심사마저 수량화되는 빅데이터 시대에 통계적 분석과 사고 능력은 읽고 쓰는 능력만큼이나 중요하다.

『숫자에 약한 사람들을 위한 통계학 수업』은 단순히 평균이나 표준편차를 계산하는 것이 아닌, 데이터에서 의미 있는 패턴과 관계를 연구하는 통계학을 선보인다. 또한 실세계의 데이터와 예제를 활용해 통계학이 일상의 소소한 호기심부터 사회·경제·과학·의학 분야의 다양한 문제들을 해결하는 데 유용한 도구임을 보여준다. 이 책을 통해 독자들은 부분에서 전체를 이해하고, 숫자 너머 세상의 흐름을 올바르게 읽어내는 통계적 사고의 힘을 얻을 수 있다.

 

“이 책에 너무 충격을 받았다. 석박사 과정에서 배워온 통계보다 이 책에서 더 제대로 배운 것 같다.” _블로거 리뷰

- 교보문고 책소개

 

 

 

 

 

이번에 리뷰할 도서는 <숫자에 약한 사람들을 위한 통계학 수업: 데이터에서 세상을 읽어내는 법>입니다.

 

 

 

 

 

표는 설명용 도해의 한 유형이다. 그것의 색상, 글꼴, 언어 등은 관심을 끌고 가독성을 높일 목적으로 주의 깊게 선택된다. 심지어 표의 열이 보여주는 항목이 표에 대한 독자의 반응에 영향을 미치기도 한다.

 

 

틀 짜기의 효과는 직관적으로 알 수 있다. 예를 들어 ‘5%의 사망률‘95%의 생존율보다 더 안 좋게 들린다. 사망률과 함께 실제 사망자 수를 제시하는 것 역시 위험하다는 인상을 주는데, 그 수만큼의 실제 사람들을 상상하게 만들기 때문이다.

 

 

 

 

 

 

 

 

 

 

 

이렇듯 이 책에서는 통계 분석을 하고, 그 결과를 어떻게 보여줄 것인가에 대해서 중요하게 다루고 있습니다. 여기서는 틀 짜기의 효과와 관련하여 가공육에 대한 국제암연구소(IARC)의 연구 결과를 예로 들고 있습니다. 세계보건기구(WHO)IARC 2015년 매일 50그램의 가공육을 먹으면 장암 발병률이 18% 높아진다고 보고하며 가공육이 ‘1군 발암물질에 해당한다고 발표했습니다. 그러나 여기서 ‘18%’라는 수치는 상대위험도, 매일 50그램의 가공육을 먹는 집단이 그러지 않는 집단에 비해 장암에 걸릴 위험이 얼마나 증가하는지를 나타낸 것입니다. 그러나 각 집단에서 실제로 장암에 걸리는 사람이 나올 것으로 예상되는 비율인 절대위험도로 재구성해보면 100명의 집단에서 가공육을 먹어서 장암에 걸리는 사람은 1명이 더 생기는 것으로 나옵니다.

 

 

 

 

 

 

물론 이것은 여론조사 회사가 정말로 무작위표본을 추출했고 모든 사람이 대답했으면 그들 모두가 둘 중 하나로 의견을 가졌고 진실을 말했을 때에만 정확한다. 따라서 오차범위를 계산할 수 있을지라도, 가정들이 옳은 경우에만 그것이 유효함을 기억해야 한다.

 

 

우리는 통계적 방법들을 맹신하면 안 된다. 데이터를 수집한 방식 자체에 문제가 있으면, 어떤 현명한 방법을 아무리 많이 동원하더라도 이 편향을 제거할 수 없으며 우리는 배경지식과 경험을 사용해 결론을 완화시켜야 한다.

 

 

 

 

 

 

위에서 볼 수 있듯이 여론조사와 같은 경우에는 설문 대상자가 실제로 항상 정직하게 답변을 하는지 등과 같이 샘플링 단계에서부터 신뢰성에 문제가 생길 수 있어 데이터를 다루고 해석하는데 더 조심해야 할 필요가 있다고 저자는 얘기합니다.

 

 

 

 

 

 

 

통계학에서 순전한 무능과 부정직은 심각한 문제이지만, 비교적 쉬운 문제다. 교육하고, 확인하고, 재현하고, 데이터를 공개하는 등을 통해 개선할 수 있기 때문이다. 그러나 재현성 위기의 주된 원인일지도 모르는 더 크고 미묘한 문제는 따로 있다.

 

 

통계 전달을 향상시키려면 무엇이 최선의 방법인지 연구하는 것도 필요하다. 예를 들어 어떻게 믿음과 신뢰를 저버리지 않으면서 사실과 미래에 대한 불확실성을 가장 잘 전달할 수 있을까? 어떻게 다른 태도와 지식을 지는 청중에 맞춰 전달할 수 있을까? 이 질문들은 중요하고 연구할 만하다.

 

 

 

 

 

 

 

 

 

 

 

저자는 이 책에서 전반적으로 위와 같이 통계를 어떻게 더 신뢰성 있고 유의미하게 제공하고 받아들일지에 대해서 고민하고 그에 대한 저자의 생각을 소개하고 있습니다. 개인적으로는 이 책이 통계 분석의 결과를 더 유의미한 방향으로 해석할 수 있는 방법에 대해서 다루었을 것이라 기대했지만, 이 책은 통계를 해석하기보다는 더 신뢰성 있는 결과를 위해서 통계를 어떤 방법으로 이용해야 하는지와 같은 내용이 더 주를 이루고 있었고, 그래서인지 통계분석 전문서적을 읽는 것 같은 느낌이 더 강하고 조금 어렵게 느껴지기도 했습니다.

 

 

 

마지막으로 이 책에서 소개하는 통계적 주장에 맞닥뜨렸을 때 점검해야 하는 10가지 질문을 소개하며 이번 포스팅을 마무리하겠습니다.

 

1.     그 연구는 얼마나 엄밀하게 수행되었는가? 내적타당성, 적절한 설계, 질문의 단어 선택, 실험 지침의 사전 등록, 표본의 대표성, 무작위 배정, 비교의 공정성 등을 점검하자.

2.     결과에서 통계적 불확실성/신뢰성은 무엇인가? 오차범위, 신뢰구간, 통계적 유의성, 표본크기, 다중 비교, 구조적 편향을 점검하자.

3.     요약은 적절한가? 평균, 변동성, 상대위험도, 절대위험도 등의 통계량이 적절히 사용되었는지 점검하자.

4.     이야기의 출처는 얼마나 믿을 만한가? 서로 충돌하는 편향된 출처일 가능성을 고려해야 한다. 그리고 발표가 독립적으로 동료들에게 평가받았는지 점검하자. 또 ‘왜 이 출처는 나에게 이 이야기를 들려주고 싶어 하는가?’라고 자문하자.

5.     이야기를 장황하게 늘어놓고 있는가? 틀 짜기를 사용하거나, 극단적 사례들에 대한 일화를 인용함으로써 감정에 호소하거나, 오해를 낳는 그래프•과장된 헤드라인•어마어마한 수를 사용했는지 확인하자.

6.     들려주지 않은 것은 무엇인가? 어쩌면 이것이 가장 중요한 질문일지도 모른다. 선별된 결과, 그 이야기와 상충되어 사라진 정보, 독립적인 논평의 부족 등에 대해 생각해보자.

7.     그 주장이 알려진 것들과 얼마나 잘 들어맞는가? 과거 데이터를 포함해, 전후사정, 적절한 비교, 다른 연구 결과들을 종합적으로 고려하자.

8.     보인 것에 대한 설명으로 무엇이 주장되는가? 결정적으로 상관관계 대 인과관계, 평균으로의 회귀, 유의미하지 않은 결과를 ‘효과없음’으로 잘못 해석, 반박하기, 탓하기, 검사의 오류 같은 것들이 문제다.

9.     그 이야기는 청중과 얼마나 연관 있는가? 일반화에 관해 생각해보자. 쥐에서 도출한 결과를 가지고 사람에 대한 결과를 추정했을 때, 피실험자들이 특별한 경우에 속하지는 않는가?

10.  주장된 영향은 중요한가? 영향의 크기가 실질적으로 유의미한지 점검해야 하는데, 특히 ‘증가된 위험’이라는 주장을 조심하자.

 

 

 

 

 

 

 

개인적인 책 평가: ★★★☆☆

 

 

 

반응형

댓글