[카테고리:] 학술

  • 95%가 틀리는 문제



    방문객이 폭주하고 있어서 살펴보니 95%는 틀리는 문제라는 글로 많이 들어오고 있다.

    기사에 “문제를 풀면 천재”라고 되어 있다고 해서 보니, 문제에 있는 조건을 보니 Solve if you are a genius 이다.

    즉, “당신이 천재라면 이 문제를 풀어라.”라고 되어 있다.

    하지만, 천재라면 문제를 풀어야 하는 것일 뿐, 문제를 풀 수 있다고 해서 천재라는 뜻은 아니다.

    기자가 영어를 모르거나 논리학을 모르거나 수학을 모르거나 셋 중 하나인듯 싶다.

    근데 왜 저런거 정도에 천재 운운하는 건지 모르겠다.



    http://upload.wikimedia.org/wikipedia/en/thumb/f/fb/Feynman-diagram-ee-scattering.png/360px-Feynman-diagram-ee-scattering.png

    천재라면 이런 계산을 해야지.

  • 그렇게

    어떤 연구를 하게 되든, 열심히 해야겠다.

    누가 어떤 것을 물어보더라도 그 질문에 대답할 수 있도록

    전문가가 되어야겠다.

    연구실이 정해지는 순간

    나는 그 분야가 어떤 것이 되든지, 그 분야에 빠져들 것이다.

    그것이 앞으로 내가 지켜나갈 태도이다.

    그렇게 해야겠다.

  • 우리나라 과학 소식 보도의 문제점


    http://news.naver.com/main/read.nhn?mode=LSD&mid=shm&sid1=105&oid=079&aid=0002465697

    우리 은하의 형성 기원을 밝혔다는 소식인데, 소식은 별로 중요할게 없는데, 이런 종류의 기사에서 단 한번도 실제 논문의 위치를 본 적이 없다.

  • 과학은 왜 믿어도 좋은가

    과학은 객관적인가.

    과학은 왜 믿어도 좋은가. 과학을 전공하지 않은 사람들이 과학적인 연구 결과에 기대하는 속성에는 객관성, 신뢰성, 정확성, 이런 것들이 있을 것이다. 하지만 안타깝게도, 과학의 가장 근본적인 측면은 이런 것들이 아니다. 과학은 처음부터 끝까지 자연에서 일어나는 모든 일에 대해 이론을 제시하고 실험으로 증명하는 과정이다. 과학은 세가지 영역으로 나누어 지는데, 자연과학, 사회과학, 수리과학이 그 세 영역이고, 셋 다 이론과 실험을 수행하게 된다. 수리과학(=수학)의 경우에는 실험이 곧 증명 과정이 되겠다. 쉽게 말해, 이론은 가설설정이고 실험은 가설검증이다. 그럼, 가설설정과 가설검증은 무엇일까? 가설설정은 “이런 일이 일어나는 이유는 이러저러하기 때문이다”라고 주장하는 것이고, 가설검증은 “내가 봤다니까”를 주장하는 것이다. 그리고 현대 과학이 그렇게 복잡해진 이유는 가설 설정과 가설 검증이 쉽지 않기 때문이다. 누군가 제시한 어떤 가설이 있으면, “그럼 그걸 어떻게 검증할건데?” 라는 질문이 뒤따라 올 것이다. 누군가 그 가설을 검증하는 실험을 수행하여 “내가 해봤다니까” 라고 주장한다면, “그걸 어떻게 믿냐?”는 질문이 뒤따라 올 것이다. 이 질문들로부터 객관성, 신뢰성, 정확성이 유도되는 것이다. 다시 말해서, 과학의 가장 기본은 가설의 반증가능성이다.


    다시 말해서, “그걸 어떻게 믿냐?”는 질문에 반박하려면

    “너도 해봐 임마”

    가 적절하다.



    현대 과학은 어마어마하게 많이 모인 검증된 가설들의 집합이다. 진술의 정확도를 담보하기 위하여 정확한 수치를 제시하지만, 그렇다고 논문에 적혀 있는 수치를 모두 믿어도 좋은 것은 아니다. 실험은 항상 몇번의 시행 후 몇번 성공하였는지 성공률을 제시하고, 그로부터 가설이 제대로 증명되었는지를 확인해야 한다.

    과학이 이야기하는 객관성은 실험의 재현가능성이다. 실험이 재현가능하다는 진술의 근본에는 우리 우주에서 물리 법칙이 어느 곳에서도 동일하게 적용된다는 가설이 있다. 이 가설은 적어도 지금까지는 부정된 적이 없는데, 우리가 관찰 가능한 우주의 범위 내에서 물리 법칙은 어디든 동일하게 나타나고 있다. 그리고 과학자들은 우리가 아는 지식이 틀렸다는 사실을 찾아내기 위하여 오늘도 열심히 노력중이다. 그러나 물리 법칙이 대칭적이기 때문에, 어떤 실험이 수행되었고 같은 조건에서 같은 실험을 다시 수행한다면 그 실험결과는 당연히 같아야 한다. 어디에서 언제 누가 하더라도, 같은 실험을 한다면 같은 결과를 얻게 된다. 또한, 비슷한 실험을 한다면 비슷한 결과를 얻게 된다. 만약 누군가 어떤 실험을 했는데, 그 실험결과를 누구도 다시 얻을 수 없다면 그 실험은 조작되었을 가능성이 매우 높다. 또한, 그 누구도 같은 실험을 하는 것을 막을 수 없으므로 실험 결과의 조작은 당장은 아니어도 언젠가는 반드시 드러나게 되는 일이다. 따라서, 제대로 교육받은 과학자라면 누구도 실험 결과를 조작하지 않는다. 그래서 논문을 읽는 사람들은 적어도 그 실험 결과가 조작되었을 가능성에 대해서는 전혀 걱정하지 않고 그대로 믿는 것이다. 만약 실험 결과가 조작되었다는 사실이 그 실험을 수행한 과학자가 살아있을 시절에 밝혀진다면, 그 과학자는 학계에서 완전히 퇴출당할 것이다.

    과학의 신뢰성은 재현가능성과 사람들의 상호 검증에서 유도된다. 상호 검증을 통과한 논문을 믿어도 좋은 이유는, 실험 결과가 조작되지 않고, 동시에 그 실험 결과가 논문에서 주장하는 가설을 건전하게 지지한다는 것을 다른 연구자들로부터 인정받았기 때문이다. 논문을 검증하는 연구자들은 그 논문에서 수행하는 실험이 가설을 지지할 수 있도록 적절히 설계되었는지, 적절히 수행되었는지, 적절히 분석되었는지 검토한다. 그리고 그 결과가 실제로 가설을 지지하는지 검토한다. 그렇기 때문에, 언제나 그래도 되는 것은 아니지만, 발표된 논문에 실린 결과는 그 결과를 이용해서 다른 일을 해도 좋다.

    과학의 정확성은 신뢰성과 객관성이 담보된 후에 나타난다. 과학이 정확하기 위해서는 실험 과정이 믿을만해야 하고, 실험 결과가 객관적이어야 한다. 하지만 그럼에도 불구하고 실험은 정확하지 않을 수 있다. 가령, “어제는 매우 추웠다”라는 진술은 매우 믿을만한 진술이고, 객관적인 진술일 수 있으나 정확한 진술은 아니다. “어제의 평균 온도는 영하 3도였다”라는 진술은 그럭저럭 정확해 보인다. 하지만 사실 이것도 과학적으로 정확한 진술은 아니다. 과학적으로 올바른 진술은 “어제의 평균 온도는 영하 3도였고, 그 신뢰구간은 1도이며 신뢰도는 99%이다”라고 하는 것이 과학적으로 올바르다. 이 말은, 어제의 온도가 영하 2도에서 영하 4도 사이에 있을 확률이 99%라는 뜻이다. 그렇다면, “정확함”이란 무엇일까. 한자 뜻을 살펴보면 그 뜻은 바르고 분명하다는 뜻이다. 따라서, 정확하려면 두가지 조건을 만족시켜야 한다. 바른 진술이어야 하고 분명한 진술이어야 한다. 그럼, 앞에서 살펴본 문장 중 “온도가 평균 3도였다”라는 진술과 “온도가 평균 3도였고 신뢰구간이 1도이고 신뢰도가 99%이다”라는 진술 중 어째서 후자가 더 정확한가? 예를 들어, 어제의 하루 중의 온도가 오전에는 영하 6도였고 오후에는 섭씨 0도였다면, 평균 온도는 영하 3도이지만 단 한순간도(더 정확하게는 단 한순간만이) 영하 3도일 것이다. 수학적으로 말하면, 영하 3도인 순간은 하루 중에 단 한순간도 없다. 하루의 온도가 올라갔다 내려갔다 하겠지만, 정확히 영하 3도였던 순간은 정말 백만분의 1도 되지 않음을 증명할 수 있다. 하지만, 후자의 경우, 온도가 영하 2도에서 영하 4도였던 시간이 하루 길이의 99%라는 사실을 알 수 있다. 정확히 언제부터 언제까지였는지는 모르더라도, 하루의 99%는 영하 2도에서 영하 4도 였고, 정확히 영하 3도라고 말하는 것보다 더 정확하다. 과학자들이 주장하는 진술들은 이런 의미에서 “정확”하다.

    과학자들이 하는 이야기라고 해서 언제나, 모든 이야기를 믿어도 좋지 않다. 하지만, 적어도 과학자들이 하는 이야기라면, 그 이야기가 사실인지 아닌지 검증할 수 있는 방법을 함께 제공한다. 물론 그 방법이 틀릴 수도 있다. 하지만 검증 방법은 언제나 존재한다. 과학을 믿어도 좋은 이유는 정확하기 때문이 아니라, 정확한지 아닌지 확인할 수 있기 때문이다.

  • 스마트폰 앱?

    날씨를 알려주는 앱이 있다. 전화기 바탕화면에 날씨를 알려주는 앱을 띄워놓고 있는데.

    나는.

    지금 날씨는 창 밖을 보면 될 것이고.

    친구가 있는 동네의 날씨는 친구에게 물어보면 알 것이고.

    친구가 없는 동네의 날씨는 궁금하지 않다.

    그래서 안쓴다.

    가장 많이 쓰는 앱 중의 하나인 버스 도착을 알려주는 앱은, 초기에는 많이 썼었지만.

    요새는 거의 안쓰고 있다. 걔가 뭐라고 알려주든 어차피 내가 버스를 타게 될 시간은 변하지 않는다.

    결국 안쓰고 있다. 그리고 요새는 버스 정거장에 가보면 다 나온다.

    난 스마트폰을 왜 쓰는걸까.

    카톡때문인가.

  • 성공?

    포기하지말고 될때까지 하면 된다고 꼬셔놓고

    그중에서 된 놈만 모아서

    될때까지 했더니 역시 다 되는거 보라고 주장하는 근거로 삼는다면

    열심히 해보다가 아직 안됐는데 살아있는 사람들한테는

    넌 아직 최선을 다하지 않았기 때문이라고 하고

    그렇게 죽을때까지 해보다가 성공 못하고 죽은 사람들은

    그 말에 반박하고 싶을텐데

    죽어서 말해줄 수가 없겠네.

    그럼 그게 성공의 비결인걸까?

  • Experimental test of TOF diagnostics for PW class lasers

    체코에서 공동연구하러 왔었던 Jan Prokupek이 나에게 고맙다며 편지를 보내줬다. 이번에 SPIE 학회에서 발표하는데 Proceeding paper에 내 이름을 저자 중 한명으로 넣는다는 소식이다.

    http://spie.org/app/program/index.cfm?fuseaction=conferencedetail&symposium=EOO13&conference_id=1081425#2021196

    내가 도와줬던게 많은 도움이 되었었나보다.

    어쨌든 이래저래 매년 하나씩은 이름 올라가는구나.

  • 서러운 자연대생


    http://news.naver.com/main/read.nhn?mode=LSD&mid=shm&sid1=102&oid=005&aid=0000548942

    이공계 전공자의 취업이 매우 힘들고, 취업이 되더라도 낮은 임금수준에 괴로워 한다는 이야기가 돌고 있다.

    기사로 나왔길래 물리학과는 어떤가 봤는데 기사에 아예 언급조차 되어 있지 않았다.

    그래서 직접 찾아봤다.


    http://www.krivet.re.kr/ku/da/prg_kuBHBVw.jsp?pgn=&gk=&gv=&gn=E5-E520130006

    여기 가보면 보도된 내용의 원본 자료가 있다.

    위의 자료에 따르면…

    1. 자연계열은 공학계열에 비해 전반적으로 취업 상황이 나쁘다.

    2. 자연계열 중 물리는 77.8%, 수학은 78.8%의 취업률을 보이고 있다. 반면 화학은 64.5%, 생물은 66.4%의 취업률을 보이고 있다. 이걸 평균하면 자연계 전체가 73%인데, 이것만 보고 자연계열 취업이 안된다고 판단하는 것은 무리인 것 같다.

    3. 물리와 수학은 일부 공학계열보다 취업률이 높지만, 그럼에도 불구하고 임금수준은 낮은 편이다.

    4. 전반적으로 괜찮은 일자리 비율이 줄어들었지만, 물리는 괜찮은 일자리 비율이 아주 쥐꼬리만큼이긴 하지만 올라갔다.

    음… 이걸 물리 전공자인 나는 좋은 신호로 보아야 하는 것인지 모르겠다. 어쨌든, 물리나 수학 전공자가 화학이나 생물학 전공자보다는 전망이 나쁘지 않다는 뜻으로 해석해야겠다. 물리 전공자의 눈에서 사심과 편견을 가득 담아서 소개하였으므로 관심있는 사람은 원문을 다 읽어보기를 권한다.

  • 숙제하다가…

    양자장론 숙제하다가 찍어봤다.



    위에 한장 있는건 숙제고, 왼쪽 여섯장은 잘 정리해 둔 것, 오른쪽 네장은 진행중인 적분이다. 오른쪽 네장을 왼쪽처럼 잘 정리하면 10장 정도로 요약될 것 같은데, 그리고 최종적으로 두세장 정도 더 쓰면 숙제가 완성될 것 같다.



    분명 교과서에서는 두 줄 정도로, 계산해보면 나온다고 해서 시작한 숙제일텐데, 왜 길이가 발산하고 있는건가.

    역시 이론의 세계는 넓고 깊다.

  • 통계 개념들

    사실은, 통계에 관하여 중요한 내용은 고등학교 수학에서 전부 배운다. 통계에서 가장 중요한 것은 평균과 표준편차를 이해하는 것인데, 워낙에 뒤에서 나오다 보니 거의 대부분의 사람들이 별로 의미있게 배우지 못하고 간다. 하지만, 고등학교에서 배운 수학 중에 실생활에 써먹을 수 있는 거의 유일한 내용이 통계이다. 행렬이나 이차방정식의 근의 공식이나 등식과 부등식 같은 내용은 수능에 많이 나오기 때문에 열심히 공부하지만, 정작 실제로 써먹을 수 있는 통계는 별로 공부하지 않는다는 사실이 슬프다.

    고등학교 때 까지 배우는 통계에서 중요한 개념은 도수분포표, 히스토그램, 평균, 분산, 표준편차 등이 있다. 나중에 대학에 가서 통계학을 좀 더 배워보면 상관계수, 유의미성, 오차, 6시그마, 이런 개념들이 나타난다. (뭐 아는 사람은 눈치챘겠지만, 개념들 중 몇개는 겹친다.)

    통계에 대하여 어려워 하는 사람들이 많은데, 통계를 고등학교에서 가르친다는 것은 어려운 내용이 아니라 누구나 알아야 하고 이해할 수 있는 과목이라는 뜻이다. 그러니, 이 글에서는 좀 더 쉽게 통계를 이해하는 방법을 생각해 보려고 한다.

    통계는, 정말 대충 말한다면, 수가 많은 집단의 특징을 한두개의 대표값으로 정리하는 것이다. 예를 들어, 학생 100명의 성적 자료를 갖고 있다고 하자. 그럼 아마 숫자 100개가 일렬로 늘어서 있을 것이다. 여기서 어떤 사실들을 알 수 있을까? 물론 학생 개개인의 성적은 잘 알 수 있다. 하지만 그런 집단들을 비교해야 한다면? 학생 100명의 영어 성적과 수학 성적을 비교해서 학생들이 어떤 과목을 더 잘하는지 알아내려고 한다면? 우리 학교 학생 100명과 저 학교 학생 100명의 성적을 비교한다면? 올해 성적과 작년 성적을 비교한다면?

    그때마다 100명의 성적을 일일히 다 대조하면서 비교할 것인가?

    100명인 경우에는 어떻게든 할 수 있다고 치자. 그 규모가 국가 단위가 되면 아무리 적게 잡아도 몇십만명에서 많게는 1억명까지도 된다. 사람에 대한 내용이 아니라 상품이나 실험에 관한 수치가 되면 억 단위를 넘어서 수천억이나 조 단위까지 갈 수도 있다. 이것을 일일히 다 비교해서 원하는 결과를 알아낸다는 것은 불가능하다. 그러나 숫자 한두개로 정리하여 비교한다면 너무나 간단한 일이 된다.

    어떤 집단의 대표값은 여러가지 개념이 있는데, 중앙값, 최빈값, 평균값이 있다.

    중앙값(median)은 값들을 순서대로 정렬했을 때 가운데 있는 값이다. 즉, 100명의 학생이 있다면 그중 50등의 성적이 중앙값이 된다. 중앙값은 전체 집단의 절반은 더 큰 값을 갖고 있고 나머지 반은 더 작은 값을 갖고 있는 특징이 있다.

    최빈값은 가장 자주 나오는 값이다. 가령, {1,1,1,2,3,4,5}라는 집합이 있으면 여기서 최빈값은 1이다. 물론 중앙값은 2가 된다.

    평균값은 다들 알다시피, 값을 다 더한 후 개수로 나누어 구한 값이다.

    사실 중앙값, 최빈값, 평균값 중 무엇을 대표값으로 쓸 것이냐는 집단을 연구하는 사람이 아무렇게나 정할 수 있는 것이다. 그럼, 평균값만 알면 되지 중앙값이나 최빈값 같은 다른 개념을 왜 알아야 하는 것일까? 그건, 어느 하나가 모든 것을 대변하지 못하기 때문이다. 가령, 100명 중 1명만 100점이고 나머지 99명이 1점인 분포에서는 평균은 크게 의미가 없다. 최빈값이나 중앙값이 더 의미가 있다. 예를 들어, 100명중 49명이 1점이고, 1명이 25점이고, 나머지 50명이 100점인 분포가 있다고 하면, 이 경우에는 중앙값이 25점이 되므로, 중앙값은 거의 절반이 1점이고 거의 절반이 100점인 전체 집단의 특성에 아무런 정보를 주지 못한다. 이런 특수한 경우가 있기 때문에, 통계는 항상 그 결론을 의심하고 살펴봐야 한다. 그리고, 앞서 말했듯 아무거나 정해도 되기 때문에 통계를 잘 아는 사람들이 원하는 결론을 내기 위하여 엉뚱한 것을 대표값을 정하는 경우가 있다. 가령, 최빈값이 적절한 경우에 평균을 사용하여 다른 결론을 낼 수도 있다. 그러므로, 중앙값, 최빈값, 평균값이 있다는 사실을 알아두고, 누군가 통계적으로 의미가 있다는 주장을 할 때, 항상 그가 이야기하는 값이 정말로 현실을 반영하는지 알아봐야 한다.

    평균값은 사실이지만, 그 수 하나만으로 나타낼 수 없는 많은 진실이 그 숫자 뒤에 숨어있기 때문이다.

    평균은 전체적으로 어느 값을 중심으로 뭉쳐있는지를 나타낸다. 중앙값, 최빈값, 평균값, 어느 것이든 집단이 어느 수 근처에 모여있는지를 나타내는 값이다. 하지만 그 근처에서 얼마나 뭉쳐있는지는 알려주지 않는다. 그 값을 중심으로 멀리 퍼져있는지, 가깝게 오밀조밀 모여있는지는 수치가 하나 더 필요하다. 그래서 나온 것이 분산, 표준편차, 범위, 사분위범위 같은 산포도 개념들이다.

    일단 가장 이해하기 쉬운 것은 범위(range)이다. 범위는, 말 그대로 가장 큰 값과 가장 작은 값의 차이이다. 그러나, 100명 중 99명의 1점과 1명의 100점이 있을 때, 범위가 99점으로 나오므로 이게 과연 이 집단을 잘 설명하는지는 의문이 된다. 물론 1점부터 100점까지 1명씩 다 있는 경우에는 범위가 매우 적절한 수치가 되겠지만.

    그래서 나온게 4분위범위이다. 4분위범위는 크기 순서대로 줄을 세웠을 때, 상위 25%와 하위 25%에 해당하는 수치의 차이이다. 쉽게 말해서 100명이 있다면, 25등의 점수와 75등의 점수 차이가 4분위 범위가 된다.

    범위와 4분위범위는 집단이 정규분포나 푸아송분포 같은 잘 알려진 분포와 다르게 이상할 때에도 적당히 사용 가능한 산포도이다. 이 범위들의 강력한 대항마로, 분산과 표준편차가 있다.

    분산은 쉽게 말해서 “편차 제곱의 평균”이다. 편차는 평균과 값 사이의 차이이다. 평균을 얻었으면, 값에서 평균을 빼서 얻는 것이 편차이다. 당연히 편차의 평균은 0이다. 왜 그런지 궁금하면 직접 계산해 보는 것이 더 빠를 것이다. 편차는 음수도 있고 양수도 있기 때문에 평균을 내면 0이 된다. 그래서, 음수를 없애기 위해서 제곱하고, 그것을 평균을 내서 분산으로 삼았다..

    분산은 제곱한 수들을 평균낸 것이기 때문에 단위가 평균과 다르다. 따라서, 단위를 맞춰주기 위해서 도입한 것이 표준편차이다. 표준편차는 분산의 제곱근이다. 다시 말해서, 표준편차를 제곱하면 분산이 나온다.

    표준편차는

    라는 기호로 쓴다. 이 기호는 “시그마”라는 그리스 문자이다. 맞다 그 6시그마의 그 시그마가 이 시그마이다. 표준편차의 6배까지 오차를 줄인다는 뜻이 6시그마 공정의 의미이다.

    표준편차는 무슨 의미일까?

    일단, 많은 과학자들이 인정하고 넘어가는 사실이 있는데, “웬만한 경우, 어떤 사건이 일어날 확률은 정규분포 곡선을 따른다”는 것이다. 정규분포 곡선은 함수로 치면

    이렇게 생긴 함수이다. e위에 있는 지수의 분모를 보면 시그마가 들어가 있는 것을 볼 수 있다. 그래프 생긴건 다음과 같이 생겼다.


    http://ko.wikipedia.org/wiki/%ED%8C%8C%EC%9D%BC:Normal_Distribution_PDF.svg



    그럼 어쨌든 생긴건 종 모양으로 생겼고, 끝으로 갈 수록 0에 가까워지는 모양이다.

    이게 왜 중요할까? 많은 일들이 이 그래프의 확률 분포를 따라 일어나기 때문이다. 저 그래프의 아래에 있는 영역의 넓이가 어떤 일들이 일어날 확률을 나타낸다. 그러니까, 평균을 중심으로 표준편차만큼 좌우로 퍼진 영역의 넓이는 전체의 68%이다. 이것은 어떤 실험을 하거나 어떤 현상을 관찰했을 때, 평균과 표준편차를 알고 있다면, 그 실험을 다시 했을 때 평균 근처의 값을 얻을 확률에 관한 이야기이다. 100번 실험했을 때, 그 중 68번 정도는 평균에서 1시그마 이상을 벗어나지 않는다는 뜻이다.

    2시그마는 95.5%, 3시그마는 99.7%, 4시그마는 99.99%, 5시그마는 99.9999%, 6시그마는 99.9999998%에 해당한다. 가령, 6시그마는 실험을 100000000번 해서 한두번 정도가 그 바깥으로 벗어난다는 뜻이다.

    하지만, 이것은 평균과 표준편차를 알고 있을 때의 이야기라고 했다. 사실 진짜 얘기는 지금부터인데, 많은 통계 결과가 표본에 대해서만 조사하지 전수조사는 하지 않는다. 여론조사에서 5000만명을 무슨 수로 다 조사하는가. 그 중 1000명 정도만 뽑아서 조사한다. 이 때 바로 “신뢰구간”이랑 “신뢰수준”라는 말이 나오는데, 이것이 바로 이 글에서 이해해야 하는 중요한 개념이다. 원래 이 얘기를 하려고 했는데 앞에서 뭔가 나도 잘 모르는 어려운 개념들을 설명할 수 밖에 없어서 힘들었다.

    신뢰구간은 평균이 그 안에 들어가 있을 구간이다. 신뢰수준은 평균이 그 안에 들어가 있을 확률이다. 가령, 여론조사에 관한 언론 보도를 보면 “표본수 1000명에 대해 조사하여 신뢰수준 95%수준에서 A후보에 대한 지지율이 45%에서 플러스 마이너스 3%포인트이다” 처럼 생긴 문장이 흔하게 보인다. 저게 무슨 뜻이냐 하면, 똑같은 조사를 100번을 했을 때 그 중 95번 정도는 A후보에 대한 지지율이 42%에서 48% 사이에 있을 것이라는 뜻이다.

    언론에서 여론조사나, 다른 통계 수치를 갖고서 이야기할 때 봐야 하는 말은 위의 예시 문장에 다 들어가 있다. 표본수,
    평균값, 신뢰수준, 신뢰구간이 모두 나와 있어야 한다. 위의 문장의 경우 표본수는 1000명, 신뢰수준은 95%, 평균값은
    45%, 신뢰구간은 위아래로 3%포인트가 된다. 만약 하나라도 빠져있다면 아무리 저명한 연구기관이나 조사기관에서 발표했어도 그 통계는 믿을 수 없으며, 갖다 버려도 된다.


    신뢰수준을 높이면 신뢰구간은 넓어진다.

    신뢰수준을 높이면, 그 신뢰수준에 해당하는 신뢰구간은 평균이 그 안에 확실하게 들어가야 하므로 더 넓어질 수밖에 없다. 결국 신뢰구간을 줄이려면 표본의 수를 더 크게 키우는 수밖에 없다. 조사를 많이 할 수록 더 정확한 통계가 나오게 된다는 뜻이다.

    어떤 통계를 믿으려면, 표본이 충분히 커야 하고, 신뢰수준이 충분히 높아야 하며, 신뢰구간은 충분히 작아야 한다. 여기서, “충분히”라는 말이 과학적으로 들리지 않겠지만, 어쩔 수 없다. 이것은 각자의 소신과 경험에 맞춰서 믿을지 믿지 않을지를 정해야 한다.

    통계에 대해 좀 더 쉽고 재미있게 공부하고 싶다면 다음의 책을 추천한다.

    통계의 미학(

    http://www.kyobobook.co.kr/product/detailViewKor.laf?ejkGb=KOR&mallGb=KOR&barcode=9788988165911&orderClick=LAH

    )

    이 책은 통계에 관심있는 일반인에게는 매우 추천할만한 책이다. 통계의 중요한 내용들을 쉽고 재미있는 사례를 통하여 소개하고 설명하고 있다.

    통계학 길잡이(

    http://books.google.co.kr/books?id=gUB2MwAACAAJ&hl=ko&source=gbs_similarbooks

    )

    통계학을 만화로 배울 수 있는 좋은 책이다. 은근히 전문적이지만 쉽고 재미있게 설명하고 있다.