확률과 셈 원리
본 내용은 하버드에서 제공하는 STAT-110 (확률론 기초)강의에 대한 요약 내용입니다.
유튜브 주소도 있습니다.
교수님이 지은 책입니다.
여기서 실험은 무엇이든 될 수 있다. 무엇이든지 하면 거기엔 가능한 특정한 결과가 잇을 것이다. 어떤 일이 일어나기 위해서 반드시 진행되야만 한다.
그리고 실험을 진행하면 어떤 것이 결과로 나올지 모른다. > 포괄적인 의미를 내포
표본공간(sample space): 시행에서 발생 가능한 모든 경우의 집합
사건(event): 표본공간의 부분집합
확률론이 어렵게 느껴지는 이유
우리가 하는 것의 모든 것들이 매우 직관에 어긋나 있다.
수학에서 가장 큰 진전 : 사건을 부분 집합으로 생각하는 것
사건 A에 대한 확률 P(A)
$P(A) = \frac{favorable-outcomes}{num-of-possible-outcomes}$
항상 나는 표본공간을 대문자 S로 부른다. 그것은 단순한 집합(Set)이다. 집합의 요소(element)는 하나의 실험에 대한 모든 가능한 결과(outcome)인거지. 맞지?
만약 우리의 실험이 2개의 주사위를 굴리는 거라면, 6개의 면을 가진 주사위이지, 거기에는 36개의 가능한 결과가 있는거지. 우리는 실제로 36개의 결과가 나오는 것을 얻게 될거야.
36개의 가능한 결과가 있는거고, 그리고나서 이 집합(S)는 이들 결과로 구성이 될거야. 그리고 하나의 사건이 있는건데, 그것을 A라고 부르자. 단지 어떤 부분집합(subset)이 되는거야.
그리고 우리가 나중에 보게될 많은 것들이 있어, 하지만 너는 또한 확률과 집합에 대한 출력물을 봐야만 하지. 거기서 목적은 사건에 대한 직관적인 아이디어들을 연결하는거야. 그리고 수학적으로 정교하게 만드는거지. 합집합과 교집합 같은 것들을 사용해서 말이야.
좋아, 우리는 나중에 좀더 보게 될거야. 하지만, 나는 우리는 돕는 이 단어를 확률의 단순한 정의로 보고 싶은거지.
음, 너는 그것을 또한 확률에 대한 매우 단순한 정의(naive definition)이라고 부를 수 있을거야.
내포하고 있는 가정:
- 모든 사건이 발생할 확률은 같다
- 유한한 표본공간
- 항상 이 가정이 만족되는 것은 아니기 때문에 적용 불가한 경우들이 있다!
하지만, 단순한 가정은 말하는데, 그것은 단지 분모에는 가능한 결과의 (전체) 수가 되는거고, (분자에는) 유리한(favorable) 결과의 수가 오는거지.
유리하다는 것은, 내가 의미하는건 A에 유리하다는거야. 가능한 결과의 수로 나뉘는거지.
그래서 분모는 단지 표본공간의 크기(the size of the sample space)가 되는거야. 그것은 가능한 결과의 수가 되는거지.
그리고 분자는 A가 발생시킨 결과의 개수가 되는거야.
예를 들어서, 만약 우리가 동전을 던진다면, 동전을 2번 던지는데, 4가지 가능한 결과가 있는거지. 맞지?
그래서 우리는 4개의 서로 다른 결과를 가지게 된다. 이제 우리는 가정을 하는데, 우리는 알고 싶어 하는거야, 2번 던지기에서 모두 뒷면이 나올 확률이 무엇인지 말이야.
첫번째 던지기에서 앞면으로 떨어지고, 2번째 던지기에서 앞면으로 떨어지거나, 또는 (앞면, 뒷면) 또는 (뒷면, 앞면) 또는 (뒷면, 뒷면)이 되겠지.
이것에 따르면, 1/4이 될거야
왜냐하면, 우리는 하나를 가지고 있는데, 이것이 선호하는 결과이지. 모두 4개가 있고, 1/4인 저것이 되는거지.
저것은 확률에 대한 고등학교 정의와 같은거야. 또한 얼마나 많은 가능성들이 있는지 세는거지. 그것들 중 너가 원하는 것이 몇개나 발생했는지, 그게 다야.
-
하지만, 주목해라. 나는 어떤 것도 말하지는 않았는데,
그것은 공정한 동전일까? -
그것은, 음, 좋아, 저것이 질문인데,
동전이 공정하다는 것은 실제로 무슨 의미일까? -
내가 의미하는건, 우리는 여기서
약간의 순환(circularity)에 대해서 주의를 해야 한다는거야. 만약 우리가 동전이 공정하다고 말하면, 우리는 의미하는데 앞면과 뒷면이 동등하게 같다는거지. -
하지만, 저것은 한번 던지기에 대해서 말하는거고, 만약 우리가 2개의 던지기를 갖는다면? 음, 만약 동전이 뒷면이 닿는 끈적한 속성을 가지고 있다면, 그리고 다음번에도 마찬가지로 뒷면이 떨어질 가능성이 있다면 말이지.
-
우리가 고려할 다른 가능성들이 있는거야. 하지만, 이것을 쓰기 위한 가장 단순한 방법은 우리가 이들 4가지 경우를 가지는거지. 만약 우리가 그것들을 동등한 가능성으로 취급한다면, 그리고 만약 우리가 어떤 사건의 확률을 알고 싶다면, 우리는 그것들 중 몇 개가 발생했는지 세고 전체 개수로 나누면 된다. 그게 다야.
저것이 단순한 정의(naive definition)이다.
그래서 저것은 거대한 가정을 가지고 있다. 모든 결과가 같은 확률로 나온다고 가정한다. 그리고 그것은 또한 유한한 많은 결과(finitely many outcomes)가 있다고 가정한다. 나는 유한 표본 공간(finite sample space) 라고 말할거야.
-
그래서 만약 너의 실험의 결과가 실수가 되거나 또는 정수가 될 수 있다면 분모는 무한이 될거고, 이 가정은 의미가 없겠지? 맞지?
-
적용하기 위해서는, 우리는 유한한 분모를 가질 필요가 있는거야. 그리고 가정은 모든 것이 동등한 가능성이라고 했어. 그것은 매우 매우 강력한 가정이지. 그렇지?
이제 그것은 몇몇 문제에서는 합리적인 가정인데, 우리가 대칭성(symmetry)을 가질 경우에 그렇지.
만약 우리가 6면의 주사위를 굴리는데, 우리는 생각하는거야, 너도 알지만, 만약 모든 6면이 동등한 가능성이라면, 왜냐하면 그건 대칭적인 6면체이기 때문인데, 그러면 아마도 각면이 1/6, 1/6, 1/6이라고 말하는 것이 합리적이겠지.
만약 너가 이것을 극한까지 간다면, 너는 말할 수 있는데, 만약 해왕성에 생명체가 있을 확률을 내가 알고 싶다면이 되는거야.
음, 나는 거기 결코 가본 적이 없지. 나는 해왕성에 생명체가 있는지 없는지 몰라.
그래서 (생명체가) 있거나 없거나 해서, 2가지 가능성이 있는거지. 그것들 중 하나는 생명체가 있는거고, 다른 하나는 없는거지. 그래서 그것은 1/2이 될거야. 그치?
대부분의 사람들은 동의할거야, 그것이 터무니없는 논쟁이라는 것을 말이야.
그것에도 불구하고, 너는 많은 예시들을 찾을 수가 있어, 미디어나 뉴스에서 말이야.
그리고 나는 다양한 예시들을 보아왔는데, 사람들은 심각하게 그와 같은 형태의 논쟁을 하고 있었어. 또는 그들은 정당성 없이 단순한 가정을 사용하고 있지.
-
저 경우에는 단순한 가정을 사용하는데 정당성이 없지. 맞지?
-
하지만, 심각하게 잘못 보이는게 있지. 너도 알지만, 그것은 엄격하게 더 작아야 하는거지. 생명체가 있거나 없는 가능성보다도 지능적인 생명체가 있을 가능성이 더 작아야 하는거야.
그래서 우리는 이것 이상으로 재빠르게 나갈 필요가 있다. 어쨌거나, 내가 말했듯이, 이것(단순한 정의)은 주제가 시작하는 곳이고, 도박에 대해서도 그렇고, 그것은 여전히 중요하다.
-
둘 다 중요한데, 주제가 어떻게 전개되는지 이해하는 것도 중요하고, 또한 많은 문제들이 우리가 동등한 가능성을 가정할 수 있다는 것도 또한 중요하다.
-
나는 강조할건데, 너가 가정할 수 있는 것에 대해서 정당화 하거나 분명히 할 필요가 있다는거야. -
그리고 만약 너가 모든 결과들이 동등한 가능성을 가지고 있고, 유한한 개수로 있다면, 그러면 이것은 확률의 정의가 되고, 완벽하게 좋다는거야. 그렇지 않으면 너는 할 수가 없지.
나는 말했는데, 미적분이 선수과목이라고 말이야. 세는 것(Counting)은 정말로 선수과목은 아니야. 그래서 우리는 시작할거야. 그래서 우리는 시작할건데, 나는 최대한 자급자족하려고 노력하고 있어. 우리는 세는 것으로 시작한다.
몇 가지 기본적인 세는 방법의 원칙이 있다.
셈 원리(Counting Principle)
곱의 법칙(Multiplication Rule): 발생 가능한 경우의 수가 $n_1, n_2, … , n_r$가지인
$1,2, … , r$번의 시행에서 발생 가능한 모든 경우의 수는 $\Large n_1 \times n_2 \times … \times n_r$ 이다.
아이스크림 예제인데, 이것은 매우 매우 간단한 예제이다. 하지만, 일단 너가 이 예제를 완벽히 이해한다면, 내가 여기 적은 이 모든 것은 분명해진다.
-
간단한 실험인데, 너는 가서 아이스크림을 얻는다. 그리고 너는 서로 다른 옵션을 가졌다고 가정
-
단순성을 위해서 단지 3가지 맛의 옵션만 있다고 가정 (초콜릿, 바닐라, 스트로베리)
-
2개의 서로 다른 콘 타입이 있다
(메모: 여기서 실험은 2개의 콘 타입 중 하나를 선택하는 것)
- 왜 6 이지? 6 = 2 * 3 이야. 이제 또한 주목해야 하는데, 6 = 3 * 2 가 된다.
너도 알지만, 우리는 너가 콘을 먼저 선택하고 맛을 선택하도록 강제하지는 않을거야. 너는 맛을 먼저 선택하고 그리고 콘을 선택할 수도 있어. 그리고 그들은 그것을 처리할 수 있어야 하지. 맞지?
그래서 너는 스스로 트리를 그릴 수 있는데, 3방향으로 나눠지고 그리고나서 2방향으로 나뉘는거지. 그것은 여전히 6개의 결과가 있는거야. 그것이 말하고 있는 전부지. 맞지?
너는 거대한 트리를 상상할 수 있어. 거기에는 수 많은 가지들, 수백만의 가지들이 있어. 하지만, 만약 너가 이 단순한 트리를 이해한다면, 너는 그것이 어디에서 나오는지를 보게 될거야.
너희 모두 지수적인 증가(exponential growth)에 대해서 알고 있지. 6은 상당히 작은 숫자인데, 만약 우리가 10개의 선택을 가졌고, 각각에 대해서 우리는 2개 사이에서만 선택할 수 있다면, 여전히 1000개가 넘는 가능성이 있는거지. $(2^{10} = 1024)$
-
빠르게 한 가지 예제를 해보자. 포커에서 풀 하우스의 확률을 찾는거야.
-
표준적인 카드 한 벌은 52장의 카드를 가지고 있어. 그리고 너는 5장의 카드를 얻는거지. 그리고 우리는 가정을 하는데 카드가 완전히 섞였다고 가정하는거야. 그래서 다섯 장의 카드 집합은 동일한 가능성을 가진거야.
-
저것이 가정이다.
그러면, 나는 너에게 ‘풀 하우스’가 무엇인지 말해주어야 한다. 하지만, 만약 내가 확률의 단순한 정의를 사용한다면, 나는 알고 싶은데, 가능한 경우의 수는 무엇일까?
그것은 (52, 5) (52 chosse 5) 가 된다. 나는 생각하는데, 너희들 대부분이 이것을 보았을거야. 때때로 사람들은 52C5 라고도 쓰거든. 너도 알지만, 조합이라든지 등등에서, 이것은 완벽한 표기이지.
나는 너에게 상기시켜줄거야. 너가 그것을 본 적이 없는 경우에 그것이 무엇인지 말이야, 하지만, 희망컨데, 너희들 대부분이 이전에 봤으면 좋겠다.
이항계수(Binomial Coefficient):
$\Large {n \choose k} \Large = \frac{n!}{(n-k)!k!}$
크기 n의 집합에서 만들 수 있는 크기 k인 부분집합의 수(순서 관계 없이)

순서, 복원여부에 따른 표본 추출 방법을 정리한 표이다.
-
우리는 이 강의에서 저것을 많이 볼거야. 저것들은 이항계수(Binomial coefficient) 라고 불리지.
-
그것은
n choose k라고 읽는다. 그리고 저렇게 쓰이지. -
그리고
$_{n}\mathrm{C}_{k}$로 정의된다. -
음, 그리고 우리는 또한
k 가 n 보다 크다면 0이라고 정의한다. -
이 값이 나타내고자 하는 것은 방법의 수를 나타내는건데, 만약 너가 n명의 사람이 있고, n명의 사람 중 k명을 선택하는 방법의 수를 나타내는거지.
-
그래서 k의 크기를 가지는 부분집합(a subset of size k)를 선택하는거고,
순서는 상관없다. -
그래서 나는 k의 크기를 가지는 부분집합의 개수라고 말할거야. 순서는 상관없고, n명이나 n개의 개체가 있는 하나의 그룹에서 말이야.
1 | |
좋아, 이제 풀 하우스 문제로 돌아가자. 풀 하우스는 정의되는데, 세 장이 같은 숫자로 이루어지고, 나머지 두 장도 같은 숫자인 경우이다.
분모는 (52, 5)가 되는거고, 분자는 트리플을 선택하는 경우와 페어를 선택하는 경우를 합친다.
13종의 패 중에서 각각 3,2장 중복으로 선택하는 것이다. (13, 1)(4, 3), (12, 1)(4, 2)
첫번째 택에서 13종에서 트리플이 될 종류를 하나 선택하고 종류마다 4장씩 있으므로 그중 3장을 선택하는 경우와 2번째 택에서 12종에서 페어가 될 종류를 하나 선택하고 4장 중에서 2장을 선택한다.
$\Large P(full house) = \frac{\Large {13 \choose 1}{4 \choose 3}{12 \choose 1}{4 \choose 2}}{\Large {52 \choose 5}} = 0.1441\% $
참고 : 포커로 알아보는 확률 이야기
추가사항
예시로 X + 3 = 4 이고 너는 양변에서 3을 빼기로 결정을 했어. -3 은 1과 같게 되지. 그리고 나는 어떤 이유로 제곱을 하게 되고, 1제곱은 여전히 1이 되지. 그래서 그것은 좋아. 그리고나서 7을 더하면 8이 되는거지. 거기에 박스를 치는거야. 그것이 해답이 되는거지.
하지만 이는 좋지 못하다. 너가 해야하는 것은 실제로 단어와 문자을 가지는거다. 왜냐하면 이것은 수학 클래스이기 때문인데, 그것이 너가 영어를 사용해서는 안된다는 것이 아니고, 그리고 방정식과 같은 것을 설명해서는 안된다는 것이 아니다.
너가 분명하고 가능한 자세하게 너의 해답을 완전히 정당화 했으면 좋겠다. 마치, 만약 해답이 42이면, 음, 조교(TF)는 답이 42라는 것을 알고 있지. 문제는, 너도 알지만, 너가 그것을 생각하게끔 이끈 이유가 무엇인지가 중요한거다.
그래서 명확성(clarity)은 좋은 단어야. 그리고 나는 좀더 정직(honesty)함을 말하고 싶어. 나는 답이 12로 나와야 한다고 생각하는데, 무언가를 아무 곳에나 매우 지저분하게 적고, 12라는 답이 나왔다고 그것에 상자를 그려 놓는 것 말이야. 그것은 매우 나쁘지.
그래서 만약 너가 어떤 것을 이해하지 못한다면, 물론, 사람들에게 말하고 그것을 이해시키려고 노력해봐라. 하지만, 너가 이해하지 못한다고, 뭔가를 어지럽게 만들기 보다는 말이야.
항상 생각하는데, 만약 고려하는건데, 너를 고용해서 나를 위해 다리를 짓게 하는거야. 그리고 나는 3가지 가능성을 생각하는거지. 만약 너가 나에게 말하는데, 여기 규격이 있고 너는 이것을 하고 그리고 이것을 하고, 이게 정답이라고만 말하면 나는 확신을 가질 수 없겠지. 나는 맹목적으로 신뢰하지는 않을거야. 너가 이전에 성공적으로 다리를 설계했다고 하더라도 말이지. 나는 이것이 동작하는 이유를 보고 싶기 때문이지.
그리고 다른 한편으로, 만약 너가 다리 설계를 말하고, 그리고 그것이 말이 안된다면, 너는 내가 그것을 좋아할거라고 생각하니? 또는 만약 너가 나에게 말하는데, 너가 다리를 어떻게 세울지 방법을 모른다고 하면 내가 그것을 좋아할까? 그러면 나는 그 편이 더 좋을거야. (메모: 모르면 모른다고 사실대로 말해라)
그래서 분명성(clarity), 솔직함(honesty) 그리고 설명(words) 가 되는거야. 너는 아마도 다른 수학 교실에서 이렇게 했을거야. 또는 썼겠지. x^2의 미분은 2x 이다라고 말이야. 그리고 너는 어떤 설명도 쓸 필요가 없었겠지. 하지만 나는 설명(words), 정당화(justifications), 그리고 생각하는 것을 보고 싶은거야. 단지 방정식이 아니라 말이야.