5. 임의 실험, 기본 결과

Business statistics

5. 임의 실험, 기본 결과

뉴욕킴 2024. 5. 19. 19:19

실험 (Experiment)

정의: 결과를 만드는 과정 (Definition = the process of making outcome)

임의 실험 (Random Experiment)

정의: 여러 가능한 결과 중 하나로 이어지는 행동이나 과정 (An action or process that leads to one of several possible outcomes)
공정한 실험: 특정 결과를 얻기 위해 조작되지 않은 공정한 실험 (The fair experiment that was not manipulated to get certain outcomes)
특징: 결과를 확실하게 예측할 수 없는 경우, 이는 랜덤 실험이다 ("If the outcome may not be predicted with certainty, then it is Random experiment")

기본 결과 (Elementary Outcome)

정의: 랜덤 실험의 측정된 값(결과) (The measured value (result) of random experiment)
예시:
- 동전을 던졌을 때 나오는 앞면 또는 뒷면 (Head or Tail appears through coin throwing)
- 주사위를 굴렸을 때 나오는 1에서 6 사이의 값 (A value between 1 and 6 when a dice is rolled)

표본 공간과 사건 (Sample Space & Event)
표본 공간 (Sample Space, 표본공간, S)

정의: 랜덤 실험의 모든 가능한 결과의 목록 (A list of all possible outcomes of the random experiment)
조건: 결과는 반드시 모든 경우를 포함해야 하며 상호 배타적이어야 한다 (The outcomes must be exhaustive and mutually exclusive)

예시

동전 두 번 던지기: S = { (H,H), (H,T), (T,H), (T,T) }
- H는 앞면(Head), T는 뒷면(Tail)을 의미합니다.
- 동전을 두 번 던질 때 나올 수 있는 모든 가능한 결과의 조합을 나타냅니다.
주사위 던지기: S = { 1, 2, 3, 4, 5, 6 }
- 주사위를 던졌을 때 나올 수 있는 모든 가능한 값입니다.
- 1에서 6까지의 숫자가 나올 수 있습니다.
두 개의 주사위를 함께 던지기: S = { (1,1), (1,2), (1,3), ..., (6,5), (6,6) }
- 두 개의 주사위를 던졌을 때 나올 수 있는 모든 가능한 조합입니다.
- 각 주사위가 가질 수 있는 값(1에서 6)들의 모든 조합을 나타냅니다.

사건 (Event, 사건)

정의: 표본 공간 내의 하나 이상의 단순 사건들의 모음 (A collection or set of one or more simple events in a sample space)
단순 사건 (Simple Event): 표본 공간의 개별 결과 (An individual outcome of a sample space)

예시

두 개의 주사위를 6번 던질 때 발생할 수 있는 가능한 사건들:
- { (1,6), (2,5), (3,4), (4,3), (5,2), (6,1) }
- { (1,5), (2,3), (1,4), (2,6), (5,1), (6,4) }
- { (1,1), (2,6), (2,2), (3,2), (4,5), (1,4) }

확률 (Probability, 확률, 확률량)

정의: 어떤 사건이 발생할 가능성의 정도를 측정한 값 (The probability of an event is a measure of the likelihood that the event will occur)
특징: 모든 사건의 확률은 항상 0에서 1 사이의 값을 가집니다 (The probability of all the events is always from 0 to 1)
- 0은 사건이 절대 발생하지 않음을 의미합니다 (0 means the event never occurs)
- 1은 사건이 항상 발생함을 의미합니다 (1 means that the event always occurs)

확률의 기본 연산

세 가지 대표적인 논리 연산자: "그리고", "또는", "아니다(~)"

사건 A와 B의 교집합 (A∩B): A와 B가 모두 발생하는 사건
사건 A와 B의 합집합 (A∪B): A 또는 B 또는 둘 다 발생하는 사건
보수 규칙 (not E): 사건 E가 발생하지 않는 것

덧셈 규칙

상호 배타적인 두 사건 C와 D의 경우: P(C 또는 D) = P(C) + P(D)

조건부 확률

조건부 확률: 사건 B가 주어졌을 때 사건 A가 발생할 확률 P(A|B)

예: P(A|B) = P(A와 B) / P(B)

독립 사건

두 사건 A와 B가 독립적이라는 것은 하나의 사건이 다른 사건의 확률에 영향을 미치지 않는 것.

P(A|B) = P(A) 또는 P(B|A) = P(B)가 성립하면 독립적임을 증명할 수 있음

확률 변수란?

확률 변수: 실험의 각 결과에 숫자를 할당하는 함수 또는 규칙

실험이 수행될 때까지 그 결과가 결정되지 않는 미지의 값
하나의 실험에서 하나 이상의 확률 변수가 생성될 수 있음
보통 XYZ 등으로 표시

예시

두 개의 동전을 던질 때
- 사건: HH, HT, TH, TT
- 확률 변수 X = 나오는 앞면의 수 (2, 1, 0)
스타벅스의 음료 판매량
- 표본 공간: {카페 라떼, 아메리카노, 녹차, 카푸치노}
- 확률 변수 X = 카페 라떼 주문 수

이산 확률 변수 vs 연속 확률 변수

이산 확률 변수: 셀 수 있는 값의 개수를 가짐 (예: 스타벅스에서 판매된 카페 라떼 수)
연속 확률 변수: 셀 수 없는 값의 개수를 가짐 (예: 일주일 동안 공부한 시간)

확률 분포란?

확률 함수: 변수와 관련된 결과가 발생할 확률을 제공하는 함수
확률 분포: 확률 변수의 값과 이 값과 관련된 확률을 설명하는 테이블, 공식 또는 그래프

이산 확률 분포 vs 연속 확률 분포

이산 확률 분포: X의 값이 유한하거나 셀 수 있는 경우
연속 확률 분포: 확률 변수가 특정 구간에서 셀 수 없는 값을 가질 수 있는 경우

이산 확률 분포

확률 함수: 확률 변수 X가 특정 값을 가질 확률

P(A) = n(A) / n(S)
조건: 0 ≤ P(X=x) ≤ 1, Σ P(X=x) = 1

연속 확률 분포

확률 밀도 함수 (p.d.f.)

확률 값은 0 이상이어야 함
전체 구간의 면적은 1이어야 함
특정 구간에 속하는 확률을 계산하기 위해 사용

이산 확률 분포

이항 분포란?

이항 분포는 이항 실험의 결과입니다. 이는 확률 변수 X가 각 결과를 가질 확률을 할당하는 함수입니다.

이항 실험이란?

각 시도에는 두 가지 가능한 결과가 있습니다. (예: 예 또는 아니오, 여자 또는 남자, 앞면 또는 뒷면)
두 결과 중 하나를 성공(SUCCESS)/실패(FAILURE)로 레이블을 붙입니다.
성공 확률 P(Outcome = SUCCESS) = p, 실패 확률 P(Outcome = FAILURE) = 1-p
각 시도는 독립적입니다.

이항 확률 변수 X

이항 확률 변수 X는 n번의 시도에서 성공 횟수입니다.
B(n, p) = N번의 시도와 성공 확률 P를 가진 이항 분포
X ~ B(n, p): "확률 변수 X는 N번의 시도와 성공 확률 P를 가진 이항 분포를 따릅니다."

베르누이 분포

하나의 이항 실험을 수행할 때 발생하는 확률 분포입니다.
베르누이 실험: 두 가지 결과만 있는 무작위 실험
- 성공(SUCCESS): 알고 싶은 결과
- 실패(FAILURE): 그 외의 결과
- 성공 확률은 p, 실패 확률은 1-p

이항 분포의 전제 조건

이항 분포는 베르누이 실험을 여러 번 반복할 때 발생합니다.
성공 확률 p는 모든 실험에서 동일해야 합니다.
한 시도의 결과는 다른 시도의 결과에 영향을 미치지 않습니다. 즉, 시도는 독립적입니다.

이항 분포 공식

n번의 시도에서 성공 횟수가 x일 확률 P(X=x)=(nx)px(1−p)n−xP(X=x) = \binom{n}{x} p^x (1-p)^{n-x}
- (nx)\binom{n}{x}: 조합, n개 중 x개를 선택하는 경우의 수
- p: 성공 확률
- 1-p: 실패 확률

예시 1: 동전을 4번 던질 때 확률 변수 X의 확률 분포 계산

확률 변수 X는 앞면의 수를 나타냅니다. (P = 1/2, N=4) P(X=x)=(4x)(1/2)x(1−1/2)4−xP(X=x) = \binom{4}{x} (1/2)^x (1-1/2)^{4-x} x=0,1,2,3,4x = 0, 1, 2, 3, 4

예시 2: 주사위를 4번 던질 때 6이 나오는 횟수에 대한 확률 분포 계산

확률 변수 X는 6이 나오는 횟수를 나타냅니다. (P = 1/6, N=4) P(X=x)=(4x)(1/6)x(1−1/6)4−xP(X=x) = \binom{4}{x} (1/6)^x (1-1/6)^{4-x} x=0,1,2,3,4x = 0, 1, 2, 3, 4

이항 분포의 평균과 분산

평균 E(X)=μ=n×pE(X) = \mu = n \times p
분산 V(X)=σ2=n×p×(1−p)V(X) = \sigma^2 = n \times p \times (1-p)

예시 3: 주사위를 5번 던질 때 홀수가 나오는 횟수 계산

확률 변수 X는 주사위를 5번 던질 때 홀수가 나오는 횟수
- E(X)=μ=5×0.5=2.5E(X) = \mu = 5 \times 0.5 = 2.5
- V(X)=5×0.5×0.5=1.25V(X) = 5 \times 0.5 \times 0.5 = 1.25

예시 4: Ewha-Cola 다이어트 콜라 시음회

Ewha-Cola가 새로운 다이어트 콜라에 대한 선호도를 조사하기 위해 100명의 소비자를 대상으로 시음회를 엽니다.
확률 변수 X는 Ewha-Cola의 새로운 다이어트 콜라를 선택한 소비자 수를 나타냅니다.
X는 이항 분포를 따릅니다.

새로운 다이어트 콜라 시음회가 이항 실험인가요? 왜 그렇습니까?
- 네, 성공/실패(선택/비선택) 두 가지 결과가 있기 때문입니다.
동일한 실험을 두 번 이상 반복했나요? 왜 그렇습니까?
- 네, 100명의 소비자를 대상으로 시음회를 열었기 때문에 100번의 실험을 한 것입니다.
각 실험에서 성공 확률이 동일했나요?
- 네, 각 소비자가 Ewha-Cola의 새로운 다이어트 콜라를 선택할 확률은 1/3입니다.
100명의 소비자 간의 실험이 독립적이었나요?
- 네, 한 소비자의 선택이 다른 소비자의 선택에 영향을 미치지 않았기 때문입니다.

E(X)와 V(X)는 다음과 같습니다:

E(X)=100×13=33.33E(X) = 100 \times \frac{1}{3} = 33.33
V(X)=100×13×23=22.22V(X) = 100 \times \frac{1}{3} \times \frac{2}{3} = 22.22

포아송 분포

주어진 시간, 거리 또는 면적 내에서 사건이 발생하는 횟수에 대한 확률 분포
평균 도착률 λ로 표현
단위 시간당 평균 도착률이 크지 않아야 함 (λ < 20), λ 가 10이 넘으면 정확히 안나옴
1시간 동안 버스 3대가 온다.

연속 확률 분포

정규 분포

확률 변수 X가 특정 구간에 속할 확률을 할당하는 함수
데이터 분포의 중심은 항상 평균(μ)
데이터가 평균에서 얼마나 흩어져 있는지를 표준 편차(σ)로 결정
표준 정규 분포: 평균이 0이고 표준 편차가 1인 정규 분포

예시

특정 시간 구간에서 컴퓨터 조립 시간의 확률 계산
여성 카피라이터의 기본 급여가 $75,000를 초과할 확률 계산
남성 카피라이터 상위 1%보다 높은 급여를 요구하는 최소 급여 계산