기초통계 R 실습_오픈북 대비
여학생의 평균 신장에 대한 95% 신뢰구간을 구하여라.
n=50; xbar=162; s=5
lb<-xbar - qnorm(0.975)*s/sqrt(n)
ub<-xbar + qnorm(0.975)*s/sqrt(n)
c(lb,ub)
1-1. 모평균에 대한 95% 신뢰구간의 길이가 1cm이하가 되게하려면 최소한 몇명의 표본이 필요한가?
ceiling((2 * qnorm(0.975)*s)^2)
1-2.
90%: 0.95
95%: 0.975
99%: 0.995
2-1. 임의추출: 500명, 프로그램 시청: 130명
- 점추정값 계산
n<-500; X<-130
phat<- X/n
se<-sqrt(phat*(1-phat)/n)
phat ## point estimate
- 표준편차 계산
se ## standard deviation
- 모시청률이 95% 신뢰구간 계산
c(phat - qnorm(0.975)*se, phat + qnorm(0.975)*se)
3-1. 100명 중 24명이 간염일때, 면역성 가진 성인 모비율 p 99% 신뢰구간 구하기
n<-100; X<-25
phat<- X/n
se<-sqrt(phat*(1-phat)/n)
c(phat - qnorm(0.995)*se, phat + qnorm(0.995)*se)
3-2. 모비율 p를 표준오차 1% 이내로 추정하기 위해 필요한 표본의 크기를 구하여라.
ceiling(phat* (1-phat)/(0.01^2))
4-1. 81명 랜덤 조사, 평균 23만원, 표준편차 32,000원일때/ 95% 신뢰구간 구하기
n<-81; xbar <-230; s=32
lb<-xbar - qnorm(0.975)*s/sqrt(n)
ub<-xbar + qnorm(0.975)*s/sqrt(n)
c(lb, ub)
5. 다음 표본들의 모평균에 대한 95% 신뢰구간 구하기기
x<-c(26.7, 25.8, 24.0, 24.9, 26.4, 25.9, 24.4, 21.7, 24.1, 25.9, 27.3, 26.9, 27.3, 24.8, 23.6)
n<-length(x); xbar <-mean(x); s=sd(x)
lb<-xbar - qnorm(0.975)*s/sqrt(n)
ub<-xbar + qnorm(0.975)*s/sqrt(n)
c(lb, ub)
6. 하나의 쿠키에 100개의 씨가 있다. 쿠키 200개 중에 해바라기씨 개수의 평균은 85.8, 표준편차는 60.2였다. 99% 신뢰구간은?
n<-200; xbar <-85.8; s=60.2
lb<-xbar - qnorm(0.995)*s/sqrt(n)
ub<-xbar + qnorm(0.995)*s/sqrt(n)
c(lb, ub)
- 랜덤 표본 추출
기말시험성적이 평균 50점, 표준편차 20점의 정규분포를 따른다는 사실을 알고 있다고 하자. 이 분포를 따르는 성적자료 100개를 임의로 생성
sample.data<-rnorm(n=100, mean=50, sd=20)
sample.data
mean(sample.data)
sd(sample.data)
hist(sample.data)
- 모평균에 대한 신뢰구간 구하기
사과의 평균 무게(mu)에 대한 95% 신뢰구간은? 주어진 자료는 아래와 같음. n=30, xbar = 340, s=50, alpha = 0.05
n <- 30
xbar <- 340
s <- 50
z.cut <- abs(qnorm(0.025))
lb <- xbar - z.cut*(s/sqrt(n))
ub <- xbar + z.cut*(s/sqrt(n))
print(c(xbar, lb,ub))
#
1.90%: 0.05
2. 95%: 0.025
3. 99%: 0.005
# 모분산을 모를때, t 분포 사용
t.cut <- qt(0.025, df=n-1, lower.tail = F)
lb <- xbar - t.cut*(s/sqrt(n))
ub <- xbar + t.cut*(s/sqrt(n))
print(c(xbar, lb,ub))
- 모평균 검정
콜레스테롤 수치를 낮추는데 있어서 운동을 하는 것이 효과적인가를 판단하는 방법은?
▶
## H0 : mu = 200 vs H1 : mu<200
## Data: xbar = 190, sd = 24, n=40
mu0 = 200
xbar = 190; sigma=24; n=40
## significance level
alpha<-0.05
## test statistics
Z<- (xbar - mu0)/(sigma/sqrt(n))
Z
▶
## critical value approach
cut<-qnorm(alpha)
cut
▶
Z < cut
▶
## p-value approach
pval <- pnorm(Z) # p-value
pval
▶
pval< alpha
- 모비율 검정
총 100명의 학생 중 흡연자는 29명(smoke=1), 비흡연자는 71명(smoke=0)이었다. 흡연을 하는 학생의 비율이 0.2보다 큰지 검정해보시오.
▶
#One sample proportion test
#Normal approximation (정규근사)
#H0: p = 0.2
#H1: p > 0.2
prop.test(x=29, n=100, p=0.2, alternative = "greater")
▶
# 정규분포로 근사하지 않고, 이항분포 사용
# Exact binomial test
binom.test(x=29, n=100, p=0.2, alternative = "greater")
더북(TheBook): R을 이용한 데이터 처리 & 분석 실무