Data Statistics

기초통계 R 실습_오픈북 대비

뉴욕킴 2023. 5. 6. 01:30
여학생의 평균 신장에 대한 95% 신뢰구간을 구하여라.

n=50; xbar=162; s=5 

 

lb<-xbar - qnorm(0.975)*s/sqrt(n)
ub<-xbar + qnorm(0.975)*s/sqrt(n)

 

c(lb,ub)

 

1-1. 모평균에 대한 95% 신뢰구간의 길이가 1cm이하가 되게하려면 최소한 몇명의 표본이 필요한가?
ceiling((2 * qnorm(0.975)*s)^2)



1-2.
90%: 0.95 
95%: 0.975
99%: 0.995 

 


2-1. 임의추출: 500명, 프로그램 시청: 130명

 

  1. 점추정값 계산

n<-500; X<-130
phat<- X/n 
se<-sqrt(phat*(1-phat)/n)
phat ## point estimate

 

  1. 표준편차 계산

se ## standard deviation

 

  1. 모시청률이 95% 신뢰구간 계산

c(phat - qnorm(0.975)*se, phat + qnorm(0.975)*se)
 

 


3-1. 100명 중 24명이 간염일때, 면역성 가진 성인 모비율 p 99% 신뢰구간 구하기

n<-100; X<-25
phat<- X/n 
se<-sqrt(phat*(1-phat)/n)
c(phat - qnorm(0.995)*se, phat + qnorm(0.995)*se)

 

3-2. 모비율 p를 표준오차 1% 이내로 추정하기 위해 필요한 표본의 크기를 구하여라.
ceiling(phat* (1-phat)/(0.01^2))


 

4-1. 81명 랜덤 조사, 평균 23만원, 표준편차 32,000원일때/ 95% 신뢰구간 구하기

 

n<-81; xbar <-230; s=32 
lb<-xbar - qnorm(0.975)*s/sqrt(n)
ub<-xbar + qnorm(0.975)*s/sqrt(n)
c(lb, ub)


5. 다음 표본들의 모평균에 대한 95% 신뢰구간 구하기기

 

x<-c(26.7, 25.8, 24.0, 24.9, 26.4, 25.9, 24.4, 21.7, 24.1, 25.9, 27.3, 26.9, 27.3, 24.8, 23.6)

 

n<-length(x); xbar <-mean(x); s=sd(x) 

 

lb<-xbar - qnorm(0.975)*s/sqrt(n)
ub<-xbar + qnorm(0.975)*s/sqrt(n)
c(lb, ub)


6. 하나의 쿠키에 100개의 씨가 있다. 쿠키 200개 중에 해바라기씨 개수의 평균은 85.8, 표준편차는 60.2였다. 99% 신뢰구간은?

 

n<-200; xbar <-85.8; s=60.2 
lb<-xbar - qnorm(0.995)*s/sqrt(n)
ub<-xbar + qnorm(0.995)*s/sqrt(n)
c(lb, ub)


  1. 랜덤 표본 추출

기말시험성적이 평균 50점, 표준편차 20점의 정규분포를 따른다는 사실을 알고 있다고 하자. 이 분포를 따르는 성적자료 100개를 임의로 생성

 

sample.data<-rnorm(n=100, mean=50, sd=20)
sample.data

 

mean(sample.data)
sd(sample.data)
hist(sample.data)


  1. 모평균에 대한 신뢰구간 구하기

사과의 평균 무게(mu)에 대한 95% 신뢰구간은? 주어진 자료는 아래와 같음. n=30, xbar = 340, s=50, alpha = 0.05

 

n <- 30
xbar <- 340
s <- 50
z.cut <- abs(qnorm(0.025))
lb <- xbar - z.cut*(s/sqrt(n))
ub <- xbar + z.cut*(s/sqrt(n))
print(c(xbar, lb,ub))

 


1.90%: 0.05
2. 95%: 0.025
3. 99%: 0.005

 

# 모분산을 모를때, t 분포 사용
t.cut <- qt(0.025, df=n-1, lower.tail = F)
lb <- xbar - t.cut*(s/sqrt(n))
ub <- xbar + t.cut*(s/sqrt(n))
print(c(xbar, lb,ub))


  1. 모평균 검정

콜레스테롤 수치를 낮추는데 있어서 운동을 하는 것이 효과적인가를 판단하는 방법은?

 


## H0 : mu = 200 vs H1 : mu<200 
## Data: xbar = 190, sd = 24, n=40 

 

mu0 = 200 
xbar = 190; sigma=24; n=40

 

## significance level 

 

alpha<-0.05 

 

## test statistics 

 

Z<- (xbar - mu0)/(sigma/sqrt(n))
Z

## critical value approach 
cut<-qnorm(alpha)
cut

Z < cut

## p-value approach
pval <- pnorm(Z) # p-value
pval

pval< alpha


  1. 모비율 검정

총 100명의 학생 중 흡연자는 29명(smoke=1), 비흡연자는 71명(smoke=0)이었다. 흡연을 하는 학생의 비율이 0.2보다 큰지 검정해보시오.

#One sample proportion test
#Normal approximation (정규근사)
#H0: p = 0.2
#H1: p > 0.2
prop.test(x=29, n=100, p=0.2, alternative = "greater")
 

# 정규분포로 근사하지 않고, 이항분포 사용
# Exact binomial test
binom.test(x=29, n=100, p=0.2, alternative = "greater")






더북(TheBook): R을 이용한 데이터 처리 & 분석 실무

 

'Data Statistics' 카테고리의 다른 글

차원 축소(Dimensionality Reduction)  (1) 2024.11.02
딥러닝_통계 분석 종류  (1) 2024.11.02
선형 회귀와 로지스틱 회귀  (0) 2024.09.22
[3] Simple Linear Regression  (0) 2023.05.27
기초통계 R 실습  (0) 2023.05.02