기초통계 R 실습_오픈북 대비

Data Statistics

기초통계 R 실습_오픈북 대비

뉴욕킴 2023. 5. 6. 01:30

여학생의 평균 신장에 대한 95% 신뢰구간을 구하여라.

n=50; xbar=162; s=5

lb<-xbar - qnorm(0.975)*s/sqrt(n)
ub<-xbar + qnorm(0.975)*s/sqrt(n)

c(lb,ub)

1-1. 모평균에 대한 95% 신뢰구간의 길이가 1cm이하가 되게하려면 최소한 몇명의 표본이 필요한가?
ceiling((2 * qnorm(0.975)*s)^2)

1-2.
90%: 0.95
95%: 0.975
99%: 0.995

2-1. 임의추출: 500명, 프로그램 시청: 130명

점추정값 계산

n<-500; X<-130
phat<- X/n
se<-sqrt(phat*(1-phat)/n)
phat ## point estimate

표준편차 계산

se ## standard deviation

모시청률이 95% 신뢰구간 계산

c(phat - qnorm(0.975)*se, phat + qnorm(0.975)*se)

3-1. 100명 중 24명이 간염일때, 면역성 가진 성인 모비율 p 99% 신뢰구간 구하기

n<-100; X<-25
phat<- X/n
se<-sqrt(phat*(1-phat)/n)
c(phat - qnorm(0.995)*se, phat + qnorm(0.995)*se)

3-2. 모비율 p를 표준오차 1% 이내로 추정하기 위해 필요한 표본의 크기를 구하여라.
ceiling(phat* (1-phat)/(0.01^2))

4-1. 81명 랜덤 조사, 평균 23만원, 표준편차 32,000원일때/ 95% 신뢰구간 구하기

n<-81; xbar <-230; s=32
lb<-xbar - qnorm(0.975)*s/sqrt(n)
ub<-xbar + qnorm(0.975)*s/sqrt(n)
c(lb, ub)

5. 다음 표본들의 모평균에 대한 95% 신뢰구간 구하기기

x<-c(26.7, 25.8, 24.0, 24.9, 26.4, 25.9, 24.4, 21.7, 24.1, 25.9, 27.3, 26.9, 27.3, 24.8, 23.6)

n<-length(x); xbar <-mean(x); s=sd(x)

lb<-xbar - qnorm(0.975)*s/sqrt(n)
ub<-xbar + qnorm(0.975)*s/sqrt(n)
c(lb, ub)

6. 하나의 쿠키에 100개의 씨가 있다. 쿠키 200개 중에 해바라기씨 개수의 평균은 85.8, 표준편차는 60.2였다. 99% 신뢰구간은?

n<-200; xbar <-85.8; s=60.2
lb<-xbar - qnorm(0.995)*s/sqrt(n)
ub<-xbar + qnorm(0.995)*s/sqrt(n)
c(lb, ub)

랜덤 표본 추출

기말시험성적이 평균 50점, 표준편차 20점의 정규분포를 따른다는 사실을 알고 있다고 하자. 이 분포를 따르는 성적자료 100개를 임의로 생성

sample.data<-rnorm(n=100, mean=50, sd=20)
sample.data

mean(sample.data)
sd(sample.data)
hist(sample.data)

모평균에 대한 신뢰구간 구하기

사과의 평균 무게(mu)에 대한 95% 신뢰구간은? 주어진 자료는 아래와 같음. n=30, xbar = 340, s=50, alpha = 0.05

n <- 30
xbar <- 340
s <- 50
z.cut <- abs(qnorm(0.025))
lb <- xbar - z.cut*(s/sqrt(n))
ub <- xbar + z.cut*(s/sqrt(n))
print(c(xbar, lb,ub))

#
1.90%: 0.05
2. 95%: 0.025
3. 99%: 0.005

# 모분산을 모를때, t 분포 사용
t.cut <- qt(0.025, df=n-1, lower.tail = F)
lb <- xbar - t.cut*(s/sqrt(n))
ub <- xbar + t.cut*(s/sqrt(n))
print(c(xbar, lb,ub))

모평균 검정

콜레스테롤 수치를 낮추는데 있어서 운동을 하는 것이 효과적인가를 판단하는 방법은?

▶
## H0 : mu = 200 vs H1 : mu<200
## Data: xbar = 190, sd = 24, n=40

mu0 = 200
xbar = 190; sigma=24; n=40

## significance level

alpha<-0.05

## test statistics

Z<- (xbar - mu0)/(sigma/sqrt(n))
Z
▶
## critical value approach
cut<-qnorm(alpha)
cut
▶
Z < cut
▶
## p-value approach
pval <- pnorm(Z) # p-value
pval
▶
pval< alpha

모비율 검정

총 100명의 학생 중 흡연자는 29명(smoke=1), 비흡연자는 71명(smoke=0)이었다. 흡연을 하는 학생의 비율이 0.2보다 큰지 검정해보시오.

▶

#One sample proportion test
#Normal approximation (정규근사)
#H0: p = 0.2
#H1: p > 0.2
prop.test(x=29, n=100, p=0.2, alternative = "greater")

▶
# 정규분포로 근사하지 않고, 이항분포 사용
# Exact binomial test
binom.test(x=29, n=100, p=0.2, alternative = "greater")

더북(TheBook): R을 이용한 데이터 처리 & 분석 실무

'Data Statistics' 카테고리의 다른 글

차원 축소(Dimensionality Reduction) (1)	2024.11.02
딥러닝_통계 분석 종류 (1)	2024.11.02
선형 회귀와 로지스틱 회귀 (0)	2024.09.22
[3] Simple Linear Regression (0)	2023.05.27
기초통계 R 실습 (0)	2023.05.02

현재글기초통계 R 실습_오픈북 대비

250x250

데이터 공부하는 뉴욕킴

데이터 공부하는 뉴욕킴입니다. 데이터 사이언스 함께 공부해요😘

파이썬머신러닝완벽가이드, r, 빅데이터, 데이터시각화, 데이터베이스, 패스트캠퍼스, 파이썬, 머신러닝완벽가이드, 이대데이터사이언스, 머신러닝, 태블로, 딥러닝, 국비지원, 회귀, 프로그래머스, SQL, 데이터, 파이썬기초, 데이터분석, 빅데이터공모전,

Today :
Yesterday :

데이터 공부하는 뉴욕킴