Data visualization/데이터시각화(R)

데이터 시각화를 위한 R 기본 문법

뉴욕킴 2023. 9. 3. 19:19
R이란?
  • 통계 계산과 그래픽을 위한 언어/ 작업 환경
  • 최신의 통계 방법들이 구축되어 있음
  • 훌륭한 그래픽이 가능하며 자료를 다루기가 비교적 쉬움
  • 하지만, console을 이용하여 명령어를 입력해야 되므로 GUI 환경에 익숙해져 있는 사용자들은 어려움이 있음

 

R 기본 문법

 

> a <- 1
> a

a

> a=1
> a

a

2*1:10
[1]  2  4  6  8 10 12 14 16 18 20
> matrix(c(1.1,1.2,1.3,1.4), nrow=2)
     [,1] [,2]
[1,]  1.1  1.3
[2,]  1.2  1.4
ls()
 [1] "a"           "abs.r"       "abs.r0"      "abs.r1"     
 [5] "b"           "bc"          "beta"        "cov.beta"   
 [9] "Dx"          "esti.95"     "EY"          "fi05"       
[13] "fi05.lm"     "fit"         "fitted"      "full"       
[17] "H0.1"        "H0.2"        "H0.3"        "H0.4"       
[21] "H1.1"        "H1.2"        "H1.3"        "H1.4"       
[25] "lgd"         "lm.ta01"     "mse"         "new"        
[29] "ord"         "p1"          "p2"          "p22"        
[33] "pred.95"     "resd"        "se.X.h"      "se.X.h.pred"
[37] "smaller"     "sqrt.mse"    "stan.reg"    "ta01"       
[41] "ta08"        "ta08.lm"     "ta08.lm2"    "ta305"      
[45] "ta701"       "ta701.s"     "X"           "X.h" 
 matrix(c(1.1,1.2,1.3,1.4), nrow=2, byrow=TRUE)
     [,1] [,2]
[1,]  1.1  1.2
[2,]  1.3  1.4

 

 

계산 함수
> X = 1:5
> X
[1] 1 2 3 4 5
> log(x)
[1] 2.341806 1.722767 1.131402 1.856298 3.077312
> exp(x)
[1] 3.285963e+04 2.704264e+02 2.219795e+01 6.018450e+02 2.655769e+09
> sin(2*pi)
[1] -2.449213e-16
> pi
[1] 3.141593

 

평균, 분산, 표준편차 계산

 

수열
  • 1.5씩 증가하는 seq
> seq(-5,5,by=1.5)
[1] -5.0 -3.5 -2.0 -0.5  1.0  2.5  4.0

 

벡터

 

 

문자벡터

 

  • 아래 두 문장을 -로 이어주는 함수 
> paste(c("X","Y"),1:5,sep="-")
[1] "X-1" "Y-2" "X-3" "Y-4" "X-5"

 

Object 타입들

 

논리연산자

> b2 = matrix(1:6, ncol=3, nrow=2)
> b2
     [,1] [,2] [,3]
[1,]    1    3    5
[2,]    2    4    6
> b2 = matrix(1:6, ncol=3, nrow=2, byrow=TRUE)
> b2
     [,1] [,2] [,3]
[1,]    1    2    3
[2,]    4    5    6

 

array로 같은 형태의 자료를 3차원 이상의 형태로 만들기
> b5 = array(1:24,dim=c(3,4,2))
> b5
, , 1

     [,1] [,2] [,3] [,4]
[1,]    1    4    7   10
[2,]    2    5    8   11
[3,]    3    6    9   12

, , 2

     [,1] [,2] [,3] [,4]
[1,]   13   16   19   22
[2,]   14   17   20   23
[3,]   15   18   21   24

 

data frame 
  • 같은 길이이나 다른 형태의 자료로 구성된 vector들을 모아서 하나의 개체로 만들 때 쓰이며 data.frame 함수를 이용하여 정의한다. n*p의 형태로 나타나며 character 자료의 경우 factor로 바뀐다.
list 
  • 다른 길이, 다른 형태의 자료로 구성된 vector들을 모아서 하나의 개체로 만들 때 쓰인다. 
logical vector
  • 벡터의 일부를 선택하는 방법 
> x = c(-5:5, NA)
> x
 [1] -5 -4 -3 -2 -1  0  1  2  3  4  5 NA
> is.na(x)
 [1] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
[12]  TRUE
> x[is.na(x)]
[1] NA