Data visualization/데이터시각화(R)

데이터시각화(R)_Data Import

뉴욕킴 2023. 10. 17. 22:29

readr package 의 flat file 을 부르는 함수들

  • read_csv() : 자료가 ,로 분리된 형태의 파일을 읽는다. 
  •  read_csv2(): 자료가 ;로 분리된 형태의 파일을 읽는다. (,가 소숫점을 대신 하는 나라의
    경우 많이 이용) 
  • read_tsv() : 자료가 \t(tab)으로 분리된 형태의 파일을 읽는다
  •  read_delim() : delim 에 설정된 형태로 분리된 파일을 읽는다.
  •  read_fwf() : 고정폭으로 된 파일을 읽는다. field 를 fwf_widths()로 지정하거나 position 을
    fwf_positions()로 지정
  • read_table() : 공백으로 분리된 형태의 파일 읽기

 

library(tidyverse)
heights <- read_csv("./data/heights.csv")

read_csv()를 실행시키면 parsing 결과로 나타나는 각 변수의 이름과 type 을 보여줌

  •  read_csv vs. read.csv()와 비교
    1. read.csv 보다 10 배정도 빠르다. 파일이 큰 경우 progress bar 를 제공하여 상황을 알수
    있게 한다. 
    2. tibble 자료를 생성. character 의 경우 factor 로 바뀌지 않고 character 로 남아있게 됨. 
    3. read.csv 은 OS 시스템마다 다르게 작동. read_csv 가 더 reproducible 하다. 

Writing to a file (파일 저장)

 

  • write_csv() 와 write_tsv()
    – string 은 UTF-8 로 encoding
    – date, date-time 은 ISO8601 format 으로 저장

 

  •  write_excel_csv(): excel 파일로 저장
    – 파일의 시작 부분에 UTF-8 로 encoding 을 하고 있다는 것을 excel 에 알려주는 특별
    문자(“byte order mark”)를 써줌
write_csv(heights, "./data/heights-m.csv")

 

  • csv 로 저장할 때에는 type 에 대한 정보는 잃어버림

  • write_rds()와 read_rds()를 이용

- R 의 기본함수인 saveRDS()와 readRDS()에 해당
– binary format 으로 저장

 


R 독학

 

data-visualization-2.1 (usyd.edu.au)

Chapter 8 ggplot2를 이용한 데이터 시각화 | R 프로그래밍 (개정판) (kilhwan.github.io)

 

Chapter 8 ggplot2를 이용한 데이터 시각화 | R 프로그래밍 (개정판)

이 책은 경영데이터분석기초의 주교재로 사용되기 위해 개발되었습니다.

kilhwan.github.io

[DBGUIDE 연재] ggplot2를 이용한 R 시각화 - from __future__ import dreamfrom __future__ import dream (freesearch.pe.kr)

 

[DBGUIDE 연재] ggplot2를 이용한 R 시각화 - from __future__ import dream

금번 연재는 ggplot2에 대한 문법 설명을 주로 하게 된다. ggplot2를 사용하기 위해 아주 기본적인 지식이 되므로 꼭 이해해둘 필요가 있는 내용이다.     <연재주제> R 기반의 데이터 시각화 <필자>

freesearch.pe.kr