Data visualization/데이터시각화(R) 26

한국의 인기 YouTube 동영상 통계

# 패키지 로드 library(sf) library(here) library(skimr) library(janitor) library(maps) library(plotly) library(readr) library(dplyr) library(lubridate) library(ggplot2) # 데이터 불러오기 data_to_clean % clean_names() # 데이터 중복 확인 duplicated_rows % arrange(desc(total_uploads)) ggplot(channel_uploads, aes(x = channel_type, y = total_uploads, fill = channel_type)) + geom_bar(stat = "identity") + labs(title = "To..

Data analysis of YouTube channels dataset in R

#Load packages install.packages("sf") install.packages("here") install.packages("skimr") install.packages("janitor") install.packages("maps") install.packages("plotly") library(readr) library(dplyr) library(here) library(skimr) library(janitor) library(lubridate) library(ggplot2) library(maps) library(plotly) library(sf) # Read data from file data_to_clean % clean_names() %>% names() [1] "rank" ..

데이터시각화(R)_Texas flight data

1. 텍사스주의 달라스와 휴스턴에 도착하는 비행만을 뽑아서 Texas 에 저장하시오. (공항코드: DFW IAH HOU) library(nycflights13) library(tidyverse) library(lubridate) library(ggplot2) flights head(flights) Texas % filter(dest %in% c("DFW", "IAH", "HOU")) 2. Texas에서 dep_delay와 arr_delay관계 살펴보기 library(ggplot2) Texas %>% ggplot(aes(dep_delay, arr_delay))+geom_point() 3. Texas에서 비행 중 발생한 delay 분포살펴보기 Texas %>% mutate(pure_delay = arr_de..

데이터시각화(R)_탐색적 자료분석 EDA

탐색적 자료분석 (EDA) EDA 의 단계 1. 자료에 대하여 궁금한 질문 사항들 정리 2. 자료 시각화, 변형, 그리고 모델링등의 탐색을 통해 질문들에 대한 답을 찾기 3. 탐색 결과를 이용하여 질문 사항들을 구체화하거나 새로운 질문 사항들 만들기 • EDA 과정은 자료분석의 가장 중요한 단계 • 자료정리, 자료 시각화, 자료 변형, 자료 모형화 등이 포함 EDA 의 목표 자료에 대한 이해를 위한 것 • EDA 를 위한 일반적인 질문 – What type of variation occurs within my variables? – What type of covariation occurs between my variables? • variable: 측정할 수 있는 것, 변수 • value: 측정한 값 •..

데이터시각화(R)_Tidy Data #

Tidy Data 같은 자료를 4 가지의 다른 방법으로 표현 dataset 을 tidy 하게 만들기 위한 3 가지의 기본 규칙 각 변수는 각자의 column 을 가지고 있어야 한다 각 observation 은 각자의 row 를 가지고 있어야 한다 각 값은 각자의 cell 을 가지고 있어야 한다 tidy 자료의 장점 자료를 저장하는데에 일관된 방법을 제공하고 이후 작업을 위한 도구들을 이에 맞춰 개발하므로 배우기 쉽다 변수를 column 으로 놓는 것은 특히 유용. R 의 내장된 함수들은 vector 를 기본으로 하고 있으므로 tidy data 를 vector 로 변환하는 것이 유용 library(tidyverse) 인구 10,000명 당의 cases로 바꾸기 table1 %>% mutate(rate = ..

데이터시각화(R)_nycflights13 Flights

라이브러리 불러오기 library(nycflights13) arrange를 DESC로 역순으로 뽑기 A = flights %>% count(dest) %>% arrange(desc(n)) - %>% : 왼쪽의 결과를 오른쪽 함수의 첫 번째 인자로 전달 - count(dest) : flights 데이터셋에서 dest(목적지) 칼럼의 각 값의 빈도수 계산 - %>% arrange(desc(n)): 앞서 계산된 빈도수를 기준으로 내림차순 DESC로 계산 → flights 데이터셋에서 각 목적지별 비행 횟수를 계산하고, 결과를 비행 순서가 많은 순서대로 정렬 편수가 많은 20개만 추출하여 확인 A %>% head(n=20) %>% ggplot()+geom_bar(aes(dest,n),stat="identity"..

데이터시각화(R)_Data Import

readr package 의 flat file 을 부르는 함수들 read_csv() : 자료가 ,로 분리된 형태의 파일을 읽는다. read_csv2(): 자료가 ;로 분리된 형태의 파일을 읽는다. (,가 소숫점을 대신 하는 나라의 경우 많이 이용) read_tsv() : 자료가 \t(tab)으로 분리된 형태의 파일을 읽는다 read_delim() : delim 에 설정된 형태로 분리된 파일을 읽는다. read_fwf() : 고정폭으로 된 파일을 읽는다. field 를 fwf_widths()로 지정하거나 position 을 fwf_positions()로 지정 read_table() : 공백으로 분리된 형태의 파일 읽기 library(tidyverse) heights [DBGUIDE 연재] ggplot2를 ..

데이터시각화(R)_Tibbles2

6. Combining multiple operations with the pipe 각 도착지별로 distance 와 average delay 의 관계 살펴보기 library(tidyverse) library(nycflights13) flights by_dest = group_by(flights,dest) by_dest delay %를 이용하면 간편 delays % group_by(dest) %>% summarise( count = n(), dist = mean(distance, na.rm = TRUE), delay = mean(arr_delay, na.rm = TRUE) ) %>% filter(count > 20, dest != "HNL") - summarise : 각 그룹의 요약 통계량 계산 - co..

데이터시각화(R)_Tibbles

iris 데이터 불러오기 library(tidyverse) head(iris) class(iris) iris를 tibble로 저장하기 irisT=as_tibble(iris) irisT Sepal.Length Sepal.Width Petal.Length Petal.Width 1 5.1 3.5 1.4 0.2 2 4.9 3 1.4 0.2 3 4.7 3.2 1.3 0.2 4 4.6 3.1 1.5 0.2 5 5 3.6 1.4 0.2 6 5.4 3.9 1.7 0.4 7 4.6 3.4 1.4 0.3 8 5 3.4 1.5 0.2 9 4.4 2.9 1.4 0.2 10 4.9 3.1 1.5 0.1 class(irisT) "tbl_df" "tbl" "data.frame" tibble()을 이용하여 데이터셋 만들기 tibbl..

728x90