Data visualization 42

머신러닝, 딥러닝의 정의

머신러닝이란? → 데이터를 기반으로, 패턴을 인식하여 컴퓨터를 이용해 계산을 함 - 머신러닝은 항상 데이터를 기반으로 함 - 여러규칙을 단순조합하는 고전적인 인공지능 시스템이나 원하는 결과값이 출력되도록 내부 처리 동작을 사용자가 완전히 정의해야 하는 일반적인 컴퓨터 알고리즘과 차이가 있음 - 머신러닝은 알고리즘에 의해서가 아닌 데이터 학습을 통해 실행동작이 정해짐 - 대용량의 데이터 필요 1) 패턴인식: 데이터의 패턴을 유추 2) 컴퓨터를 이용한 계산 - 데이터를 처리하고 패턴을 학습하고 계산하는 데 컴퓨터를 사용 → 계산 자체도 중요한 연구분야 - 응용수학이나 통계학과 달리, 머신러닝은 단순히 수학적인 모델의 구축이나 증명에만 그치는 것이 아니라 실제 데이터에 대해 계산해서 결과를 만들어낸다는 점에서..

빅데이터의 활용 요소 및 기술 정리

빅데이터 활용 요소 1. 자원(빅데이터) 2. 기술(빅데이터 플랫폼) 3. 인력(데이터 과학자) 빅데이터 플랫폼 1) 플랫폼으로의 진화: 데이터 플랫폼은 정형화된 형태로 데이터를 저장하는 파일 시스템으로 시작해서 다수가 동시에 사용할 수 있는 데이터베이스(database)와 데이터웨어하우스(data warehouse)를 거쳐 폭발적으로 증가하는 데이터를 저장 및 유통하기 위한 빅데이터 플랫폼으로 진화 2) 빅데이터 자원과 이를 이용한 애플리케이션이나 소프트웨어를 손쉽게 사용할 수 있는 기반 기술이 집합적으로 모여 형성된 환경 빅데이터에서 가치를 추출하기 위해 일련의 과정을 규격화한 기술 의미 (수집 → 저장 → 처리 → 분석 → 시각화) 빅데이터 활용: 저장기술 데이터웨어하우스, RDB, 클라우드, X8..

인공지능이란?

인공지능의 개념 1) Thinking humanly: the cognitive modeling approach - 인간처럼 생각하는 기계/시스템 만드는 것을 목적으로 함(human-level general intelligence) - 이를 위해서는 인간의 실제 정신작용이 어떻게 작동되는지에 대한 이해가 선행되어야 함. 이는 인간의 자기성 찰 또는 심리학적 실험을 통해 밝혀질 수 있음 - 인지 모델링 방식은 인공지능을 위한 컴퓨터 모델 및 시스템에 대한 지식과 심리학적 실험을 통해 인간의 정신 작용 메커니즘을 밝히고 관련 이론을 정립해 나가는 방식임 2) Thinking rationally: the laws of thought approach - 아리스토텔레스의 ‘성공적인 추론’에 대한 개념을 최초로 시도..

한국의 인기 YouTube 동영상 통계

# 패키지 로드 library(sf) library(here) library(skimr) library(janitor) library(maps) library(plotly) library(readr) library(dplyr) library(lubridate) library(ggplot2) # 데이터 불러오기 data_to_clean % clean_names() # 데이터 중복 확인 duplicated_rows % arrange(desc(total_uploads)) ggplot(channel_uploads, aes(x = channel_type, y = total_uploads, fill = channel_type)) + geom_bar(stat = "identity") + labs(title = "To..

Data analysis of YouTube channels dataset in R

#Load packages install.packages("sf") install.packages("here") install.packages("skimr") install.packages("janitor") install.packages("maps") install.packages("plotly") library(readr) library(dplyr) library(here) library(skimr) library(janitor) library(lubridate) library(ggplot2) library(maps) library(plotly) library(sf) # Read data from file data_to_clean % clean_names() %>% names() [1] "rank" ..

데이터시각화(R)_Texas flight data

1. 텍사스주의 달라스와 휴스턴에 도착하는 비행만을 뽑아서 Texas 에 저장하시오. (공항코드: DFW IAH HOU) library(nycflights13) library(tidyverse) library(lubridate) library(ggplot2) flights head(flights) Texas % filter(dest %in% c("DFW", "IAH", "HOU")) 2. Texas에서 dep_delay와 arr_delay관계 살펴보기 library(ggplot2) Texas %>% ggplot(aes(dep_delay, arr_delay))+geom_point() 3. Texas에서 비행 중 발생한 delay 분포살펴보기 Texas %>% mutate(pure_delay = arr_de..

데이터시각화(R)_탐색적 자료분석 EDA

탐색적 자료분석 (EDA) EDA 의 단계 1. 자료에 대하여 궁금한 질문 사항들 정리 2. 자료 시각화, 변형, 그리고 모델링등의 탐색을 통해 질문들에 대한 답을 찾기 3. 탐색 결과를 이용하여 질문 사항들을 구체화하거나 새로운 질문 사항들 만들기 • EDA 과정은 자료분석의 가장 중요한 단계 • 자료정리, 자료 시각화, 자료 변형, 자료 모형화 등이 포함 EDA 의 목표 자료에 대한 이해를 위한 것 • EDA 를 위한 일반적인 질문 – What type of variation occurs within my variables? – What type of covariation occurs between my variables? • variable: 측정할 수 있는 것, 변수 • value: 측정한 값 •..

데이터시각화(R)_Tidy Data #

Tidy Data 같은 자료를 4 가지의 다른 방법으로 표현 dataset 을 tidy 하게 만들기 위한 3 가지의 기본 규칙 각 변수는 각자의 column 을 가지고 있어야 한다 각 observation 은 각자의 row 를 가지고 있어야 한다 각 값은 각자의 cell 을 가지고 있어야 한다 tidy 자료의 장점 자료를 저장하는데에 일관된 방법을 제공하고 이후 작업을 위한 도구들을 이에 맞춰 개발하므로 배우기 쉽다 변수를 column 으로 놓는 것은 특히 유용. R 의 내장된 함수들은 vector 를 기본으로 하고 있으므로 tidy data 를 vector 로 변환하는 것이 유용 library(tidyverse) 인구 10,000명 당의 cases로 바꾸기 table1 %>% mutate(rate = ..

데이터시각화(R)_nycflights13 Flights

라이브러리 불러오기 library(nycflights13) arrange를 DESC로 역순으로 뽑기 A = flights %>% count(dest) %>% arrange(desc(n)) - %>% : 왼쪽의 결과를 오른쪽 함수의 첫 번째 인자로 전달 - count(dest) : flights 데이터셋에서 dest(목적지) 칼럼의 각 값의 빈도수 계산 - %>% arrange(desc(n)): 앞서 계산된 빈도수를 기준으로 내림차순 DESC로 계산 → flights 데이터셋에서 각 목적지별 비행 횟수를 계산하고, 결과를 비행 순서가 많은 순서대로 정렬 편수가 많은 20개만 추출하여 확인 A %>% head(n=20) %>% ggplot()+geom_bar(aes(dest,n),stat="identity"..

728x90