전체 글 196

데이터시각화(R)_Tidy Data #

Tidy Data 같은 자료를 4 가지의 다른 방법으로 표현 dataset 을 tidy 하게 만들기 위한 3 가지의 기본 규칙 각 변수는 각자의 column 을 가지고 있어야 한다 각 observation 은 각자의 row 를 가지고 있어야 한다 각 값은 각자의 cell 을 가지고 있어야 한다 tidy 자료의 장점 자료를 저장하는데에 일관된 방법을 제공하고 이후 작업을 위한 도구들을 이에 맞춰 개발하므로 배우기 쉽다 변수를 column 으로 놓는 것은 특히 유용. R 의 내장된 함수들은 vector 를 기본으로 하고 있으므로 tidy data 를 vector 로 변환하는 것이 유용 library(tidyverse) 인구 10,000명 당의 cases로 바꾸기 table1 %>% mutate(rate = ..

[특강] 데이터 분석 프로젝트 예시

LG CNS 김진수 전문위원/ D&A 사업부 D&A 플랫폼 기술담당 - 석유화학 사업부 공통모델 개발 및 확산 - 설비 모니터링 시스템 개발 - 디스플레이 패널 품질검사 자동화 - 스마트제어 자세판정 시스템 개발 - 식수예측 - 전략 강화를 위한 빅데이터 분석 1. 데이터 분석 프로젝트 사례 MLOps란? MLOps란 머신 러닝(Machine Learning)과 운영(Operations)을 합친 용어로 프로덕션 환경에서 머신 러닝(ML) 모델이 지속적이고 안정적으로 배포되도록 유지, 관리, 모니터링 해주는 것입니다. MLOps는 머신러닝 모델 개발과 운영을 통합해 ML 시스템을 자동으로 유지, 관리, 운영합니다. MLOps의 대상은 머신 러닝 모델을 개발하는 것뿐만 아니라 데이터를 수집하고 분석하는 단계..

Data Science Issue 2023.10.28

텍스트 마이닝 기본 개념 정리

1. 텍스트 전처리 1) 토큰화: 주어진 텍스트를 작은 부분인’ 토큰’으로 나누는 과정/ 문장을 개별 단어로 분리하는 것을 의미함. ➔ 예시: 구두점 제외시키기: 마침표. 컴마, 물음표? 세미콜론; 느낌표! - I love music -> [“i”, “love”, “music”] 으로 변환 ➔ 토큰화 고려점: * 구두점이나 특수문자를 단순히 제외해서는 안된다.($45.55 123,456,789 ->문장의 경계를 알 수 있는데 도움이 됨) * 줄임말과 단어 내에 띄어쓰기가 있는 경우 (we're -> we are, i'm -> i am) ➔ 한국어 토큰화 문제점: 교착어의 문제, 한국어는 영어보다 띄어쓰기가 잘 지켜지지 않는다. 2) 정규화: 다양한 형태의 텍스트를 일관된 형태로 변환하는 작업(동일한 의미..

프로그래머스 SQL 문제_String, Date

String, Date 1) 자동차 대여 기록에서 장기/단기 대여 구분하기 CAR_RENTAL_COMPANY_RENTAL_HISTORY 테이블에서 대여 시작일이 2022년 9월에 속하는 대여 기록에 대해서 대여 기간이 30일 이상이면 '장기 대여' 그렇지 않으면 '단기 대여' 로 표시하는 컬럼(컬럼명: RENT_TYPE)을 추가하여 대여기록을 출력하는 SQL문을 작성해주세요. 결과는 대여 기록 ID를 기준으로 내림차순 정렬해주세요 SELECT HISTORY_ID,CAR_ID,DATE_FORMAT(START_DATE, '%Y-%m-%d') AS START_DATE, DATE_FORMAT(END_DATE, '%Y-%m-%d') AS END_DATE,IF(DATEDIFF(END_DATE, START_DATE)..

프로그래머스 SQL 문제_IS NULL

IS NULL 1) 이름이 있는 동물의 아이디 동물 보호소에 들어온 동물 중, 이름이 있는 동물의 ID를 조회하는 SQL 문을 작성해주세요. 단, ID는 오름차순 정렬되어야 합니다 SELECT ANIMAL_ID FROM ANIMAL_INS WHERE NAME IS NOT NULL ORDER BY ANIMAL_ID - IS NOT NULL: NULL값이 아닌 것들만 끌고오기 2) 경기도에 위치한 식품창고 목록 출력하기 FOOD_WAREHOUSE 테이블에서 경기도에 위치한 창고의 ID, 이름, 주소, 냉동시설 여부를 조회하는 SQL문을 작성해주세요. 이때 냉동시설 여부가 NULL인 경우, 'N'으로 출력시켜 주시고 결과는 창고 ID를 기준으로 오름차순 정렬해주세요 SELECT WAREHOUSE_ID, WAR..

데이터시각화(R)_nycflights13 Flights

라이브러리 불러오기 library(nycflights13) arrange를 DESC로 역순으로 뽑기 A = flights %>% count(dest) %>% arrange(desc(n)) - %>% : 왼쪽의 결과를 오른쪽 함수의 첫 번째 인자로 전달 - count(dest) : flights 데이터셋에서 dest(목적지) 칼럼의 각 값의 빈도수 계산 - %>% arrange(desc(n)): 앞서 계산된 빈도수를 기준으로 내림차순 DESC로 계산 → flights 데이터셋에서 각 목적지별 비행 횟수를 계산하고, 결과를 비행 순서가 많은 순서대로 정렬 편수가 많은 20개만 추출하여 확인 A %>% head(n=20) %>% ggplot()+geom_bar(aes(dest,n),stat="identity"..

프로그래머스 SQL 문제_SELECT

SELECT 1) 상위 N개의 레코드 동물 보호소에 가장 먼저 들어온 동물의 이름을 조회하는 SQL 문을 작성해주세요 SELECT NAME FROM ANIMAL_INS ORDER BY DATETIME LIMIT 1 2) 조건에 맞는 회원 수 구하기 USER_INFO 테이블에서 2021년에 가입한 회원 중 나이가 20세 이상 29세 이하인 회원이 몇 명인지 출력하는 SQL문을 작성해주세요 SELECT COUNT(USER_ID) AS USER FROM USER_INFO WHERE YEAR(joined) = '2021' AND age >= 20 AND age 3000 AND INGREDIENT_TYPE = 'fruit_based' AND A.FLAVOR = B.FLAVOR ORDER BY TOTAL_ORDER..

데이터베이스의 기본 개념 정리

1. 데이터와 데이터베이스에 대한 정의 - 데이터: 알려진 사실들(known facts) → 가공된 데이터로 의사결정에 도움을 줌 - 데이터베이스: 관련있는 데이터를 최소한의 중복으로 통합해 놓은 데이터의 집합체/ 사용자 데이터와 데이터베이스의 설계를 나타내는 스키마로 모두 데이터베이스에 저장 2. 데이터베이스 관리 시스템의 기능에 대해 설명 데이터 저장 관리(데이터 저장에 필요한 데이터의 물리적 구조를 생성하고 관리하는 기능) 데이터 무결성 관리(데이터베이스 스키마를 정의하는 과정에서 사용자에 의해 정의되어 데이터 사전에 저장되고 관리됨) 데이터 사전 관리(사용자 데이터와 마찬가지로 스키마도 시간이 지남에 따라 변화함, 변경사항은 DBMS에 의해 기록, 관리됨) 다중 사용자 접근 통제(다수의 사용자가 ..

Database 2023.10.21

데이터 정규화란?

데이터 정규화 개념 및 목적 데이터 중복, 삽입, 삭제, 갱신 시에 발생 할 수 있는 이상 현상들을 제거하기 위한 데이터베이스 설계상의 한 단계 데이터 정규화 단계 정규화: 속성들 사이의 종속 관계를 찾아내고 이를 재그룹함으로써 관계형 스키마를 단계적으로 분할하는 과정 제 1정규화: 반복되는 그룹X, 모든 비기본키 속성은 기본키에 함수적으로 종속된다. 제 2정규화: 제 1정규형의 조건을 만족해야됨, 부분 종속성(비기본키 속성 기본키의 일부에 함수적으로 종속되는현상)을 가지지 않아야 됨 제 3정규화: 제2 정규형의 조건을 만족해야됨, 이행 종속성을 가지지 않아야 함 이행 종속성: 비기본키 속성이 다른 비기본키 속성에 의해 함수적으로 종속되는 현상 데이터베이스 설계 절차 E-R 모델 개체 ㅁ: 독립적으로 존..

Database 2023.10.18

데이터시각화(R)_Data Import

readr package 의 flat file 을 부르는 함수들 read_csv() : 자료가 ,로 분리된 형태의 파일을 읽는다. read_csv2(): 자료가 ;로 분리된 형태의 파일을 읽는다. (,가 소숫점을 대신 하는 나라의 경우 많이 이용) read_tsv() : 자료가 \t(tab)으로 분리된 형태의 파일을 읽는다 read_delim() : delim 에 설정된 형태로 분리된 파일을 읽는다. read_fwf() : 고정폭으로 된 파일을 읽는다. field 를 fwf_widths()로 지정하거나 position 을 fwf_positions()로 지정 read_table() : 공백으로 분리된 형태의 파일 읽기 library(tidyverse) heights [DBGUIDE 연재] ggplot2를 ..

728x90