전체 글 196

한국의 인기 YouTube 동영상 통계

# 패키지 로드 library(sf) library(here) library(skimr) library(janitor) library(maps) library(plotly) library(readr) library(dplyr) library(lubridate) library(ggplot2) # 데이터 불러오기 data_to_clean % clean_names() # 데이터 중복 확인 duplicated_rows % arrange(desc(total_uploads)) ggplot(channel_uploads, aes(x = channel_type, y = total_uploads, fill = channel_type)) + geom_bar(stat = "identity") + labs(title = "To..

Data analysis of YouTube channels dataset in R

#Load packages install.packages("sf") install.packages("here") install.packages("skimr") install.packages("janitor") install.packages("maps") install.packages("plotly") library(readr) library(dplyr) library(here) library(skimr) library(janitor) library(lubridate) library(ggplot2) library(maps) library(plotly) library(sf) # Read data from file data_to_clean % clean_names() %>% names() [1] "rank" ..

데이터시각화(R)_Texas flight data

1. 텍사스주의 달라스와 휴스턴에 도착하는 비행만을 뽑아서 Texas 에 저장하시오. (공항코드: DFW IAH HOU) library(nycflights13) library(tidyverse) library(lubridate) library(ggplot2) flights head(flights) Texas % filter(dest %in% c("DFW", "IAH", "HOU")) 2. Texas에서 dep_delay와 arr_delay관계 살펴보기 library(ggplot2) Texas %>% ggplot(aes(dep_delay, arr_delay))+geom_point() 3. Texas에서 비행 중 발생한 delay 분포살펴보기 Texas %>% mutate(pure_delay = arr_de..

3 Shift Work Schedule Automatic Program_Python

1) 참고자료 How to Solve a Staff Scheduling Problem with Python | by Khuyen Tran | Towards Data Science How to Solve a Staff Scheduling Problem with Python Minimize the number of workers per shift while assigning enough workers for each time window towardsdatascience.com pip install openpyxl import pandas as pd from openpyxl import Workbook # 사원 정보 입력 함수 def input_employee_info(num_employees, employ..

데이터베이스 예제 문제

관계형 데이터베이스 테이블의 특징으로 적당하지 않는 것은? a. 열은 필드(field)또는 속성(attribute)으로 정의 b. 각 셀은 다수의 속성값으로 구성 c. 테이블은 행(row)과 열(column)로 구성 d. 행은 레코드(record)또는 튜플(tuple)로 정의 → b. 각 셀은 다수의 속성값으로 구성 관계형 데이터베이스의 기본 원칙 중 하나는 각 셀이 단일 값을 가져야 한다는 것입니다. 이를 원자성(Atomicity)라고도 합니다. 이 원칙에 따르면, 각 셀은 하나의 속성값만을 가지며, 다수의 속성값을 가질 수 없습니다. 따라서 옵션 b가 관계형 데이터베이스 테이블의 특징으로 적당하지 않습니다. SELECT 상품.상품번호, 상품.상품제목, 재고.재고번호, 재고.구분, 재고.판매가격, 재고..

Database 2023.11.04

DB 설계 절차 #

DB 설계 절차 1단계: 데이터베이스 계획 서비스 문제 : 시스템 사용 복잡, 배우기 어려움, 시스템 문서화가 잘 되어 있지 않음, 업무 변화로 인한 시스템 변경 용이X 경제성 문제 : 재고 관리 & 고객관리 비용 과다, 이윤 증대 기회를 가져옴, 새로운 시장 발굴 가능, 주문 처리량 증대 2단계: 데이터베이스 요구사항 도출 시스템의 문제점 및 요구사항을 심도 있게 파악하기 위해 현업 실무진과 경영층을 포함한 최종사용자 면접 진행(그룹/개별) 설문지 조사 / 사용자 관찰 / 문서 분석 / JAD(Joint Application Development) 3단계: E-R 모델 생성 4단계: 데이터베이스 스키마로 변환 / 내부모델 5단계: 정규화 진행 6단계: 최종 스키마 확정 7단계: 데이터베이스 구현 참고자..

Database 2023.11.02

Gutenberg project_Alice's Adventures in Wonderland

1. Gutenberg project 접속 Free eBooks | Project Gutenberg 2. 텍스트 마이닝 하고 싶은 E-BOOK 고르기 3. 코드 짜보기 pip install wordcloud import pandas as pd import numpy as np from collections import Counter from wordcloud import WordCloud import matplotlib.pyplot as plt from PIL import Image import requests from bs4 import BeautifulSoup from collections import Counter from wordcloud import WordCloud import matplotl..

데이터시각화(R)_탐색적 자료분석 EDA

탐색적 자료분석 (EDA) EDA 의 단계 1. 자료에 대하여 궁금한 질문 사항들 정리 2. 자료 시각화, 변형, 그리고 모델링등의 탐색을 통해 질문들에 대한 답을 찾기 3. 탐색 결과를 이용하여 질문 사항들을 구체화하거나 새로운 질문 사항들 만들기 • EDA 과정은 자료분석의 가장 중요한 단계 • 자료정리, 자료 시각화, 자료 변형, 자료 모형화 등이 포함 EDA 의 목표 자료에 대한 이해를 위한 것 • EDA 를 위한 일반적인 질문 – What type of variation occurs within my variables? – What type of covariation occurs between my variables? • variable: 측정할 수 있는 것, 변수 • value: 측정한 값 •..

728x90