전체 글 196

[Tableau] 데이터 시각화 무료 기초 강의

데이터 시각화 Tableau 무료 기초 강의 링크 Tableau Desktop 기초실습교육 Tableau Desktop 기초실습교육 기존 분석 솔루션과 차원이 다른 태블로의 데이터 분석 방식에 매료되어 태블로에 합류했습니다. 한국 사용자들에게 진정한 데이터 분석이 무엇인지 알리고, 태블로의 매력을 전하고 싶습니다. www.tableau.com Tableau 평가판 다운로드 링크(무료) Tableau Desktop | 모든 데이터 연결, 분석, 시각화 Tableau Desktop Tableau Desktop 비즈니스 속도에 맞는 인사이트 제공 무료 평가판 시작 www.tableau.com 데이터분석 및 시각화 기초 강의 파이썬 코딩 무료 강의 (활용편5) - 데이터 분석 및 시각화, 이 영상 하나로 끝내세..

[4-3장] XGBoost과 LightGBM

XGBoost 트리 기반의 앙상블 학습 중 가장 각광받는 알고리즘(분류에 있어 뛰어난 예측 성능 지님) 특징: 뛰어난 예측 성능, 빠른 수행 시간, 과적합 규제 기능, tree pruning 기능, 자체 내장된 교차 검증 수행 능력, 결손값 자체 처리 기능 XGBoost를 이용한 위스콘신 유방암 예측 위스콘신 유방암 데이터: 종양의 크기, 모양 등의 다양한 속성값을 기반으로 악성/ 양성 종양 분류하는 데이터 세트 데이터 세트 로딩 하기 import pandas as pd import numpy as np from sklearn.datasets import load_breast_cancer from sklearn.model_selection import train_test_split # xgboost 패키..

[초청세미나] Microsoft AI MVP 전미정님 특강

연사: 전미정 (Microsoft AI MVP) 일시: 5/20일 오후 3:30 ECC B142호 제목: 모든 경험이 데이터가 되는 자유로운 IT 커리어 이야기 1) 메모 앱 출시: 블링크 메모 앱을 출시한 이유는 메모를 많이 하는데 리스트 형식으로 한 줄에 하나씩 메모가 되면서 쌓이는 게 일반적임 메모 아이템이 짧으면 뒷부분이 다 여백으로 남게 되고 그러다 보니까 스크롤을 한참 해야 되는 불편함이 생김 메모를 잊어버리지 않게 하는 기능을 추가해서 출시함 베어 포커스 타이머는 집중을 더 효율적으로 할 수 있게 도와주는 그런 툴임 2) 애플 워치용 앱 개발 25분 집중하는 것도 요즘은 쉽지 않음, 25분 동안 핸드폰을 보지 않고 다른 거에 집중을 하겠다는 의미가 담긴 앱을 개발함 애플 워치용으로도 출시해줬..

Data Science Issue 2023.05.21

[파이썬] 파일 입출력의 기본

파일 입출력 1단계: 파일열기 읽기용: 변수명 = open('파일명','r') 쓰기용: 변수명 = open('파일명','w') 2단계: 파일처리 3단계: 파일 닫기 - 1단계에서 open() 함수로 연 변수명: 변수명.close(); # 텍스트 파일 입출력 inFp = None #입력파일 inStr = "" #읽어 온 문자열 inFp = open('C:/Temp/data1.txt', 'r') #파일 열기 inStr = inFp.readline() # readline(): inFp로 열린 파일에서 한 행 읽어 inStr에 저장 print(inStr, end='') # 화면에 출력 inStr = inFp.readline() print(inStr, end='') inStr = inFp.readline() pr..

[5장-5] 주택 가격_고급 회귀 기법

# 데이터 전처리 import warnings warnings.filterwarnings('ignore') import pandas as pd import numpy as np import seaborn as sns import matplotlib.pyplot as plt %matplotlib inline house_df_org = pd.read_csv('house_price.csv') house_df = house_df_org.copy() house_df.head(3) # 데이터 확인 house_df.head(20) # 데이터 전체크기, 칼럼 타입, null값 확인 print('데이터 세트의 Shape:', house_df.shape) print('\n전체 feature 들의 type \n',house..

[5장-4] 자전거 대여 수요 예측

# 필요 라이브러리 불러오기 import numpy as np import pandas as pd import seaborn as sns import matplotlib.pyplot as plt %matplotlib inline import warnings warnings.filterwarnings("ignore", category=RuntimeWarning) # 구글 드라이브 연결 및 파일 불러오기 from google.colab import drive drive.mount("/content/drive") Mounted at /content/drive df = pd.read_csv('/content/drive/MyDrive/Colab Notebooks/자전거 대여 수요예측/train..

[꿀팁zip] 이화여대 데이터사이언스 대학원_데이터 분석 공모전 시작하기

교내 행사: 데이터분석 공모전 시작하기 1. 데이터분석 공모전 종류 1) 수시: DAYCON, AI FACTORY, COMPAS 2) 정기적(1년에 한 번): BIGCONTEST, 날씨 빅데이터 콘테스트, fsi data challenge, 롯데엠버스 빅데이터 경진대회 대회, 콘테스트, 공모전, 대외활동, 서포터즈 - 콘테스트코리아 (contestkorea.com) 2. 발표 자료 순서 참고 예시 주제: 앱 사용성 데이터를 활용한 ~~예측 분석 1) 데이터 전처리 2) 결측치 처리(mice) [머신러닝/ML] 결측치 처리하는 7가지 방법 (Seven Ways to Make up Data) (tistory.com) 대회, 콘테스트, 공모전, 대외활동, 서포터즈 - 콘테스트코리아 대회, 콘테스트, 공모전, ..

[5장-3] 릿지 회귀, 라소 회귀, 엘라스틱넷 회귀, 선형 회귀모델, 로지스틱 회귀의 이해

릿지(Ridge) 회귀 alpha 값을 이용하여 회귀 계수의 크기를 조절(alpha 값이 크면 회귀 계수 값이 작아지고, alpha 값이 작으면 회귀 계수 값이 커집니다) 사이킷런은 릿지 회귀를 위해 Ridge 클래스를 제공합니다. Regularized Linear Models – Ridge, Lasso # 앞의 LinearRegression예제에서 분할한 feature 데이터 셋인 X_data과 Target 데이터 셋인 Y_target 데이터셋을 그대로 이용 from sklearn.linear_model import Ridge from sklearn.model_selection import cross_val_score # boston 데이타셋 로드 boston = load_boston() # bosto..

[5장-2] 사이킷런 LinearRegression을 이용한 보스턴 주택 가격 예측

import numpy as np import matplotlib.pyplot as plt import pandas as pd import seaborn as sns from sklearn.datasets import load_boston import warnings warnings.filterwarnings('ignore') #사이킷런 1.2 부터는 보스턴 주택가격 데이터가 없어진다는 warning 메시지 출력 제거 %matplotlib inline # boston 데이타셋 로드 boston = load_boston() # boston 데이타셋 DataFrame 변환 bostonDF = pd.DataFrame(boston.data , columns = boston.feature_names) # bost..

[5장-1] 회귀, 선형회귀

회귀 * 데이터 값이 평균과 같은 일정한 값으로 돌아가려는 경향을 이용한 통계기법 * 여러 개의 독립변수와 한 개의 종속변수 간의 상관관계를 모델링하는 기법 머신러닝 회귀 예측의 핵심: 주어진 피처와 결정 값 데이터 기반에서 학습을 통해 최적의 회귀계수를 찾아내는 것. 회귀: 선형회귀/ 비선형 회귀 RSS(비용함수) 기반의 회귀 오류 측정 → 오류 값의 제곱을 구해서 더하는 방식 경사하강법(Gradient Descent) : 비용최소화 하기 반복적으로 비용 함수의 반환 값, 즉 예측값과 실제 값의 차이가 작아지는 방향성을 가지고 W파라미터를 지속해서 보정해 나감. 오류값이 더 이상 작아지지 않으면 그 오류 값을 최소 비용으로 판단하고 그때의 W값을 최적 파라미터로 반환 파이썬 코드로 경사하강법 작성 실제..

728x90