[2장-1] 싸이킷런_파이썬 머신러닝 완벽가이드

Machine Learning/캐글스터디(파이썬 머신러닝)

[2장-1] 싸이킷런_파이썬 머신러닝 완벽가이드

뉴욕킴 2023. 3. 20. 03:04

1. 싸이킷런(scikit-learn)

- 머신러닝을 위한 다양한 알고리즘과 개발을 위한 편리한 프레임워크, API 제공

- numpy와 scipy 기반에서 구축된 라이브러리

2. 용어 정리

- 피처(feature) : 일반 속성

- 레이블 : 타겟 값이 분류일 경우 → 데이터 학습을 위해 주어지는 정답 데이터

- 클래스 : 타겟 값이 분류일 경우 → 데이터 학습을 위해 주어지는 정답 데이터

- 타켓(값) → 학습할 값

- 결정(값)

3. 분류 예측 프로세스

1) 데이터 세트 분리(학습 데이터 / 테스트 데이터)

2) 모델학습

3) 예측수행

4) 평가(결과 비교 및 정확도 평가)

4. 사이킷런 기반 프레임워크

학습 : fit()

예측 : predict()

1) 내장 예제 데이터셋

- datasets.load_boston() : 보스턴 집값 가격 예측

- datasets.load_breast_cancer() : 위스콘신 유방암 피처들과 악성/음성 레이블 데이터 세트

- datasets.load_diabetes() : 당뇨 데이터 세트

- datasets.load_digits() : 0~9까지 숫자의 이미지 픽셀 데이터 세트

- datasets.load_iris() : 붓꽃 피처 데이터 세트

from sklearn.datasets import load_iris

iris_data = load_iris()
print(type(iris_data))

keys = iris_data.keys()
print('붓꽃 데이터 세트의 키들:', keys)

붓꽃 데이터 세트의 키들: dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename', 'data_module'])

5. 학습데이터와 테스트 데이터

# 학습 데이터와 테스트 데이터 세트로 분리
X_train, X_test, y_train, y_test = train_test_split(iris_data, iris_label, test_size=0.2, random_state=11)

# X : 피쳐, y: 타겟으로 관습적으로 사용

# feature: iris_data
# target data : iris_label
# test_size : 20%만 테스트 데이터로 만들어라
# random_stata : 호출할 때마다 동일한 학습/테스트용 데이터 세트를 생성하기 위해 주어진 값

6. 교차검증

- 실제 모델에 적용 전 검증하는 용도(검증 데이터 세트)

1) k폴드 교차 검증

- k=5 → 5번 학습 및 검증 평가 반복 수행

- 4/5: 학습, 1/5 검증 → 검증 위치를 계속 바꿈 (검증 평가1, 검증 평가2, 검증 평가3, 검증 평가4, 검증 평가5)

→ 평균값 산출

* 파이썬 머신러닝 완벽가이드_인프런 강의

'Machine Learning > 캐글스터디(파이썬 머신러닝)' 카테고리의 다른 글

[3장-3] 피마 인디언 당뇨병 예측 (0)	2023.04.08
[3장-2] 정밀도와 재현율의 맹점 (0)	2023.04.07
[3장-1] 분류 성능 평가 지표 (0)	2023.04.04
[2장-3] 타이타닉 생존자 예측 ML 구현 (0)	2023.04.03
[2장-2] 붓꽃 품종 예측_파이썬 머신러닝 완벽가이드 (0)	2023.03.20

현재글[2장-1] 싸이킷런_파이썬 머신러닝 완벽가이드

250x250

데이터 공부하는 뉴욕킴

데이터 공부하는 뉴욕킴입니다. 데이터 사이언스 함께 공부해요😘

빅데이터공모전, 데이터, 딥러닝, 프로그래머스, 이대데이터사이언스, 데이터시각화, 패스트캠퍼스, 국비지원, 머신러닝, SQL, 회귀, 머신러닝완벽가이드, r, 파이썬, 데이터분석, 파이썬기초, 빅데이터, 파이썬머신러닝완벽가이드, 태블로, 데이터베이스,

Today :
Yesterday :

일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

데이터 공부하는 뉴욕킴