머신러닝 10

사이킷런과 머신러닝이란?

사이킷런이란? 사이킷런은 대표적인 파이썬 머신러닝 라이브러리로 Classification(분류), Regression(회귀) 모델을 주로 사용합니다. scikit-learn: machine learning in Python — scikit-learn 1.3.2 documentation scikit-learn: machine learning in Python — scikit-learn 1.3.2 documentation Model selection Comparing, validating and choosing parameters and models. Applications: Improved accuracy via parameter tuning Algorithms: grid search, cross vali..

Machine Learning 2024.01.11

[특강] 데이터 분석 프로젝트 예시

LG CNS 김진수 전문위원/ D&A 사업부 D&A 플랫폼 기술담당 - 석유화학 사업부 공통모델 개발 및 확산 - 설비 모니터링 시스템 개발 - 디스플레이 패널 품질검사 자동화 - 스마트제어 자세판정 시스템 개발 - 식수예측 - 전략 강화를 위한 빅데이터 분석 1. 데이터 분석 프로젝트 사례 MLOps란? MLOps란 머신 러닝(Machine Learning)과 운영(Operations)을 합친 용어로 프로덕션 환경에서 머신 러닝(ML) 모델이 지속적이고 안정적으로 배포되도록 유지, 관리, 모니터링 해주는 것입니다. MLOps는 머신러닝 모델 개발과 운영을 통합해 ML 시스템을 자동으로 유지, 관리, 운영합니다. MLOps의 대상은 머신 러닝 모델을 개발하는 것뿐만 아니라 데이터를 수집하고 분석하는 단계..

Data Science Issue 2023.10.28

What is Machine Learning?

회귀와 분류 회귀 회귀는 연속적인 값을 예측하고 예측 변수와 목표 변수 간의 관계를 모델링하는 작업 주어진 입력 데이터와 목표 변수(또는 출력) 간의 관계를 학습하고, 이 관계를 사용하여 새로운 입력에 대한 연속적인 값을 예측 예를 들어, 주택 가격 예측, 주식 가격 예측, 온도 예측 등이 회귀 문제의 예 일반적인 회귀 알고리즘에는 선형 회귀, 다항 회귀, 결정 트리 회귀, 랜덤 포레스트 회귀가 있음 분류 분류는 데이터를 여러 범주 중 하나로 분류하는 작업 주어진 입력 데이터를 학습하여, 해당 입력이 어떤 범주에 속하는지 예측하는 모델을 만듭니다. 예를 들어, 이메일 스팸 여부 판단, 질병 진단, 손글씨 숫자 인식 등이 분류 문제의 예 분류 알고리즘에는 로지스틱 회귀, 결정 트리 분류, 랜덤 포레스트 분..

Machine Learning 2023.09.04

[5장-3] 릿지 회귀, 라소 회귀, 엘라스틱넷 회귀, 선형 회귀모델, 로지스틱 회귀의 이해

릿지(Ridge) 회귀 alpha 값을 이용하여 회귀 계수의 크기를 조절(alpha 값이 크면 회귀 계수 값이 작아지고, alpha 값이 작으면 회귀 계수 값이 커집니다) 사이킷런은 릿지 회귀를 위해 Ridge 클래스를 제공합니다. Regularized Linear Models – Ridge, Lasso # 앞의 LinearRegression예제에서 분할한 feature 데이터 셋인 X_data과 Target 데이터 셋인 Y_target 데이터셋을 그대로 이용 from sklearn.linear_model import Ridge from sklearn.model_selection import cross_val_score # boston 데이타셋 로드 boston = load_boston() # bosto..

[3장-4] 피마 인디언 당뇨병 예측

import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sns from sklearn.model_selection import train_test_split from sklearn.preprocessing import StandardScaler from sklearn.linear_model import LogisticRegression from sklearn.neighbors import KNeighborsClassifier from sklearn.model_selection import GridSearchCV from sklearn.metrics import confusion_matrix,classi..

[초청세미나] AI를 활용한 치료 예측 모델 개발 및 프로세스 개선 사례들

[1] 주제: 접근성 향상을 위한 퇴행성 관절염 예측 진단 시스템 고도화 1) 선행연구 - azura kinect(애저키넥트) 카메라를 통한 퇴행성 관절염 에측 진단 - 무릎 각도 및 패턴분석, 고개숙임, 팔, -> 상/하체 보행 특성 - 자료: 한의원 내원객 자료 사용 2) 시스템연구 - 머신러닝 모델 종류별로 4개 돌려보기 -> 빠르고 정확한 모델로 선택 - 특성별 병적 판단 알고리즘: 보행속도, 무릎 벌어진 거리, 발목간 거리, 고개 숙임 정도, 허리 숙임 정도, 팔 구부러짐 정도 등 → 추후 진료시 도움이 될 수 있도록 연구 3) 시스템 상용화 - 스마트폰을 활용한 퇴행성 관절염 예측 진단 [참고자료] 스마트폰 카메라를 활용한 AI 기반 퇴행성 관절염 예측 진단 보조 시스템 - earticle 스..

Data Science Issue 2023.04.15

[1장] 머신러닝 개념 및 넘파이_파이썬 머신러닝 완벽가이드

1.머신러닝이란? - 데이터를 기반으로 패턴을 학습하고 결과를 추론하는 알고리즘 기법 - 특징: 데이터 마이닝, 영상 인식, 음성 인식, 자연어 처리에 적용 2. 머신러닝의 필요성 - 복잡한 문제를 데이터를 기반으로 숨겨진 패턴을 인지하여 해결함 - 데이터를 기반으로 통계적 신뢰도를 강화하고 예측 오류를 최소화하기 위한 다양한 수학적 기법을 적용해 데이터 내의 패턴을 스스로 인지하고 신뢰도 있는 예측 결과를 도출함 3. 머신러닝의 분류 - 지도학습: 명확한 결정값이 주어진 데이터를 학습 ex. 분류, 회귀, 추천시스템, 시각/음성 인지, 텍스트 분석, NLP - 비지도학습: 결정값이 주어지지 않는 데이터를 학습 ex. 군집화(클러스터링), 차원 축소, 강화학습 4. 머신러닝의 단점 - 데이터에 너무 의존..

[3장-1] 분류 성능 평가 지표

성능 평가 지표(Evaluation Metric)는 모델이 회귀인지 분류인지에 따라 여러 종류로 나뉨 1) 회귀의 경우 대부분 실제값과 예측값의 오차 평균값에 기반 2) 분류의 성능 평가 지표 분류 성능 평가지표: classification - 정확도 - 오차행렬 - 정밀도 - 재현율 - F1 스코어 - ROC AUC 1) 정확도 정확도 : 실제 데이터에서 예측 데이터가 얼마나 같은지 판단하는 지표 = 예측 결과가 동일한 데이터 건수 / 전체 예측 데이터 건수 정확도는 직관적으로 모델 예측 성능을 나타내는 평가 지표이지만 이진 분류의 경우 정확도만으로 성능 평가하면 안됨 (ML 모델의 성능을 왜곡할 수 있기 때문) import sklearn print(sklearn.__version__) #버전 확인 1..

[2장-3] 타이타닉 생존자 예측 ML 구현

https://colab.research.google.com/drive/1pho8HoLe11nTAIvwRglZY83W2eTKs2IO?usp=sharing Titanic_240206 Colaboratory notebook colab.research.google.com 1) 사전작업 * 데이터 전처리 - NULL값, 불필요한 속성 제거, 인코딩 수행 *모델학습 및 검증,예측,평가 - 결정트리, 랜덤포레스트, 로지스틱회귀, K폴드 교차 검증, cross_val_score(), gridsearchCV() 2) 파일 불러오기 import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sns %matplotlib i..

[2장-1] 싸이킷런_파이썬 머신러닝 완벽가이드

1. 싸이킷런(scikit-learn) - 머신러닝을 위한 다양한 알고리즘과 개발을 위한 편리한 프레임워크, API 제공 - numpy와 scipy 기반에서 구축된 라이브러리 2. 용어 정리 - 피처(feature) : 일반 속성 - 레이블 : 타겟 값이 분류일 경우 → 데이터 학습을 위해 주어지는 정답 데이터 - 클래스 : 타겟 값이 분류일 경우 → 데이터 학습을 위해 주어지는 정답 데이터 - 타켓(값) → 학습할 값 - 결정(값) 3. 분류 예측 프로세스 1) 데이터 세트 분리(학습 데이터 / 테스트 데이터) 2) 모델학습 3) 예측수행 4) 평가(결과 비교 및 정확도 평가) 4. 사이킷런 기반 프레임워크 학습 : fit() 예측 : predict() 1) 내장 예제 데이터셋 - datasets.lo..

728x90