Machine Learning 29

[01] 데이터 모델링이란

데이터 모델링은 현실 세계의 복잡한 데이터를 체계적으로 구조화하고, 이를 기반으로 예측이나 분류와 같은 목표를 달성하기 위한 모델을 구축하는 과정입니다. 이는 데이터 기반 의사결정의 핵심 과정으로, 효과적인 데이터 활용을 위한 필수적인 단계입니다.1. 데이터 모델링의 목적1.1 데이터 구조화데이터 모델링은 복잡하고 다양한 데이터를 일관된 구조로 정리하여 분석 가능한 형태로 만듭니다. 예를 들어, 전자상거래 플랫폼의 경우 고객 정보, 구매 내역, 제품 정보 등을 관계형 데이터베이스로 구조화함으로써 고객의 구매 패턴을 분석할 수 있습니다.1.2 데이터의 이해 및 표현모델링을 통해 복잡한 데이터를 시각적으로 표현하거나 패턴을 단순화하여 이해하기 쉽게 만듭니다. 예를 들어, 주식 시장 데이터를 시계열 모델로 표..

[LSTM] T4 GPU와 L4 GPU의 차이

LSTM 모델을 실행할 때 L4와 T4 GPU 중 어느 것이 더 적합한지는 주로 모델의 복잡도와 배치 크기에 따라 달라집니다.T4 GPU:아키텍처: Turing 아키텍처 기반.성능: FP32와 FP16 연산을 모두 지원하며, 특히 추론 작업에서 효율적입니다.장점: 전력 효율이 좋고, 비교적 저렴한 비용으로 클라우드 서비스에서 사용 가능합니다.LSTM과의 호환성: LSTM은 주로 FP32 연산을 사용하며, 특히 대규모 추론 작업에 유리하기 때문에 T4 GPU가 일반적으로 더 자주 사용됩니다.L4 GPU:아키텍처: 최신 Ada Lovelace 아키텍처 기반.성능: FP8과 FP16 연산 최적화가 되어 있으며, 특히 생성 AI와 대규모 추론 작업에서 탁월한 성능을 발휘합니다.장점: 더 높은 AI 성능 최적화를..

멀티태스크를 통한 플레이어 수 예측

플레이어 수 예측주 태스크로 하고 그 예측값을 사용하여 미분 가능한 효율성 계산을 수행하며 두 태스크의 손실을 동시에 최적화시키기 목적: 플레이어 수를 효율성을 계산하며 예측하기# 1단계: 플레이어 수 예측predicted_players = model.predict(input_data)# 2단계: 효율성 계산efficiency = (predicted_players / (tables * 5)) * 100 문제점: 플레이어 수를 예측하고 효율성을 예측하면 두 단계가 독립적으로 수행되어, 효율성 계산이 예측에 영향을 주지 못한다.# 이렇게 하면 각각 따로 계산됨predicted_players = model.predict(input_data) # 첫 번째 모델efficiency = calculate_effic..

Convolutional Neural Networks (CNN) in Machine Learning

Convolutional Neural Networks (CNN) in Machine Learning**Convolutional Neural Networks (CNN)**는 주로 이미지와 같은 그리드 구조의 데이터를 처리하는 데 특화된 딥러닝 모델입니다. CNN은 이미지 분류, 객체 탐지, 이미지 생성 등 다양한 컴퓨터 비전 작업에서 매우 효과적입니다.CNN의 주요 구성 요소Convolutional Layer (컨볼루션 레이어):역할: 입력 이미지에서 특징을 추출합니다.작동 원리: 필터(또는 커널)를 사용하여 입력 이미지와의 합성곱 연산을 수행합니다.필터: 작은 크기의 행렬로, 이미지 전체를 스캔하며 각 위치에서 국소적 특징을 추출합니다.출력: 필터가 이동하며 생성한 특징 맵(feature map).Poo..

Machine Learning 2024.05.25

[머신러닝 기법] Decision Tree, AdaBoost, Gradient Boosting, XGBoost, LightGBM의 주요 차이점

머신러닝 기법들인 Decision Tree, AdaBoost, Gradient Boosting, XGBoost, LightGBM은 모두 트리 기반의 앙상블 학습 방법을 사용하지만, 각각의 특징과 동작 방식에는 몇 가지 차이가 있습니다. 1. Decision Tree (의사 결정 트리):단일 트리 모델로, 데이터를 특성에 따라 분할하여 의사 결정을 내리는 방식입니다.각 노드에서의 최적의 분할을 찾기 위해 정보 이득이나 지니 불순도 등의 지표를 사용합니다.해석이 용이하고 설명력이 뛰어나지만, 과적합(overfitting)되기 쉬운 경향이 있습니다.model = DecisionTreeRegressor(random_state=random_state) #결정 트리 회귀 모델을 초기화# Define the hype..

Machine Learning 2024.05.05

6wk_Decision Tree(의사결정나무)

Accuracy vs. Interpretability  → decision tree, regression 많이 사용(해석력이 좋은 모델들 선호)   Decision Tree의사결정 나무(Decision Tree)는 예측 모델 중 하나로, 독립 변수의 조건에 따라 종속 변수의 값을 예측하는 데 사용됩니다. 이 모델은 '나무'라는 이름처럼, 뿌리에서 시작해 각 분기점(node)에서 특정 기준에 따라 데이터를 나누고, 마지막에는 각각의 잎 노드(leaf node)로 데이터를 분류합니다. 의사결정 나무는 분류와 회귀 모두에 사용될 수 있으며, 간단하고 해석하기 쉬운 모델로 많이 사용됩니다. → 주로 분류에서 사용    [추후 참고] 의사결정나무(decision tree) (tistory.com)  의사결정나무(..

Machine Learning 2024.04.12

5wk_Regularization

Regularization Overfitting (과적합):원인: 데이터가 적을 경우, 복잡한 데이터일 경우(변수가 너무 많음, weights이 큰 경우)정의: 모델이 훈련 데이터에 너무 밀접하게 맞춰져서 생성되는 오류입니다. 이 경우, 모델은 훈련 데이터의 노이즈와 잡음까지 학습하여, 새로운 데이터나 테스트 데이터에 대해서는 일반화를 잘 수행하지 못합니다.특징:모델이 훈련 데이터에서는 매우 높은 성능을 보이지만, 테스트 데이터나 실제 적용 시에는 성능이 저하됩니다.복잡한 모델(많은 파라미터를 가진)이 과적합될 위험이 더 큽니다.해결 방법:데이터 양 증가, 불필요한 변수 제거, weights 줄이기, 교차 검증, 정규화 기법 적용, 간단한 모델 사용 등이 있습니다.Underfitting (과소적합):원인..

Machine Learning 2024.04.06

4wk_예측값과 실제값 비교 : MSE · RMSE · MAE · R2

예측값과 실제값 : MSE · RMSE · MAE · R2 1. MSE (Mean Squared Error) MSE는 실제값에서 예측값을 뺀 값의 제곱의 평균입니다. 이는 모델의 예측값과 실제값 차이의 면적의 제곱합을 의미하며, 제곱을 하기 때문에 특이치 (Outlier)에 민감합니다. 2. RMSE (Root Mean Squared Error) RMSE는 MSE값에 루트를 씌운 값입니다. 이 지표는 예측변수와 단위가 같으며, 예를 들어 기온을 예측하는 모델의 RMSE가 5라면 이 모델은 평균적으로 5 정도를 잘못 예측하는 것이라 볼 수 있습니다 → 해석력이 좋은 장점 있음 3. MAE (Mean Absolute Error) MAE는 모델의 예측값과 실제값의 차이의 절대값의 평균입니다. 이는 실제 값과 ..

Machine Learning 2024.03.31

사이킷런 의사결정나무 알고리즘 및 당뇨병 데이터셋

사이킷런 의사결정나무 알고리즘 Supervised learning의 classification 기법 새로 들어온 고객이 물건을 구매할지, 구매하지 않을지를 분류 1.10. Decision Trees — scikit-learn 1.3.2 documentation 1.10. Decision Trees Decision Trees (DTs) are a non-parametric supervised learning method used for classification and regression. The goal is to create a model that predicts the value of a target variable by learning s... scikit-learn.org tree 패키지 불러오기..

Machine Learning 2024.01.16
728x90