[특강] 데이터 분석 프로젝트 예시
- LG CNS 김진수 전문위원/ D&A 사업부 D&A 플랫폼 기술담당
- 석유화학 사업부 공통모델 개발 및 확산
- 설비 모니터링 시스템 개발
- 디스플레이 패널 품질검사 자동화
- 스마트제어 자세판정 시스템 개발
- 식수예측
- 전략 강화를 위한 빅데이터 분석
1. 데이터 분석 프로젝트 사례
MLOps란?
MLOps란 머신 러닝(Machine Learning)과 운영(Operations)을 합친 용어로 프로덕션 환경에서 머신 러닝(ML) 모델이 지속적이고 안정적으로 배포되도록 유지, 관리, 모니터링 해주는 것입니다. MLOps는 머신러닝 모델 개발과 운영을 통합해 ML 시스템을 자동으로 유지, 관리, 운영합니다. MLOps의 대상은 머신 러닝 모델을 개발하는 것뿐만 아니라 데이터를 수집하고 분석하는 단계와 학습하여 배포하는 과정, 즉 전체 AI 생애 주기가 포함됩니다.
또한 MLOps에는 머신 러닝(ML)과 소프트웨어 개발 및 운영(DevOps), 데이터 엔지니어링(DE)이 모두 포함됩니다. 즉 ML, DevOps, DE 세 기술의 교차 지점을 MLOps라고 볼 수 있습니다.
데이터분석 프로젝트 예시
- 클러스터링 기법을 이용하여 유사한 지역을 묶어주는 작업을 한다.
- 가격과 수요의 곡선을 추정
- 1만개 상품 중 98개의 중분류를 뽑고, 머신러닝을 이용하여 수요예측 기획
- 기존 직원들은 저번달 발주내역 복붙하여 진행 → 시스템 도입 후 오차 개선
- 사용자가 로그인 했을 때부터 무엇을 언제, 몇초 클릭하는지, 방황할 때 뭘 보는지, 앱 나갈때까지의 경로를 분석하여 추천시스템 분석 기획 진행
2. 드리프트 체크
1) 컨셉 드리프트
Concept drift란, 입력 데이터(특징량, 설명변수)에서 부터 예측하려고 하는 "정답 라벨(목적 변수)"의 의미/개념/통계적 특성(즉 데이터와 라벨의 관계성, 데이터의 해석 방법)이 모델 훈련때와 비교하여 변화가 있음을 의미한다.
2) 데이터 드리프트
Data drift란, 모델의 훈련시 "입력 데이터(특징량, 설명변수)"의 통계적 분포와 테스트 시/ 실제 배포 환경에서의 "입력 데이터"의 통계적 분포가 어떠한 변화에 의해 차이가 발생하고 있는 것을 의미한다. Feature drift나 Covariate shift라고 불린다.
概念ドリフト(Concept drift)/データドリフト(Data drift)とは?:AI・機械学習の用語辞典 - @IT (itmedia.co.jp)
https://atmarkit.itmedia.co.jp/ait/articles/2202/21/news033.html
atmarkit.itmedia.co.jp
3. 데이터사이언티스트의 업무
1) 데이터 애널리스트
2) MLOps 시스템 아키텍처
3) 머신러닝 엔지니어 : 관련 python 빠삭하게 공부! 코드 짜기!
→ 다양한 업무 안에서 내가 하고 싶은 업무를 찾아야 됨!