응용전략
Data Preparation
뉴욕킴
2024. 9. 21. 12:43
데이터 카탈로그와 데이터 준비 과정, 그리고 DSML(Data Science and Machine Learning) 프로세스
- 데이터 카탈로그 (Augmented)
- 증강된 데이터 카탈로그의 주요 기능을 보여줍니다.
- 중앙에는 기계 학습, 소스 접근성, 서버리스 배포, 거버넌스, 보안 등의 핵심 요소가 있습니다.
- 주변으로 데이터 검색, 데이터 프로파일링, 데이터 계보, 데이터 사용 및 인구화, 데이터 추천, 사용자 협업/크라우드소싱 등의 기능이 배치되어 있습니다.
- 구조화된 데이터와 비구조화된 데이터, 데이터 웨어하우스와 데이터 레이크를 모두 다룹니다.
2. 데이터 준비 발자국
- 2020년경 클라우드와 증강화의 압박으로 인한 변화를 보여줍니다.
- 데이터 메시와 데이터 패브릭 개념을 소개합니다.
- 데이터 레이크, 메시 카탈로그, 소비 애플리케이션 간의 관계를 도식화합니다.
- 논리적 데이터 웨어하우스, 데이터 웨어하우스+데이터 레이크, 운영 데이터 스토어 등의 계층을 보여줍니다.
- DataOps, 메타데이터 활성화, 지식 그래프 등의 개념을 포함합니다.
3. DSML 프로세스
- 획득(Acquire) → 조직화(Organize) → 분석(Analyze) → 전달(Deliver)의 4단계로 구성됩니다.
- 논리적 데이터 웨어하우스에서의 가상화와 데이터 준비 과정을 상세히 보여줍니다.
- 배치 데이터 통합과 실시간 수집을 포함한 데이터 통합 과정을 설명합니다.
- 메시지 브로커, API 플랫폼, 고성능 수집 등의 개념을 소개합니다.
- 모델 선택, 훈련, 하이퍼파라미터 튜닝, 추론 등의 분석 단계를 포함합니다.
- 데이터 메시에서 데이터 패브릭으로의 진화를 언급합니다.