1. 데이터웨어하우스(DW)
- 데이터를 추출하고 조합해 정보, 지식으로 바꾸는 기술/ 다양한 주제에 대한 전사적 데이터 포함
→ "의사결정 지원"을 위한 데이터베이스(요약된 읽기 전용 데이터베이스)
-구성요소
1) 데이터 부르기(업무자료, 내부 보관자료 등)
2) 데이터 추출 및 변환
3) 데이터 저장(데이터웨어하우스)
4) 데이터 마트에 저장
5) 자료조회 및 분석
1-1. 데이터마트: 특정 주제와 밀접하게 관련된 정보를 저장
2. OLAP
- online analytical processing / 온라인분석처리
-다차원 데이터 구조를 이용하여 다차원 복잡한 질의를 고속으로 처리하는 데이터 분석 기술
ex. 지역별/분기별/상품별 → 판매액 비교
홈쇼핑/온라인판매/오프라인판매 → 매출액 비교(월별/분기별/상품별)
-구성요소
1) 드릴다운: 계층구조 가장 상위 수준부터 먼저 보고, 세부 수준을 보면서 데이터분석 하는것/ 상세하게 보고 싶을 때
ex. 연도별 → 반기별 → 분기별 → 월별
2) 드릴업: 상세 수준의 데이터로 부터 아래부터 상위 단계로 데이터 분석 하는것/ 큰 그림을 보고 싶을 때
ex. 순서는 드릴다운과 반대
3) 피벗: 차원을 다양하게 변경해 새로운 뷰를 만들어 데이터를 분석하는 것(축을 변경하며 데이터 분석)
-특징
1) 다차원화 된 쿼리(본인이 설정한 값에 따라 측정값 산출)
3. 비정형 데이터베이스 등장
-분산 시스템의 필요
1) CAP 이론
- consistency 일관성
- availability 가용성: 특정 노드 다운되도 다른 노드에 영향 안줌
- partition tolerance: 일부 데이터 손실되도 시스템은 정상 작동
2) NoSQL 탄생
- 용이한 데이터 규모 확장성
- 데이터를 다수의 하드웨어에 분산해서 저장
- 대용량 구조적, 비구조적 데이터 저장 및 분석
- 무스키마: 고정된 데이터 스키마 없이 키 값을 이용하여 다양한 형태의 데이터 저장 및 접근가능/
- 유연성: 일부 장애 발생해도 시스템 접근 가능
- 시스템 규모와 성능 확장 용이
- 쿼리기능: 데이터 특성에 맞게 효율적으로 데이터검색 및 처리 기능
3) RDBMS와 NOSQL 차이
RDBMS: 대용량 데이터 및 다양한 유형의 데이터 처리에 있어 어려움
- 데이터 무결성, 정확성 보장
Nosql: 강력한 수평적 확장성으로 데이터 분산 처리 및 다양한 유형의 데이터 관리 가능
- 웹환경의 다양한 정보 검색 및 저장 가능
출처: char :: nosql과 cap이론
4. 하둡 Hadoop(분산 데이터 처리 프레임워크)
- 대용량 데이터의 분산 저장과 처리가 가능하도록 만든 자바 기반의 오픈소스(무료) 프레임워크이자 패키지들의 집합
1) 하둡 분산 파일시스템 HDFS
- 수십 테라 또는 페타바이트 이상의 대용량 파일을 분산된 서버에 저장하고, 많은 클라이언트가 저장된 데이터를 빠르게 처리할 수 있게 설계된 파일 시스템
-유실, 고장의 위험으로부터 복제물 생성
5. 맵 리듀스 MAP REDUCE
- 대용량 데이터를 빠르고 안전하게 처리하기 위한 분산 프로그래밍 모델
(맵: 데이터 읽어서 필터링 또는 데이터 변형 작업 / 리듀스: 중복데이터 제거 후 그룹화하여 집계연산 수행한 결과 추출)
'Data Science Issue' 카테고리의 다른 글
[05] 데이터분석의 종류 (0) | 2023.03.24 |
---|---|
[공모전 준비] 데이터 분석 수상작 한 눈에 볼 수 있는 사이트 공유 (0) | 2023.03.22 |
[03] 데이터의 종류 (0) | 2023.03.22 |
[02] 빅데이터란 무엇인가? (0) | 2023.03.21 |
[초청세미나] 데이터 기반의 그로스 해킹이란? (0) | 2023.03.19 |