[03] 데이터의 종류
1) 빅데이터 종류
- 정형데이터: 고정된 필드에 저장된 데이터, 데이터베이스를 설계한 사람에 의해 수집되는 형태
- 비정형데이터: 문서, 그림, 영상 등 정해지지 않은 데이터
- 분석대상 데이터
예시: 쿠팡 → 긍/부정, 주요 토픽 및 이슈, 리뷰에 많이 나오는 단어들
- 로그데이터: 사용자가 처음 사이트를 방문하는 순간부터 기록되는 데이터
→ 사용자가 어떤 것들에 대해 관심이 많은지 분석
- 센서데이터: 부착된 센서로 정보 수집: cctv, 고속도로 통행 등
- 이미지 및 동영상: 딥러닝을 이용해 이미지 안에 어떤 상황이 있는지 읽어냄
2) 빅데이터의 수집
- 부정확한 데이터는 잘못된 데이터 분석 결과를 초래하므로 수집이 중요함
→ 내부데이터(회사 내부)/ 외부데이터(인터넷)로 나뉨
- 내부데이터 수집 방법: ETL
1) extraction 추출
2) transform 변환
3) loading 적재
- 외부데이터 수집 방법: 크롤링
1) 웹페이지 내용 수집(scrapping)
2) 웹페이지 내 수집 대상 추출(crawling)하여 데이터화 진행
ex. textom 웹 크롤링, 파이썬,
3) 데이터 베이스
- 과거 : filing system으로 관리 / 단점: 중복성, 보안성문제, 경제성(저장공간 낭비)
- 현재 :DBMS(데이터베이스 관리시스템)
3-1) DBMS(데이터베이스 관리시스템)
- 컴퓨터에 저장되는 데이터베이스를 관리해주는 소프트웨어 시스템(데이터조작, 데이터제어)
- 장점: 응용프로그램과 데이터간의 독립성 확보, 데이터 중복제거(데이터 무결성 재고), 높은 보안수준(데이터제어 및 통제), 경제성 제고
4) 데이터모델링
- ERD: 개념적 데이터 모델의 대표적인 모델
빅데이터란? | 고급 빅데이터 분석 | SAP Insights