전체 글 196

[04] 데이터 저장 및 처리 방법

1. 데이터웨어하우스(DW) - 데이터를 추출하고 조합해 정보, 지식으로 바꾸는 기술/ 다양한 주제에 대한 전사적 데이터 포함 → "의사결정 지원"을 위한 데이터베이스(요약된 읽기 전용 데이터베이스) -구성요소 1) 데이터 부르기(업무자료, 내부 보관자료 등) 2) 데이터 추출 및 변환 3) 데이터 저장(데이터웨어하우스) 4) 데이터 마트에 저장 5) 자료조회 및 분석 1-1. 데이터마트: 특정 주제와 밀접하게 관련된 정보를 저장 2. OLAP - online analytical processing / 온라인분석처리 -다차원 데이터 구조를 이용하여 다차원 복잡한 질의를 고속으로 처리하는 데이터 분석 기술 ex. 지역별/분기별/상품별 → 판매액 비교 홈쇼핑/온라인판매/오프라인판매 → 매출액 비교(월별/분기..

Data Science Issue 2023.03.22

[03] 데이터의 종류

1) 빅데이터 종류 - 정형데이터: 고정된 필드에 저장된 데이터, 데이터베이스를 설계한 사람에 의해 수집되는 형태 - 비정형데이터: 문서, 그림, 영상 등 정해지지 않은 데이터 - 분석대상 데이터 예시: 쿠팡 → 긍/부정, 주요 토픽 및 이슈, 리뷰에 많이 나오는 단어들 - 로그데이터: 사용자가 처음 사이트를 방문하는 순간부터 기록되는 데이터 → 사용자가 어떤 것들에 대해 관심이 많은지 분석 - 센서데이터: 부착된 센서로 정보 수집: cctv, 고속도로 통행 등 - 이미지 및 동영상: 딥러닝을 이용해 이미지 안에 어떤 상황이 있는지 읽어냄 2) 빅데이터의 수집 - 부정확한 데이터는 잘못된 데이터 분석 결과를 초래하므로 수집이 중요함 → 내부데이터(회사 내부)/ 외부데이터(인터넷)로 나뉨 - 내부데이터 수..

Data Science Issue 2023.03.22

[02] 빅데이터란 무엇인가?

빅데이터란? 1) 조직의 내외부에 존재하는 다양한 형태의 데이터를 수집, 처리, 저장하여 목적에 맞게 분석하여 조직의 전략적 의사결정 또는 시스템화 하여 생산성 향상에 활용하거나 새로운 비즈니스 모델을 창출하는 패러다임 빅데이터의 역사 빅데이터 자체의 개념은 비교적 새로운 것이지만, 대규모 데이터 세트의 기원은 최초의 데이터 센터가 등장하고 관계형 데이터베이스가 개발되는 등 데이터 세상이 막 시작되었던 1960년대와 70년대로 거슬러 올라갑니다. 2005년 무렵 사람들은 Facebook, YouTube 및 기타 온라인 서비스를 통해 사용자가 얼마나 많은 양의 데이터를 생성하고 있는지 깨닫기 시작했습니다. 같은 해에 Hadoop(빅 데이터 세트를 저장하고 분석하기 위해 특별히 개발된 오픈 소스 프레임워크)..

Data Science Issue 2023.03.21

[2장-2] 붓꽃 품종 예측_파이썬 머신러닝 완벽가이드

# 사이킷런을 이용하여 붓꽃(Iris) 데이터 품종 예측하기 1. 사이킷런 버전 확인 import sklearn print(sklearn.__version__) 2. 붓꽃 예측을 위한 사이킷런 필요 모듈 로딩(필수 라이브러리 불러오기) from sklearn.datasets import load_iris from sklearn.tree import DecisionTreeClassifier #결정트리 from sklearn.model_selection import train_test_split #학습과 분류 데이터 3. 학습 데이터와 테스트 데이터 세트로 분리 # X_train과 y_train은 모델을 학습시킬 때 사용되고(X_train과 y_train은 서로 겹치는 데이터가 없어야 함) # X_test는..

[2장-1] 싸이킷런_파이썬 머신러닝 완벽가이드

1. 싸이킷런(scikit-learn) - 머신러닝을 위한 다양한 알고리즘과 개발을 위한 편리한 프레임워크, API 제공 - numpy와 scipy 기반에서 구축된 라이브러리 2. 용어 정리 - 피처(feature) : 일반 속성 - 레이블 : 타겟 값이 분류일 경우 → 데이터 학습을 위해 주어지는 정답 데이터 - 클래스 : 타겟 값이 분류일 경우 → 데이터 학습을 위해 주어지는 정답 데이터 - 타켓(값) → 학습할 값 - 결정(값) 3. 분류 예측 프로세스 1) 데이터 세트 분리(학습 데이터 / 테스트 데이터) 2) 모델학습 3) 예측수행 4) 평가(결과 비교 및 정확도 평가) 4. 사이킷런 기반 프레임워크 학습 : fit() 예측 : predict() 1) 내장 예제 데이터셋 - datasets.lo..

[초청세미나] 데이터 기반의 그로스 해킹이란?

1. 그로스해킹의 개념 성장+해킹이 결합된 단어 -> 해킹하듯 성장하는 방법을 찾는다 - 고객의 반응에 따라 제품 및 서비스를 수정해 제품과 시장의 궁합(Product-Market Fit)을 높이는 것을 의미 - 제품과 서비스를 성장시키기 위해 온라인 행동 데이터를 분석하며 이를 바탕으로 사용자 경험을 최적화하는 것 -> 데이터를 활용한 마케팅 - 고객의 웹사이트 방문 기록, 머무른 시간, 회원 가입으로 전환되는 비율 등 다양한 데이터를 기반으로 더 나은 서비스와 제품을 제공하기 위해 시도 (참고: 위키백과) 2. 버락오바마와 트럼프의 그로스 마케팅 1) Barack Obama 대선 마케팅 (A/B 테스트를 통한 고객 반응 평가) - 버락오바마 닷컴에 방문한 유권자를 대상으로 페이지 이미지/ 문구/ 버튼..

Data Science Issue 2023.03.19
728x90