Data Science Issue

빅데이터 기본 개념zip

뉴욕킴 2023. 4. 15. 09:42
1. 빅 데이터란 무엇인가? 기존의 데이터 분석과는 어떻게 다른가? 주요 특징은?

1) 빅데이터란?

 조직의 내외부에 존재하는 다양한 형태의 데이터를 수집, 처리, 저장하여 목적에 맞게 분석하여 조직의 전략적 의사결정 또는 시스템화 하여 생산성 향상에 활용하거나 새로운 비즈니스 모델을 창출하는 패러다임

 

2) 데이터 분석과 빅데이터 분석의 차이?

데이터 분석 자체의 역사는 오래되었다. 

과거에 비해 분석하는 대상의 데이터가 대규모화 되고, 이에 따라 정형데이터 분석 중심에서 비정형 데이터, 외부 데이터 활용하기까지의 범위가 확대가 되고 있다. 

 

  1. 빅데이터가 제공하는 기회
  • 의사결정이 질 제고(의사결정 효과성 및 적시성 향상)
  • 운영효율 제고(데이터분석을 통해 도출된 지식을 시스템화하여 업무에 적용)
  • 새로운 가치 창출(새로운 비즈니스, 서비스 모델 창출/ 예시: 옷에 부착된 웨어러블로 새로운 비즈니스 창출)→ 미래의 새로운 자원, 비즈니스 혁신의 도구, 비즈니스 창조의 도구 

 

3) 데이터 특징

 

1. 기술적 요소

  • 데이터 수집,처리 및 분석 기술 

2. 전략적 요소

  • Digital transformation 전략(경영의 제반 분야를 근본적으로 변화시키는 것)
  • 빅데이터 활용 기획(조직의 문제해결을 위해 활용목표 및 방법을 정의, 자원 확보)
  • 빅데이터 분석 및 활용 기회의 탐색(어떤 문제 해결에 빅데이터를 활용하고자 하는지 탐색하고 시나리오를 구축)

3. 인적 요소(전문인력과 조직 교육과 변화 관리)

- 전문인력(CDO chief data officer)

- Data scientists (통계지식+비즈니스 이해+전략수립)

- 전문조직(빅데이터센터, 빅데이터 팀)

- 교육 및 변화관리(현업의 데이터 분석, 기획, 시나리오 도출의 중요성 → 현업의 도움이 없으면 활용하기 힘들다)

 

4) 빅데이터의 핵심요소

-데이터

-데이터의 수집, 처리, 저장기술(정형데이터, 비정형데이터)

-데이터의 분석 및 지식추출 기술


2. 빅 데이터와 인공지능, 어떤 관계로 설명할 수 있는가?

인공지능은 기계에 인간의 지능을 구현하는 것을 말하고, 빅데이터는 대용량의 데이터를 말한다.

데이터를 활용하여 머신러닝 알고리즘을 통해 학습을 하고 학습된 결과를 바탕으로 데이터의 의미 있는 가치를 찾아 의사결정을 하는데 참고 자료로 활용하는 것이 인공지능을 활용한 방법 중 하나다.

이처럼 학습을 하기 위해서 데이터가 필요한 것이고, 인공지능을 통한 가치있는 의미를 구하기 위해 필요한것도 데이터이기 때문에 공생관계라고 말할 수 있다.

또한 인공지능 구현에 빅데이터를 이용해 그 정확도를 증가시켰고 빅데이터 분석에 인공지능 기술을 도입하여 빅데이터의 활용성을 높여주었기 때문에 상호 보완 관계로 볼 수도 있다.


과거에는 데이터가 많지 않고, 하드웨어 성능의 제한 등으로 인해 데이터추출에 한계가 있었다. 최근에는 많은 데이터와 기반 환경들이 발전되어 귀납에 의한 지식 획득 가능성이 높아졌다. 빅데이터의 데이터 기반이 탄탄해질수록, 많은 양의 데이터를 기계를 학습시켜 더 지능적이고 고도화된 인공지능을 구축하게 되고, 실 생활에 더 밀접하게 사용할 수 있게 된다.


3. Data Warehouse, Data Mart 등 지식분석을 위한 데이터베이스의 주요 특징은?

1) Data Warehouse

 기업 내에 있는 각종 데이터들을 활용 해 지식 분석 중심, 의사결정지원을 위한 DB이다.

→ 데이터를 추출하고 조합해 정보, 지식으로 바꾸는 기술/ 다양한 주제에 대한 전사적 데이터 포함하여 ‘의사 결정 지원’을 위한 데이터베이스(지식 분석을 위한 베이스)

 

2) 특징 

주제 중심적: 기업의 의사결정과 관련된 데이터중심

비 휘발성: 데이터 로드와 활용만 있고, 추가/삭제/변경과 같은 갱신은 발생하지 X

시간적, 역사성: 기존 DB와 달리 시간 관점이 있어, 데이터 포인트들을 시간 축을 따라 비교, 분석이 가능하다.

 

3) Data Mart: 특정 주제와 밀접하게 관련된 정보를 저장

데이터 웨어하우스와 사용자 사이의 중간층에 위치

데이터 웨어하우스가 도매상이라면, 데이터 마트는 소매상

데이터 마트의 데이터는 대부분 데이터 웨어하우스로부터 복제함.


4. 비정형 데이터베이스란? 출현 배경과 주요 특징은? 최근에는 Data Lake라는 개념이 떠오르고 있다. Data Lake와 함께 연계하여 설명하라.

 최근에는 Data Lake라는 개념이 떠오르고 있다. Data Lake와 함께 연계하여 설명하라.
 

1) 비정형 데이터 베이스란?

   기존의 RDB, DW와 같은 정형 데이터 베이스만으로는 해결이 어려움. 분사환경 해 대용량의 데이터를 신속하게 처리하기 위해 비정형 데이터 베이스가 등장

   Ex) NoSQL, Hadoop

 

 2) 출현 배경과 주요 특징은?

 과거에는 정형화된 데이터만 분석을 했지만, 데이터의 규모가 커지면서 비정형 데이터가 등장했고, 이런 데이터들을 더 효율적으로 분석하고 사용하기 위해 Data Lake라는 개념이 등장했다. Data Lake 는 가공되지 않은 다양한 종류의 데이터를 한곳에 모아둔 저장소의 집합. 이것이 바로 Data Lake 이다.


5. 데이터 분석의 두가지 유형, 즉 Descriptive Analysis 와 Predictive Analysis 란? 개념과 함께, 예를 들어 설명하라.

1) Descriptive A : 기본 분석으로 주어진 데이터를 요약, 집계해 결과를 도출하는 방법

Ex) 이번 달 매출액, 평균 세션타임, 설문 응답자의 남녀 평균

 

2) Predictive A : 과거의 데이터를 바탕으로 미래의 값을 평가하고 예측하는 방법

 Ex) 키와 몸무게 데이터들을 통해 특정 몸무게의 경우 키가 어느정도 될 것이라는 것을 예측 할 수 있음


6. 데이터를 활용하여 모형을 구축할 때 중요한 세 가지 패러다임, 즉 수렴(Convergence), 일반화(Generalization), 안정성(Stability)란 무엇을 의미하는가? 업무적용에 있어서 모형의 일반화 여부는 왜 중요한가?    
  1. 수렴: 학습을 통해 에러를 줄여나가는 것
  2. 일반화: out-of-sample에서도 fitness가 높은지 여부(cross validation set으로 모너터링)
  3. 안정성: 데이터의 작은 변동에도 큰 변화가 나타난다면 견고성, 안정성이 낮은것으로 판단.
  4. 일반화 중요성: 현재의 자료보다 미래의 자료를 잘 설명할 수 있는 모형을 추구하기 때문
  5. 모형 구축 단계: 모형을 구축할 때는 선정된 중요 변수를 사용하여 다양한 모형을 구축하는 단계로 적용할 모형 구축 기법을 선정, 수렴 및 일반화, 안정성의 점검등을 수행한다.

          ex: 회귀분석, 인공신경망, 의사결정나무


7. 인공신경망 기업의 구조, 학습방법, 장단점 등을 설명하라.

 인공신경망은 데이터를 통한 학습과정을 통해 일반화된 패턴, 지식을 찾아내는 대표적인 학습 기법이다. 인공신경망은 복잡하지만 예측력이 우수해 경영의사결정을 지원하기 위한 예측 및 분류 모형 구축에 많이 활용된다. 

 

 인공신경망의 학습방법 : supervised learning,  unsupervised learning 두가지가 있다.

  • Supervised Learning: 맞춰야 하는 값이 있는 것 즉, targer value가 있는 것 : 입력 데이터에 대한 정답을 제공해 정답을 찾아가는 과정
  • Unsupervised Learning: 반대되는 개념으로 맞춰야 하는 target value 가 없는것 : 정답이 없는 학습을 모델에게 요구하는 방법( 비지도학습)

 

1) 장단점

- 장점: 입력변수와 결과 변수의 관계를 정의하기 어렵고 복잡한 데이터에 대해서도 좋은 결과

가 가능, 예측력 우수, 견고하고 안정적인 기법

- 단점: 최적의 모형을 도출하는 것이 상대적으로 어렵다는점.

 입출력 변수의 연관관계에 대한 설명이 어렵다는 부분, 

 충분한 데이터가 필요

 


8. 심층 인공신경망에서 오버피팅이란? 기울기 소실이란? 해결방안은?

1) overfitting(과적합)이란?

학습데이터에 지나치게 맞는 모델을 학습함으로써 일반화 성능이 떨어지는 현상

→ 모델의 성능을 떨어뜨리는 주요 이슈로 모델이 과적합되면 훈련 데이터에 대해 제대로 동작하지 않음. 이는 모델이 학습 데이터를 불필요할정도로 과하게 암기하여 훈련 데이터에 포함된 노이즈까지 학습한 상태라고 해석 가능함. 

 

2) 오버피팅이 발생하는 원인?

  1. 그릇된 학습 데이터를 사용 하는 경우로 이 경우는 잘못된 데이터를 찾아내 올바른 데이터로 다시 학습하면 쉽게 해결이 가능하다.
  2. 학습 데이터가 실제 발생 가능한 전체 데이터에 비해 턱 없이 적거나 입력 변수들이 아주 많은 경우

3) 기울기 소실?

딥러닝 모델을 학습시키는 과정에서 출력값과 멀어질수록 학습이 되지 않는 현상. 이러한 심층신경망에서 가중치를 back propagation으로 학습시키는 과정에서 가중치가 발산하거나 곡선의 기울기가 0이 되는 기울기 손실 문제가 발생 

→ 해결방안: 시그모이드 함수, 하이퍼볼릭 탄젠트 활성화 함수, ReLU함수, 

    

4) 해결방안은?

  1. 데이터의 양을 늘리기(데이터의 양을 늘릴 수록 모델은 데이터의 일반적인 패턴을 학습하여 과적합 방지 가능)
  2. 모델의 복잡도 줄이기
  3. 가중치 규제 적용하기(복잡한 모델이 간단한 모델보다 과적합될 가능성이 높기 때문에 복잡한 모델은 좀 더 간단하게 만드는 방법)
  4. 드롭아웃 사용(학습 과정에서 신경망의 일부를 사용하지 않는 방법)

9. 딥러닝이란? 최근 딥러닝의 발전 동향에 관해 설명하라.

 1) 딥러닝이란?

수많은 데이터에서 특징을 추출하고, 특징의 패턴을 학습하는 기계학습 기법

인공신경만으로부터 발전된 학습 기법, 기계학습의 하위 개념

인공신경망 등 기존 기계학습은 중요한 특징들을 제공해서 학습하는 반면, 딥러닝에서는 데이

터로부터 중요한 변수들을 추출하여 학습

 

2) 딥러닝의 발전 동향

 1940년 인공지능 연구의 역사부터 시작

 1986년 제프리 힌턴이 역전파 알고리즘을 개발해 다층 퍼셉트론의 학습을 가능하게 함.

하지만 신경망의 깊이가 깊어질수록 미분해서 구한 오차값을 곱할수록 점점 작아져 0에 가까워지는 한계인 경사소실 문제가 나타남

 2000년 후반, 심층 신경망의 효과적 훈련을 가능하게 하는 알고리즘 제안

하드웨어 발전으로 데이터 저장 및 처리 비용이 감소됨 

2010년, 딥러닝 알고리즘 개발, 양질의 데이터, 컴퓨팅 성능 개선으로 딥러닝 시대 개막

현재,   딥러닝의 발전은 이미지 식별, 음성인식, 자동번역, 질의 응답, 문제해결 및 예측 등 

인공지능의 구현에 필요한 핵심 요소들을 가능하게 해주고 있는 원동력

미래,   지속적인 연구를 통한 알고리즘의 개선, 분산 클라우드 컴퓨팅을 통한 컴퓨팅 파워의 

확대 등이 이루어질 경우 인공지능의 성능개선 및 적용 분야 확대에 크게 기여할 

것으로 예측


10. 기업이나 조직을 경영함에 있어서 빅 데이터가 주는 기회는 무엇이라고 생각하는가?

빅데이터는 기업이나 조직을 경영함에 있어서 가장 객관적인 의사결정을 도와줍니다. 같은 데이터를 두고 다른 해석을 내놓기 쉽고 데이터를 어떻게 분석하느냐가 데이터의 가치를 결정하기도 한다.

 

 구글은 빅데이터 분석을 통해 미국의 독감이 유행할 것을 예측하기도 하고 선거 결과를 예측하기도 합니다. 아마존은 빅데이터를 활용해 추천 상품 서비스를 제공하고 있으며 총 매출의 3분의 1이상이 서비스에서 발생하고 있습니다. 

 

빅데이터로 삶을 변화시킬 수 있는 것은 신규 서비스 분야입니다. 최근 몇년간 가장 성장세가 높은 사업분야가 생산자와 소비자를 이어주는 플랫폼 시장.(아마존, 유튜브, 우버)

 

리서치의 경우 비용이 높고 기간도 오래걸리는데 빅데이터 소셜미디어를 분석하면 이런 문제도 극복 가능

 

1. 의사결정의 질 제고: 의사결정 효과성 및 적시성 향상

 

2. 운영효율 제고: 데이터분석을 통해 도출된 지식을 시스템화하여 업무에 적용

 

3. 새로운 가치 창출: 새로운 비즈니스, 서비스 모델 창출

ex. 옷에 부착된 웨어러블로 새로운 비즈니스를 창출

https://newsroom.daewoong.co.kr/archives/7588

 

→ 미래의 새로운 자원, 비즈니스 혁신의 도구, 비즈니스 창조의 도구