머신러닝이란?
→ 데이터를 기반으로, 패턴을 인식하여 컴퓨터를 이용해 계산을 함
- 머신러닝은 항상 데이터를 기반으로 함
- 여러규칙을 단순조합하는 고전적인 인공지능 시스템이나 원하는 결과값이 출력되도록 내부 처리 동작을 사용자가 완전히 정의해야 하는 일반적인 컴퓨터 알고리즘과 차이가 있음
- 머신러닝은 알고리즘에 의해서가 아닌 데이터 학습을 통해 실행동작이 정해짐
- 대용량의 데이터 필요
1) 패턴인식: 데이터의 패턴을 유추
2) 컴퓨터를 이용한 계산
- 데이터를 처리하고 패턴을 학습하고 계산하는 데 컴퓨터를 사용 → 계산 자체도 중요한 연구분야
- 응용수학이나 통계학과 달리, 머신러닝은 단순히 수학적인 모델의 구축이나 증명에만 그치는 것이 아니라 실제 데이터에 대해 계산해서 결과를 만들어낸다는 점에서 전산학의 한 분야로 볼 수 있음
[분류]
1. 지도학습: 데이터와 레이블을 함께 학습함으로써 미지의 문제에 대한 값을 예측하는 시스템 구축 (대부분의 머신러닝은 지도학습에 속함)
1) 분류: 유사한 성질끼리 분류하고 어디에 속하는지 찾아내기
- 레이블이 포함된 데이터를 학습하고 유사한 성질을 갖는 데이터끼리 분류한 후 새로 입력된 데이터가 어느 그룹에 속하는지를 찾아내는 기법
- 어떤 입력 데이터가 들어오더라도 학습에 사용한 레이블 중 하나로만 결과값이 결정되는 작업
- 예) 필기체 인식
2) 회귀: 예측하고 싶은 값이 숫자일 때 사용
- 독립변수와 종속변수가 있고, 종속변수가 숫자일 때, 즉, 예측하고 싶은 값이 숫자일 때 사용하는 방법
- 입력값에 대한 결과값이 학습에 사용된 레이블 외의 값에서도 나올 수 있음
예) 키와 몸무게 관계를 통한 몸무게 예측 작업
3) 랭킹/추천
- 추천시스템은 상품에 대한 사용자 선호도(별점, 구매 여부 등)을 예측하는 시스템
- 상품과 사용자 데이터를 이용하여 레이블을 예측하는 것이므로 회귀의 일종으로도 볼 수 있음
- 회귀와 다른 점: 입력과 출력이 아니라 관객과 영화, 관객과 점수 등 다양한 관계를 고려
- 랭킹학습은 회귀에서처럼 각 입력 데이터의 출력값을 예측하는 것이 아니라 데이터의 순위를 예측
2. 비지도학습 : 입력값에 대한 레이블이 없는 데이터를 사용하여 유용한 패턴을 추출
1) 군집
- 데이터를 구분하여 비슷한 집단으로 묶는 작업
- 분류 vs. 군집
* 분류: 학습에 사용한 레이블을 기준으로 묶음
* 군집: 정해진 레이블 없이 데이터 간에 존재하는 비슷한 속성을 기준으로 데이터를 묶음 - 마케팅 분야에서 많이 활용되고 있음
2) 기타
- 토픽 모델링: 군집화와 매우 유사하지만 주로 텍스트 데이터에 대해 사용됨
- 밀도추정: 관측한 데이터로부터 데이터를 생성한 원래의 분포를 추측하는 방법
- 차원축소: 데이터가 복잡하고 높은 차원을 가져서 시각화하기 어려울 때 2차원이나 3차원으로 표현하기 위해 데이터 차원을 낮추는 방법
3) 강화학습
- 입력값에 대한 정답이나 결과값 대신 어떤 일을 잘했을 때 보상을 주는 방식으로 머신러닝 모델을 학습시키는 것
- 주어진 환경(문제)에서 에이전트가 선택한 행동에 따라
그 행동이 옳은 선택이면 상을 받고 잘못된 선택이면
벌을 받게 하여 에이전트가 상태를 계속 주시하면서
보상이 높은 쪽으로 학습하게 하는 것
- 핵심목표: 시행착오를 통해 보상의 총합이 최대가 되는
일련의 행동을 찾는 것
→ 나중에 더 큰 이익을 기대하며 지금의 손해를 감수하는
식의 전략적 행동을 탐색할 수 있게 됨
- 전략수립(게임 전략, 금융시장의 투자전략, 광고 노출
전략 등), 로보틱스분야(로봇팔 제어, 이족보행 제어),
자율주행 분야에서 핵심적 기술로 활용되고 있음
딥러닝이란?
- 인공신경망 : 여러 뉴런(전기적/화학적 신호를 통해 정보를 처리하고 전송하는 역할)이 서로 연결되어 있는 구조의 네트워크
- 딥러닝(Deep learning)
- 여러 개의 은닉층을 가진 인공신경망을 사용하여 머신러닝 학습을 수행하는 기술
- 딥(deep): 연속된 신경망 층(layer)을 깊게 쌓는다는 의미
- 신경망이 깊어질수록 성능 향상
- 머신러닝과 딥러닝의 차이점: 딥러닝은 인간의 개입없이 컴퓨터 스스로가 학습함
[참고문헌]
고광일(2021). 난생처음 인공지능 with 스크래치, 한빛아케데미. 김승연,
정용주(2017). 처음 배우는 머신러닝: 기초부터 모델링, 실전 예제, 문제 해결까지, 한빛미디어.
서지영(2021). 난생처음 인공지능 입문, 한빛아카데미
'Data visualization > 사회과학빅데이터' 카테고리의 다른 글
빅데이터의 활용 요소 및 기술 정리 (0) | 2024.03.19 |
---|---|
인공지능이란? (0) | 2024.03.13 |