Data Analysis/텍스트마이닝
텍스트마이닝_정수 인코딩
뉴욕킴
2023. 10. 1. 23:29
정수 인코딩
- 텍스트를 숫자로 바꾸는 자연어 처리 방법
- 각 단어를 고유한 정수에 맵핑 시키는 전처리 작업/ ex. book은 15번, apple은 3번, books는 16번
sent tokenize: 문장 단위
word tokenize: 단어 단위
패딩 Padding
- 여러 문장의 길이를 임의로 동일하게 맞춰주는 작업이 필요할 때 사용
- 데이터에 특정 값을 채워서 데이터 크기를 조정하는
제로 패딩 Zero Padding
- 숫자 0을 사용 하는 것
원 핫 인코딩
- 단어 집합의 크기를 벡터의 차원으로 하고, 표현하고 싶은 단어의 인덱스에 1의 값을 부여하고, 다른 인덱스에는 0을 부여하는 단어의 벡터 표현 방식
1) 정수 인코딩을 수행하여 단어에 고유한 정수를 부여
2) 표현하고 싶은 단어의 고유한 정수를 인덱스로 간주하고 해당 위치에 1을 부여, 다른 단어의 인덱스의 위치에는 0을 부여
원 핫 인코딩의 한계
- 단어의 개수가 늘어날 수록, 벡터를 저장하기 위해 필요한 공간이 계속 늘어난다는 단점(벡터의 차원 늘어남)
과적합과 과소적합
- 과적합: 데이터를 과하게 학습한 경우
- 과소적합: 테스트 데이터의 성능이 올라갈 여지가 있음에도 훈련을 덜 한 상
혼동 행렬
- 정확도는 맞춘 결과와 틀린 결과에 대한 세부적인 내용은 알려주지 않아 사용하는
- 정확도: 머신러닝에서 맞춘 문제수를 전체문제수로 나눈 값