Data Analysis/텍스트마이닝
텍스트 마이닝_전처리 종류
뉴욕킴
2023. 9. 11. 03:36
토큰화
- 기본 단어들로 변환하는 작업
- ex. 구두점 토큰화 작업(. , ? ; ! 기호) → 단순히 제외하면 안됨. 문장의 경계를 알 수 있는데 도움을 주는 구두점, 특수문자도 있음 (ex 100,000,000)
- ex: dont/ don't/ don t/ do n't
pip install kss
import kss
한국어 토큰화의 문제점
- 한국어는 띄어쓰기가 영어보다 잘 지켜지지 않는다.
- 품사 태깅(단어는 표기는 같지만 품사에 따라 단어의 의미가 달라짐)
정규화
- 동일한 의미의 여러 다른 표현들을 하나의 표현으로 바꾸는 작업
Lemmatization
- 기본형으로 변환해서 어형 변화가 없게 하는 것
불용어
- 의미가 없는 단어들을 제거하는 작업
한국어 전처리 패키지
- PyKoSpacing : 띄어쓰기가 되어있지 않은 문장을 띄어쓰기를 한 문장으로 변환해주는 패키지
- Py-Hanspell : 네이버 한글 맞춤법 검사기로 만들어진 패키지
- SOYNLY : 사용자 사전과 형태소 분석 없이 corpus를 알고리즘 기반으로 학습하고, score를 매겨 이를 이용해 토근화 할 수 있는 기능 제공(반복되는 문자도 제거해줌)
- SOYNLP의 응집확률: 내부 문자열이 얼마나 응집하여 자주 등장하는지 판단하는 척도