티스토리

데이터 공부하는 뉴욕킴

검색하기

텍스트 마이닝_전처리 종류

Data Analysis/텍스트마이닝

텍스트 마이닝_전처리 종류

뉴욕킴 2023. 9. 11. 03:36

토큰화

기본 단어들로 변환하는 작업
ex. 구두점 토큰화 작업(. , ? ; ! 기호) → 단순히 제외하면 안됨. 문장의 경계를 알 수 있는데 도움을 주는 구두점, 특수문자도 있음 (ex 100,000,000)
ex: dont/ don't/ don t/ do n't

pip install kss
import kss

한국어 토큰화의 문제점

한국어는 띄어쓰기가 영어보다 잘 지켜지지 않는다.
품사 태깅(단어는 표기는 같지만 품사에 따라 단어의 의미가 달라짐)

정규화

동일한 의미의 여러 다른 표현들을 하나의 표현으로 바꾸는 작업

Lemmatization

기본형으로 변환해서 어형 변화가 없게 하는 것

불용어

의미가 없는 단어들을 제거하는 작업

한국어 전처리 패키지

PyKoSpacing : 띄어쓰기가 되어있지 않은 문장을 띄어쓰기를 한 문장으로 변환해주는 패키지
Py-Hanspell : 네이버 한글 맞춤법 검사기로 만들어진 패키지

SOYNLY : 사용자 사전과 형태소 분석 없이 corpus를 알고리즘 기반으로 학습하고, score를 매겨 이를 이용해 토근화 할 수 있는 기능 제공(반복되는 문자도 제거해줌)
SOYNLP의 응집확률: 내부 문자열이 얼마나 응집하여 자주 등장하는지 판단하는 척도