Data Analysis/텍스트마이닝

텍스트 마이닝_전처리 종류

뉴욕킴 2023. 9. 11. 03:36

토큰화 

  • 기본 단어들로 변환하는 작업
  • ex. 구두점 토큰화 작업(.  , ? ; ! 기호) → 단순히 제외하면 안됨. 문장의 경계를 알 수 있는데 도움을 주는 구두점, 특수문자도 있음 (ex 100,000,000)
  • ex: dont/ don't/ don t/ do n't
pip install kss
import kss

한국어 토큰화의 문제점 
  • 한국어는 띄어쓰기가 영어보다 잘 지켜지지 않는다.
  • 품사 태깅(단어는 표기는 같지만 품사에 따라 단어의 의미가 달라짐) 

 

정규화

  • 동일한 의미의 여러 다른 표현들을 하나의 표현으로 바꾸는 작업

Lemmatization

  • 기본형으로 변환해서 어형 변화가 없게 하는 것

불용어

  • 의미가 없는 단어들을 제거하는 작업

한국어 전처리 패키지

  • PyKoSpacing : 띄어쓰기가 되어있지 않은 문장을 띄어쓰기를 한 문장으로 변환해주는 패키지
  • Py-Hanspell : 네이버 한글 맞춤법 검사기로 만들어진 패키지 

 

  • SOYNLY : 사용자 사전과 형태소 분석 없이 corpus를 알고리즘 기반으로 학습하고, score를 매겨 이를 이용해 토근화 할 수 있는 기능 제공(반복되는 문자도 제거해줌) 
  • SOYNLP의 응집확률: 내부 문자열이 얼마나 응집하여 자주 등장하는지 판단하는 척도