Data Analysis/텍스트마이닝 6

Gutenberg project_Alice's Adventures in Wonderland

1. Gutenberg project 접속 Free eBooks | Project Gutenberg 2. 텍스트 마이닝 하고 싶은 E-BOOK 고르기 3. 코드 짜보기 pip install wordcloud import pandas as pd import numpy as np from collections import Counter from wordcloud import WordCloud import matplotlib.pyplot as plt from PIL import Image import requests from bs4 import BeautifulSoup from collections import Counter from wordcloud import WordCloud import matplotl..

텍스트 마이닝 기본 개념 정리

1. 텍스트 전처리 1) 토큰화: 주어진 텍스트를 작은 부분인’ 토큰’으로 나누는 과정/ 문장을 개별 단어로 분리하는 것을 의미함. ➔ 예시: 구두점 제외시키기: 마침표. 컴마, 물음표? 세미콜론; 느낌표! - I love music -> [“i”, “love”, “music”] 으로 변환 ➔ 토큰화 고려점: * 구두점이나 특수문자를 단순히 제외해서는 안된다.($45.55 123,456,789 ->문장의 경계를 알 수 있는데 도움이 됨) * 줄임말과 단어 내에 띄어쓰기가 있는 경우 (we're -> we are, i'm -> i am) ➔ 한국어 토큰화 문제점: 교착어의 문제, 한국어는 영어보다 띄어쓰기가 잘 지켜지지 않는다. 2) 정규화: 다양한 형태의 텍스트를 일관된 형태로 변환하는 작업(동일한 의미..

텍스트마이닝_정수 인코딩

정수 인코딩 텍스트를 숫자로 바꾸는 자연어 처리 방법 각 단어를 고유한 정수에 맵핑 시키는 전처리 작업/ ex. book은 15번, apple은 3번, books는 16번 sent tokenize: 문장 단위 word tokenize: 단어 단위 패딩 Padding 여러 문장의 길이를 임의로 동일하게 맞춰주는 작업이 필요할 때 사용 데이터에 특정 값을 채워서 데이터 크기를 조정하는 제로 패딩 Zero Padding 숫자 0을 사용 하는 것 원 핫 인코딩 단어 집합의 크기를 벡터의 차원으로 하고, 표현하고 싶은 단어의 인덱스에 1의 값을 부여하고, 다른 인덱스에는 0을 부여하는 단어의 벡터 표현 방식 1) 정수 인코딩을 수행하여 단어에 고유한 정수를 부여 2) 표현하고 싶은 단어의 고유한 정수를 인덱스로 ..

텍스트 마이닝_전처리 종류

토큰화 기본 단어들로 변환하는 작업 ex. 구두점 토큰화 작업(. , ? ; ! 기호) → 단순히 제외하면 안됨. 문장의 경계를 알 수 있는데 도움을 주는 구두점, 특수문자도 있음 (ex 100,000,000) ex: dont/ don't/ don t/ do n't pip install kss import kss 한국어 토큰화의 문제점 한국어는 띄어쓰기가 영어보다 잘 지켜지지 않는다. 품사 태깅(단어는 표기는 같지만 품사에 따라 단어의 의미가 달라짐) 정규화 동일한 의미의 여러 다른 표현들을 하나의 표현으로 바꾸는 작업 Lemmatization 기본형으로 변환해서 어형 변화가 없게 하는 것 불용어 의미가 없는 단어들을 제거하는 작업 한국어 전처리 패키지 PyKoSpacing : 띄어쓰기가 되어있지 않은 ..

텍스트 마이닝_필수 라이브러리 설치

1. 텐서플로우 설치 머신러닝과 딥러닝을 직관적이고 손쉽게 할 수 있도록 설계되어 있음 pip install tensorflow 2. 케라스 설치 딥러닝 프레임워크인 텐서플로우에 대한 추상화 된 API 제공 pip install keras 3. 젠심 머신러닝을 사용하여 토픽 모델링과 자연어 처리 등을 수행할 수 있게 해주는 오픈 소스 라이브러리 pip install gensim 4. 사이킷런 파이썬 머신러닝 라이브러리 pip install scikit-learn 5. 자연어 처리_NLTK, NLTK DATA 설치 pip install nltk import nltk nltk.download() 설치 확인 6. 자연어 처리_KoNLPy 설치 한국어 자연어 처리를 위한 형태소 분석기 패키지 pip instal..

728x90