1. 텐서플로우 설치
- 머신러닝과 딥러닝을 직관적이고 손쉽게 할 수 있도록 설계되어 있음
pip install tensorflow
2. 케라스 설치
- 딥러닝 프레임워크인 텐서플로우에 대한 추상화 된 API 제공
pip install keras
3. 젠심
- 머신러닝을 사용하여 토픽 모델링과 자연어 처리 등을 수행할 수 있게 해주는 오픈 소스 라이브러리
pip install gensim
4. 사이킷런
- 파이썬 머신러닝 라이브러리
pip install scikit-learn
5. 자연어 처리_NLTK, NLTK DATA 설치
pip install nltk
import nltk
nltk.download()
- 설치 확인
6. 자연어 처리_KoNLPy 설치
- 한국어 자연어 처리를 위한 형태소 분석기 패키지
pip install konlpy
7. JDK 환경 변수 설정
제어판 > 시스템 및 보안 > 시스템 > 고급 시스템 설정 > 고급 > 환경변수 >
새로만들기 > JAVA_HOME 환경 변수 만들기
Numpy
- 수치 데이터를 다루는 파이썬 패키지
- 다차원 행렬 자료 구조인 ndarray를 통해 벡터 및 행렬을 사용하는 선형 대수 계산에서 주로 사용
- 장점: 편리성, 속도가 파이썬보다 빠름
pip install numpy
import numpy as np
Matplotlib
- 데이터를 chart나 plot으로 시각화하는 패키지
pip install matplotlib
import matplotlib.pyplot as plt
plt.title('test')
plt.plot([1,2,3,4],[2,4,8,6])
plt.show()
Pandas-Profiling
- 데이터 내 값의 분포, 변수 간의 관계, null 값과 같은 결측값 존재 유무 등 데이터를 파악하는 과정
- EDA(Exploratory Data Analysis, 탐색적 데이터 분석)
- 방대한 양의 데이터를 가진 데이터 프레임을 profile_report() 라는 단 한 줄의 명령으로 탐색하는 패키지
pip install -U pandas-profiling
'Data Analysis > 텍스트마이닝' 카테고리의 다른 글
[Kaggle] Women's E-Commerce Clothing Reviews (0) | 2023.12.04 |
---|---|
Gutenberg project_Alice's Adventures in Wonderland (0) | 2023.11.01 |
텍스트 마이닝 기본 개념 정리 (1) | 2023.10.28 |
텍스트마이닝_정수 인코딩 (0) | 2023.10.01 |
텍스트 마이닝_전처리 종류 (0) | 2023.09.11 |