Data Analysis/텍스트마이닝

텍스트 마이닝_필수 라이브러리 설치

뉴욕킴 2023. 9. 2. 10:38

 

1. 텐서플로우 설치
  • 머신러닝과 딥러닝을 직관적이고 손쉽게 할 수 있도록 설계되어 있음
pip install tensorflow

 

2. 케라스 설치
  • 딥러닝 프레임워크인 텐서플로우에 대한 추상화 된 API 제공
pip install keras

 

3. 젠심 
  • 머신러닝을 사용하여 토픽 모델링과 자연어 처리 등을 수행할 수 있게 해주는 오픈 소스 라이브러리
pip install gensim

 

4. 사이킷런 
  • 파이썬 머신러닝 라이브러리 
pip install scikit-learn

 

5. 자연어 처리_NLTK, NLTK DATA 설치
pip install nltk
import nltk
nltk.download()
  • 설치 확인 

 

6. 자연어 처리_KoNLPy 설치
  • 한국어 자연어 처리를 위한 형태소 분석기 패키지 
pip install konlpy

 

7. JDK 환경 변수 설정

제어판 > 시스템 및 보안 > 시스템 > 고급 시스템 설정 > 고급 > 환경변수 > 

새로만들기 > JAVA_HOME 환경 변수 만들기 

 

 

 

Numpy

  • 수치 데이터를 다루는 파이썬 패키지
  • 다차원 행렬 자료 구조인 ndarray를 통해 벡터 및 행렬을 사용하는 선형 대수 계산에서 주로 사용
  • 장점: 편리성, 속도가 파이썬보다 빠름   
pip install numpy
import numpy as np

 

Matplotlib

  • 데이터를 chart나 plot으로 시각화하는 패키지
pip install matplotlib
import matplotlib.pyplot as plt
plt.title('test')
plt.plot([1,2,3,4],[2,4,8,6])
plt.show()

 

Pandas-Profiling

  • 데이터 내 값의 분포, 변수 간의 관계, null 값과 같은 결측값 존재 유무 등 데이터를 파악하는 과정
  • EDA(Exploratory Data Analysis, 탐색적 데이터 분석)
  • 방대한 양의 데이터를 가진 데이터 프레임을 profile_report() 라는 단 한 줄의 명령으로 탐색하는 패키지
pip install -U pandas-profiling