Data Analysis 35

텍스트마이닝_정수 인코딩

정수 인코딩 텍스트를 숫자로 바꾸는 자연어 처리 방법 각 단어를 고유한 정수에 맵핑 시키는 전처리 작업/ ex. book은 15번, apple은 3번, books는 16번 sent tokenize: 문장 단위 word tokenize: 단어 단위 패딩 Padding 여러 문장의 길이를 임의로 동일하게 맞춰주는 작업이 필요할 때 사용 데이터에 특정 값을 채워서 데이터 크기를 조정하는 제로 패딩 Zero Padding 숫자 0을 사용 하는 것 원 핫 인코딩 단어 집합의 크기를 벡터의 차원으로 하고, 표현하고 싶은 단어의 인덱스에 1의 값을 부여하고, 다른 인덱스에는 0을 부여하는 단어의 벡터 표현 방식 1) 정수 인코딩을 수행하여 단어에 고유한 정수를 부여 2) 표현하고 싶은 단어의 고유한 정수를 인덱스로 ..

텍스트 마이닝_전처리 종류

토큰화 기본 단어들로 변환하는 작업 ex. 구두점 토큰화 작업(. , ? ; ! 기호) → 단순히 제외하면 안됨. 문장의 경계를 알 수 있는데 도움을 주는 구두점, 특수문자도 있음 (ex 100,000,000) ex: dont/ don't/ don t/ do n't pip install kss import kss 한국어 토큰화의 문제점 한국어는 띄어쓰기가 영어보다 잘 지켜지지 않는다. 품사 태깅(단어는 표기는 같지만 품사에 따라 단어의 의미가 달라짐) 정규화 동일한 의미의 여러 다른 표현들을 하나의 표현으로 바꾸는 작업 Lemmatization 기본형으로 변환해서 어형 변화가 없게 하는 것 불용어 의미가 없는 단어들을 제거하는 작업 한국어 전처리 패키지 PyKoSpacing : 띄어쓰기가 되어있지 않은 ..

카지노 데이터 수집 목적 및 활용 방안

데이터를 수집하는 목적과 그 활용 방안에 대한 명확한 단계 만들기 1. 질문 설정하기 어떤 게임을 했나? 얼마짜리 게임을 했나? 한 번 배팅 시 금액은? 사용한 총 액수가 얼마인가? 얼마나 돈을 따고 잃었나? 카지노에 얼마나 자주 출입하나, 한 번 방문 시 머무는 시간은? ex. 평균 1시간 게임을 즐기는 고객에게는 55분이 지나면 무료 게임 쿠폰 제시하여 머무는 시간 늘려보기 고객 등급은 어떻게 나눌 것인가? - 거리, 금액 어떤 식사를 주로 하는가? - 식사, 호텔, 리무진, 공연 티켓 서비스 등 적절한 것 추천 카지노도 빅데이터 시대 - 아시아경제 (asiae.co.kr) 카지노도 빅데이터 시대 - 아시아경제 [아시아경제 조목인 기자]최근 정보통신(IT) 업계의 가장 큰 화두 중 하나는 빅데이터다...

텍스트 마이닝_필수 라이브러리 설치

1. 텐서플로우 설치 머신러닝과 딥러닝을 직관적이고 손쉽게 할 수 있도록 설계되어 있음 pip install tensorflow 2. 케라스 설치 딥러닝 프레임워크인 텐서플로우에 대한 추상화 된 API 제공 pip install keras 3. 젠심 머신러닝을 사용하여 토픽 모델링과 자연어 처리 등을 수행할 수 있게 해주는 오픈 소스 라이브러리 pip install gensim 4. 사이킷런 파이썬 머신러닝 라이브러리 pip install scikit-learn 5. 자연어 처리_NLTK, NLTK DATA 설치 pip install nltk import nltk nltk.download() 설치 확인 6. 자연어 처리_KoNLPy 설치 한국어 자연어 처리를 위한 형태소 분석기 패키지 pip instal..

[파이썬] 독학하기 좋은 사이트 추천

먼저 코딩 도장을 설명드릴게요~ 파이썬에 대해 아무것도 모르신다면 아래에 있는 강의와 예제를 푸시면서 익히시는걸 추천드립니다. 기본기를 익히고 파이썬과 친해지는데 도움이 됩니다~! 1. 코딩도장 파이썬 코딩 도장: 14.3 if 조건문의 동작 방식 알아보기 (dojang.io) 파이썬 코딩 도장: 14.3 if 조건문의 동작 방식 알아보기 이번에는 조건식이 아닌 값으로 if와 else의 코드를 동작시켜 보겠습니다. 다음 내용을 IDLE의 소스 코드 편집 창에 입력한 뒤 실행해보세요. if_else_boolean_none.py if True: print('참') # True는 참 dojang.io 2. 점프 투 파이썬 기초가 자세히 나와있는 유용한 사이트입니다! https://wikidocs.net/24 ..

[Pandas] 인덱스 설정, 수정, 해제 _Day2

인덱스 설정, 수정, 해제 1. 데이터 프레임 만들기 import pandas as pd data = [['김나진','한글','90점'], ['김유빈','한글','85점'], ['김종희','한글','65점']] df = pd.DataFrame(data=data) df 2. 인덱스 지정하기 df.index = ['2023-01','2023-02','2023-03'] df 3. 인덱스 수정하기 df.rename(index = {'2023-01':'2023-02'},inplace=True) df 4. 인덱스 여러개 수정하기 df.rename(index = {'2023-03':'2023-04','2023-03':'2023-05','2023-03':'2023-07'},inplace=True) df 5. 컬럼명으로..

[Pandas] 칼럼명, 인덱스명, 값 기입 후 출력 & 컬럼명 설정 및 수정 _Day1

판다스 공부 https://m.blog.naver.com/o12486vs2/222077640074?referrerCode=1 [판다스 연구노트] 목차 판다스는 엑셀의 완벽한 대체제이다! 이 글은 파이썬에 입문하기를 고민하거나 갈등하는 분들에게 도움이 ... blog.naver.com ▶ 칼럼명, 인덱스명, 값 기입 후 출력 1. 칼럼명, 인덱스명, 값 기입 import pandas as pd col = ['떡볶이','순대','오징어'] ind = ['2023-01','2023-02','2023-03'] val = [[None, 4, 1], [3,1,5], [20,None,None]] df = pd.DataFrame(columns=col, index=ind, data=val) 2. 컬럼 출력 df.colu..

[01] 경기도 청년통장 데이터 분석

1. 데이터 다운로드 경기지역경제포털 (bigdata-region.kr) 경기지역경제포털 지역경제활성화를 위한 데이터 선순환의 시작 '경기지역경제포털' bigdata-region.kr 2. 코드 작성 import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns # 한글폰트 사용을 위해 설치 !pip install koreanize-matplotlib import koreanize_matplotlib # 그래프에 retina display 적용 %config InlineBackend.figure_format = 'retina' # 구글 드라이브 연결 from google.colab import driv..

[파이썬_점프 투 파이썬] 문자열

문자열 자료형 1) " " 로 양쪽 둘러싸기 2) ' ' 로 양쪽 둘러싸기 3) """ """로 양쪽 둘러싸기 4) ''' '''로 양쪽 둘러싸기 5) 문자열에 '을 포함시키려면 "나는' 파이썬을' 잘 하고 싶어" 처럼 사용해야됨 6) 문자열에 "을 포함시키려면 ' '을 사용 7) 줄바꾸기 \n 삽입 print(~~\n~~) print('오늘 일요일이야\n짜파게티 먹는 날이야') 오늘 일요일이야 짜파게티 먹는 날이야 8) 이스케이프 코드 \n : 줄바꿈 \t : 탭 간격 줄일 때 사용 \\ : 문자 \를 그대로 표현할 때 사용 \' : 작은따옴표 ' 사용할 때 사용 \'' : 큰 따옴표 " 사용할 때 사용 9) 문자열 연결: + / 문자열 곱하기 : * 10) 문자열 길이 구하기: len() 11) 문자..

[파이썬_점프 투 파이썬] 숫자열

공부 링크 및 목표 01-1 파이썬이란? - 점프 투 파이썬 (wikidocs.net) 01-1 파이썬이란? `[추천 동영상 강의]` : [https://www.youtube.com/watch?v=6MjXHIYZWRE](https://www.youtube.com/watch?v=6MjXH… wikidocs.net 방학 맞이 한 번 쫙 돌리기(1~5장) 숫자형이란? 1) 정수형 a=123 a=456 a=0 2) 실수형 a=1.54 a=-5.46 3) 8진수와 16진수 # 8진수: 0o(숫자+알파벳 소문자) 또는 00(숫자+알파벳 대문자)으로 시작 a=0o177 # 16진수: 0x로 시작 a = 0x8ff b = 0xABC 4) 사칙 연산( +, -, *, / ) 5) x의 y제곱: ** 6) 나눗셈 후 나머..

728x90