전체 글 196

텍스트마이닝_정수 인코딩

정수 인코딩 텍스트를 숫자로 바꾸는 자연어 처리 방법 각 단어를 고유한 정수에 맵핑 시키는 전처리 작업/ ex. book은 15번, apple은 3번, books는 16번 sent tokenize: 문장 단위 word tokenize: 단어 단위 패딩 Padding 여러 문장의 길이를 임의로 동일하게 맞춰주는 작업이 필요할 때 사용 데이터에 특정 값을 채워서 데이터 크기를 조정하는 제로 패딩 Zero Padding 숫자 0을 사용 하는 것 원 핫 인코딩 단어 집합의 크기를 벡터의 차원으로 하고, 표현하고 싶은 단어의 인덱스에 1의 값을 부여하고, 다른 인덱스에는 0을 부여하는 단어의 벡터 표현 방식 1) 정수 인코딩을 수행하여 단어에 고유한 정수를 부여 2) 표현하고 싶은 단어의 고유한 정수를 인덱스로 ..

데이터베이스 생성이란?

1. 테이블 필드 정의 2. 기본키 지정 개체 무결성: 모든 테이블은 기본키를 가지며, 기본키 값이 NULL이 될 수 없다 참조 무결성: 외래키 값은 반드시 다른 테이블의 기본키 값으로 존재하는 값이어야 한다 3. 고객테이블의 나머지 필드 정의 4. 테이블 스키마 저장 엑세스는 데이터베이스가 닫힐 때마다 작업 중인 데이터베이스를 자동으로 저장함 테이블을 저장할 때 사용하는 테이블 이름이 필드 이름과 같지 않도록 주의해야함(유일한 이름 가져야함), 테이블 이름은 64자까지 허용 5. 참조 무결성 규정 정의 고객 주문 테이블 만들기

Database 2023.09.30

데이터시각화(R)_Diamonds

geom_text 를 이용하여 그림 안에 글자를 넣기 library(tidyverse) df=data.frame(trt=c("a","b","c"),resp=c(1.2,3.4,2.5)) df ggplot(df,aes(trt,resp))+geom_point() 점대신 a,b,c로 잡아주기 ggplot(df,aes(trt,resp))+geom_text(aes(label=trt)) 기존의 글씨체인 "고딕체"로 나오는 것 확인 ggplot(df,aes(resp,trt))+geom_text(aes(label=trt)) 폰트 바꾸기(family 이용) family: 문자의 폰트를 지정. (“sans”(기본값,고딕체), “serif”(바탕체), “mono” ggplot(df,aes(resp,trt))+geom_text..

데이터 모델이란?

추상도에 따른 데이터 모델의 분류 ▶ 개념 모델 가장 추상적인 모델 주요 대상의 식별과 묘사에 중점을 두는 모델 개체관계(E-R) 모델이 대표적 예시: 학생, 교수, 과목, 강의 ▶ 내부 모델 관계형 모델에서 M:N의 관계는 데이터 중복성 문제를 야기하기 때문에 바람직하지 않은 관계유형으로 간주됨 M:N의 관계를 제거하도록 함 (M:N 관계의 데이터는 중복성 문제를 야기) 테이블 특징: 셀에 들어갈 수 있는 속성 값의 개수는 하나이다. 1) 키의 종류 기본 키 primary key : 테이블의 각 레코드를 식별할 수 있는 필드 외래 키 foreign key : 다른 테이블에서 기본 키로 사용되는 필드 복합 키 composite key : 하나 이상의 필드들로 구성되는 기본 키 2) 무결성 규정 개체 무결..

Database 2023.09.17

Machine Learning_Numpy

Numpy 대규모의 다차원 배열 및 행렬 연산에 필요한 다양한 수학 함수 제공 Array 배열 순서가 있는 같은 종류의 데이터가 저장된 집합 배열 생성 random : 모듈 이용한 배열 생성 rand(0 : 실수, 난수 배열 생성 randint() : 정수, 난수 배열 생성 reshape() 배열 변환 np.reshape(a, (m,n)) shape : 배열의 형태 확인 ndim : 배열의 차원 확인 astype : 데이터 형식 변환/ astype(np.float64) 배열 연산 배열의 형태(shape)가 같다면 자유롭게 사칙연산이 가능 • 합: sum() • 평균: mean() • 표준편차: std() • 분산: var() • 최솟값: min() • 최댓값: max() • 누적합: cumsum() • ..

Machine Learning 2023.09.16

데이터시각화(R)_Penguins

Penguins 자료 중 범주형 변수는 어떤 것들이 있는가? 1. 라이브러리 설치 palmerpenguins 2. 라이브러리 설치 install.packages("palmerpenguins") 3. 라이브러리 불러오기 library(palmerpenguins) 4. 저장 되어 있는 변수 확인 : ls() 함수 사용 ls(pos=2) [1] "path_to_file" "penguins" "penguins_raw" 5. 패키지에 포함된 펭귄 데이터셋 확인 penguins 6. 펭귄 데이터셋에서 종(species)별로 데이터의 빈도를 계산 table(penguins$species) Adelie Chinstrap Gentoo 152 68 124 7. island 열에 어떤 값들이 포함되어 있는지, 각 값의 빈도..

데이터시각화(R)_Iris Code

파일 만들기 1. 메뉴 -> File -> New File -> R Markdown -> 파일생성 (Word) 로 선택 2. rmd 파일 생성된 것 확인 3. +c 클릭 4. 위에 코드 기입 시작!! 코드 기입 1) iris 자료의 개수는? nrow(iris) 2) iris 자료에는 어떤 변수들이 있는가? colnames(iris) 3) Species는 어떤 것들이 있으며 각각 몇 개의 자료가 있는가? table(iris$Species) 4) iris 자료에 있는 4개의 연속변수 각각의 분포를 수업시간에 배운 내용을 바탕으로 살펴보시요. summary(iris[, 1:4]) 5) Sepal.Length 와 Petal.Length의 산점도를 그리시오. install.packages("ggplot2") li..

텍스트 마이닝_전처리 종류

토큰화 기본 단어들로 변환하는 작업 ex. 구두점 토큰화 작업(. , ? ; ! 기호) → 단순히 제외하면 안됨. 문장의 경계를 알 수 있는데 도움을 주는 구두점, 특수문자도 있음 (ex 100,000,000) ex: dont/ don't/ don t/ do n't pip install kss import kss 한국어 토큰화의 문제점 한국어는 띄어쓰기가 영어보다 잘 지켜지지 않는다. 품사 태깅(단어는 표기는 같지만 품사에 따라 단어의 의미가 달라짐) 정규화 동일한 의미의 여러 다른 표현들을 하나의 표현으로 바꾸는 작업 Lemmatization 기본형으로 변환해서 어형 변화가 없게 하는 것 불용어 의미가 없는 단어들을 제거하는 작업 한국어 전처리 패키지 PyKoSpacing : 띄어쓰기가 되어있지 않은 ..

데이터시각화 R_ggplot2_Titanic 데이터(범주형 변수)

1. 타이타닉 데이터 불러오기 data(Titanic) 2. 데이터 구성 확인 Titanic , , Age = Child, Survived = No Sex Class Male Female 1st 0 0 2nd 0 0 3rd 35 17 Crew 0 0 , , Age = Adult, Survived = No Sex Class Male Female 1st 118 4 2nd 154 13 3rd 387 89 Crew 670 3 , , Age = Child, Survived = Yes Sex Class Male Female 1st 5 1 2nd 11 13 3rd 13 14 Crew 0 0 , , Age = Adult, Survived = Yes Sex Class Male Female 1st 57 140 2nd 14..

데이터시각화 R_ggplot2_Tips 데이터

1. 라이브러리 불러오기 library(tidyverse) > library(reshape2) 2. 테이블 확인 > head(tips) total_bill tip sex smoker day time size 1 16.99 1.01 Female No Sun Dinner 2 2 10.34 1.66 Male No Sun Dinner 3 3 21.01 3.50 Male No Sun Dinner 3 4 23.68 3.31 Male No Sun Dinner 2 5 24.59 3.61 Female No Sun Dinner 4 6 25.29 4.71 Male No Sun Dinner 4 3. time 테이블 보기 > table(tips$time) Dinner Lunch 176 68 3-1. 그림으로 표현하기 (변수: ..

728x90