Data Analysis 35

[SQL 실습] URL 분석에 자주 사용되는 SQL 패턴 정리

1. 도메인 추출하기-- example.com 부분만 추출SELECT SUBSTRING(url FROM '://([^/]+)') as domainFROM url_table;-- www.example.com에서 example.com만 추출SELECT SUBSTRING(url FROM '(?:https?://)?(?:www\.)?([^/]+)') as clean_domainFROM url_table; '://([^/]+)' 패턴 분석:://URL에서 'http://' 또는 'https://' 다음에 오는 '://' 부분을 찾습니다( )괄호는 "캡처 그룹"을 만듭니다이 부분이 실제로 추출하고 싶은 부분입니다[^/][ ]: 문자 집합을 정의^: NOT을 의미[^/]는 "슬래시(/)가 아닌 모든 문자"를 의미+"..

예측 오차를 평가하는 지표

1. MAE (Mean Absolute Error, 평균 절대 오차)mae = mean_absolute_error(actual, predicted)# = Σ|실제값 - 예측값| / n 실제값과 예측값의 차이의 절대값의 평균직관적으로 이해하기 쉬움 (예: MAE가 2라면 평균적으로 2명 정도 차이난다는 의미)원래 단위(이 경우 플레이어 수)로 표현됨2. MSE (Mean Squared Error, 평균 제곱 오차)mse = mean_squared_error(actual, predicted)# = Σ(실제값 - 예측값)² / n 실제값과 예측값의 차이의 제곱의 평균큰 오차에 더 큰 가중치를 둠 (제곱 때문에)원래 단위의 제곱으로 표현됨 (직관적 해석이 어려움) 3. RMSE (Root Mean Squared..

SQL_해커랭크

1. 홀수/짝수 짝수 : id % 2 = 0홀수 : id % 2 = 1 1. 영화의 id가 홀수인 경우만 출력 2. description이 boring이 아닌 것만 출력 3. 출력 순서는 rating이 높은 순서대로 출력SELECT *FROM cinemaWHERE description 'boring' and id % 2 = 1ORDER BY rating DESCSQL 연산자/ 나누기% 나머지 연산자 (나머지가 1이면 홀수, 0이면 짝수)= 같음, =! 같지 않음! 오른쪽 값이 왼쪽 값보다 작지 않다.(==와 //는 파이썬에서 사용된다.)2. MOD함수 : mod(x,y) == x%y짝수 : WHERE MOD(ID,2) = 0 홀수 : WHERE MOD(ID,2) = 1  ex. Query a list ..

Python과 SPSS, R의 차이

SPSS 보고서, 논문을 작성할 때 주로 사용 Python 오픈 소스, 무료 사용 다재다능: 데이터 전처리, 시각화, 기계 학습 다른 데이터 저장 및 처리 시스템과 연동 : 데이터베이스, 웹 서비스, 데이터 처리 파이프라인, 기계학습 사용 가능 데이터 분석 외에도 활용 분야가 더 넓음 머신 러닝 기법 사용 가능 라이브러리, 커뮤니티 등 훨씬 활발 R 데이터 분석에 특화되어 있음

데이터리안 SQL 데이터 분석 캠프 입문반 수료 完

"수강 기간" 2023년 12월 (입문반 1개월) SQL을 제대로 배워보고 싶어서입문반+실전반 플렉스를 했다. 물론 SQLD나 SQL 입문을 공부를 했었지만 그래도 더 기본을 다지기 위해세일할 때를 노려 한방에 뿔렉스~ 야근하며 대학원 다니며 강의 듣고 과제 제출하는 것이 빡셌지만 그래도 완료~사실 입문반이여서 이렇게 넘어간 거 같다...이제 실전반 시작인데 무섭다... 실전반도 화이팅....코딩테스트 내가 다 뿌실거다~!회사에서도 SQL을 잘 하는 유능한 인재가 되길...🔆 난 할 수 있다 😊

SQL Basic_문법

0. 기본 쿼리 작성 SELECT * FROM 1. 주석처리 -- /* 내용쓰기~~~~ */ 2. 모든 데이터 중 30개만 가져오기 SELECT * FROM food LIMIT 30 * food 데이터에서 30개만 추출하기 3. name, taste 컬럼 불러오기 SELECT name,taste FROM food LIMIT 30 4. DISTINCT로 중복값 제거 SELECT DISTINCT taste FROM food * food 데이터에서 taste 중복제거 한 값 추출 SELECT DISTINCT name, taste FROM food * 2개 이상 컬럼도 DISTINCT는 한번만 사용! 5. 컬럼 이름 변경하기 (AS) SELECT name AS food name FROM food * name을 ..

3 Shift Work Schedule Automatic Program_Python

1) 참고자료 How to Solve a Staff Scheduling Problem with Python | by Khuyen Tran | Towards Data Science How to Solve a Staff Scheduling Problem with Python Minimize the number of workers per shift while assigning enough workers for each time window towardsdatascience.com pip install openpyxl import pandas as pd from openpyxl import Workbook # 사원 정보 입력 함수 def input_employee_info(num_employees, employ..

Gutenberg project_Alice's Adventures in Wonderland

1. Gutenberg project 접속 Free eBooks | Project Gutenberg 2. 텍스트 마이닝 하고 싶은 E-BOOK 고르기 3. 코드 짜보기 pip install wordcloud import pandas as pd import numpy as np from collections import Counter from wordcloud import WordCloud import matplotlib.pyplot as plt from PIL import Image import requests from bs4 import BeautifulSoup from collections import Counter from wordcloud import WordCloud import matplotl..

텍스트 마이닝 기본 개념 정리

1. 텍스트 전처리 1) 토큰화: 주어진 텍스트를 작은 부분인’ 토큰’으로 나누는 과정/ 문장을 개별 단어로 분리하는 것을 의미함. ➔ 예시: 구두점 제외시키기: 마침표. 컴마, 물음표? 세미콜론; 느낌표! - I love music -> [“i”, “love”, “music”] 으로 변환 ➔ 토큰화 고려점: * 구두점이나 특수문자를 단순히 제외해서는 안된다.($45.55 123,456,789 ->문장의 경계를 알 수 있는데 도움이 됨) * 줄임말과 단어 내에 띄어쓰기가 있는 경우 (we're -> we are, i'm -> i am) ➔ 한국어 토큰화 문제점: 교착어의 문제, 한국어는 영어보다 띄어쓰기가 잘 지켜지지 않는다. 2) 정규화: 다양한 형태의 텍스트를 일관된 형태로 변환하는 작업(동일한 의미..

728x90