전체 글 200

[공모전 준비] 빅데이터 공모전 참가 시 사용 가능한 데이터셋 목록

오늘은 빅데이터 공모전에 참가할 때 유용하게 사용할 수 있는 데이터셋 목록을 정리해보았습니다. 아래 표는 서울특별시 빅데이터 캠퍼스에서 제공하는 주요 데이터들을 간단히 정리한 것으로, 구분/데이터명/제공기관 항목으로 구성되어 있어 찾기 쉽도록 구성했습니다. 구분데이터제공기관도시/지역서울시 KB 아파트 시세KB국민은행경제/금융서울시 행정동별 소득수준 통계나이스지니데이타보건/복지서울시 장애인 복지카드 이용현황신한카드경제/금융서울시 3개 관광문화 축제 매출데이터신한카드경제/금융서울시 블록별 업종별 KB국민카드 매출데이터KB국민카드도시/지역서울시 아파트 호별 공시가격오픈메이트도시/지역서울시 주요시설 위치 정보오픈메이트인구/가구서울시 50m 간격 월별 SKT 유동인구SKT인구/가구서울시 50m 간격 월별 KT 유..

[SQL] 영문+숫자 혼합 데이터에서 숫자만 추출하고 조건문 걸기PATINDEX 함수

* ABC12345 처럼 영문 + 숫자가 조합되어 있는 데이터들이 많을 때 숫자만 골라서 조건문 쓰는 방법 ✅ 1단계: 숫자 존재 여부 확인 – PATINDEXPATINDEX('%[0-9]%', 컬럼명) > 0SELECT 컬럼명, CASE WHEN PATINDEX('%[0-9]%', 컬럼명) > 0 THEN '숫자 있음' ELSE '숫자 없음' END AS 숫자포함여부FROM 테이블명 PATINDEX('%[0-9]%', 컬럼)은 숫자가 처음 등장하는 위치를 반환합니다.숫자가 있으면 0보다 큰 값, 없으면 0이 나옵니다. ✅ 2단계: 숫자 추출 – SUBSTRING + PATINDEXSUBSTRING(컬럼명, PATINDEX('%[0-9]%', 컬럼명), 5)SELECT 컬럼명,..

[01] 데이터 모델링이란

데이터 모델링은 현실 세계의 복잡한 데이터를 체계적으로 구조화하고, 이를 기반으로 예측이나 분류와 같은 목표를 달성하기 위한 모델을 구축하는 과정입니다. 이는 데이터 기반 의사결정의 핵심 과정으로, 효과적인 데이터 활용을 위한 필수적인 단계입니다.1. 데이터 모델링의 목적1.1 데이터 구조화데이터 모델링은 복잡하고 다양한 데이터를 일관된 구조로 정리하여 분석 가능한 형태로 만듭니다. 예를 들어, 전자상거래 플랫폼의 경우 고객 정보, 구매 내역, 제품 정보 등을 관계형 데이터베이스로 구조화함으로써 고객의 구매 패턴을 분석할 수 있습니다.1.2 데이터의 이해 및 표현모델링을 통해 복잡한 데이터를 시각적으로 표현하거나 패턴을 단순화하여 이해하기 쉽게 만듭니다. 예를 들어, 주식 시장 데이터를 시계열 모델로 표..

[SQL 실습] URL 분석에 자주 사용되는 SQL 패턴 정리

1. 도메인 추출하기-- example.com 부분만 추출SELECT SUBSTRING(url FROM '://([^/]+)') as domainFROM url_table;-- www.example.com에서 example.com만 추출SELECT SUBSTRING(url FROM '(?:https?://)?(?:www\.)?([^/]+)') as clean_domainFROM url_table; '://([^/]+)' 패턴 분석:://URL에서 'http://' 또는 'https://' 다음에 오는 '://' 부분을 찾습니다( )괄호는 "캡처 그룹"을 만듭니다이 부분이 실제로 추출하고 싶은 부분입니다[^/][ ]: 문자 집합을 정의^: NOT을 의미[^/]는 "슬래시(/)가 아닌 모든 문자"를 의미+"..

차원 축소(Dimensionality Reduction)

차원 축소란차원 축소는 고차원 데이터를 더 낮은 차원의 데이터로 변환하는 기법입니다. 이는 데이터의 복잡성을 줄이면서도 중요한 정보는 보존하는 것을 목표필요성차원의 저주(Curse of Dimensionality) 해결데이터 시각화 용이계산 효율성 향상불필요한 노이즈 제거데이터 압축주요 차원 축소 기법 PCA (Principal Component Analysis, 주성분 분석) : 가장 대표적인 선형 차원 축소 기법으로, 비지도 학습 방식작동 원리데이터 표준화공분산 행렬 계산고유값과 고유벡터 계산주성분 선택데이터 투영특징데이터의 분산을 최대한 보존직교하는 새로운 축을 찾음선형 변환만 가능활용 사례얼굴 인식 (Eigenface)이미지 압축데이터 시각화이상치 탐지LDA (Linear Discriminant ..

Data Statistics 2024.11.02

딥러닝_통계 분석 종류

통계 분석 기법  변수의 개수에 따른 분류: Simple (단순): 하나의 변수만 사용하는 모델 Multiple (다중): 여러 개의 변수를 사용하는 모델관계의 특성에 따른 분류: Linear (선형): 변수들 간의 관계가 직선적인 모델 Nonlinear (비선형): 변수들 간의 관계가 곡선적이거나 복잡한 모델예단순 선형 모델: 집의 크기로만 가격을 예측하는 경우 다중 선형 모델: 집의 크기, 방 개수, 위치 등 여러 변수로 가격을 예측하는 경우 단순 비선형 모델: 시간에 따른 인구 증가를 곡선으로 예측하는 경우 다중 비선형 모델: 여러 변수를 사용하며 복잡한 패턴을 학습하는 신경망  Logistic Regression Classification (범주 예측), Regression (수치 예측)  로지스..

Data Statistics 2024.11.02

[LSTM] T4 GPU와 L4 GPU의 차이

LSTM 모델을 실행할 때 L4와 T4 GPU 중 어느 것이 더 적합한지는 주로 모델의 복잡도와 배치 크기에 따라 달라집니다.T4 GPU:아키텍처: Turing 아키텍처 기반.성능: FP32와 FP16 연산을 모두 지원하며, 특히 추론 작업에서 효율적입니다.장점: 전력 효율이 좋고, 비교적 저렴한 비용으로 클라우드 서비스에서 사용 가능합니다.LSTM과의 호환성: LSTM은 주로 FP32 연산을 사용하며, 특히 대규모 추론 작업에 유리하기 때문에 T4 GPU가 일반적으로 더 자주 사용됩니다.L4 GPU:아키텍처: 최신 Ada Lovelace 아키텍처 기반.성능: FP8과 FP16 연산 최적화가 되어 있으며, 특히 생성 AI와 대규모 추론 작업에서 탁월한 성능을 발휘합니다.장점: 더 높은 AI 성능 최적화를..

멀티태스크를 통한 플레이어 수 예측

플레이어 수 예측주 태스크로 하고 그 예측값을 사용하여 미분 가능한 효율성 계산을 수행하며 두 태스크의 손실을 동시에 최적화시키기 목적: 플레이어 수를 효율성을 계산하며 예측하기# 1단계: 플레이어 수 예측predicted_players = model.predict(input_data)# 2단계: 효율성 계산efficiency = (predicted_players / (tables * 5)) * 100 문제점: 플레이어 수를 예측하고 효율성을 예측하면 두 단계가 독립적으로 수행되어, 효율성 계산이 예측에 영향을 주지 못한다.# 이렇게 하면 각각 따로 계산됨predicted_players = model.predict(input_data) # 첫 번째 모델efficiency = calculate_effic..

예측 오차를 평가하는 지표

1. MAE (Mean Absolute Error, 평균 절대 오차)mae = mean_absolute_error(actual, predicted)# = Σ|실제값 - 예측값| / n 실제값과 예측값의 차이의 절대값의 평균직관적으로 이해하기 쉬움 (예: MAE가 2라면 평균적으로 2명 정도 차이난다는 의미)원래 단위(이 경우 플레이어 수)로 표현됨2. MSE (Mean Squared Error, 평균 제곱 오차)mse = mean_squared_error(actual, predicted)# = Σ(실제값 - 예측값)² / n 실제값과 예측값의 차이의 제곱의 평균큰 오차에 더 큰 가중치를 둠 (제곱 때문에)원래 단위의 제곱으로 표현됨 (직관적 해석이 어려움) 3. RMSE (Root Mean Squared..

728x90