분류 전체보기 196

[SQL 실습] URL 분석에 자주 사용되는 SQL 패턴 정리

1. 도메인 추출하기-- example.com 부분만 추출SELECT SUBSTRING(url FROM '://([^/]+)') as domainFROM url_table;-- www.example.com에서 example.com만 추출SELECT SUBSTRING(url FROM '(?:https?://)?(?:www\.)?([^/]+)') as clean_domainFROM url_table; '://([^/]+)' 패턴 분석:://URL에서 'http://' 또는 'https://' 다음에 오는 '://' 부분을 찾습니다( )괄호는 "캡처 그룹"을 만듭니다이 부분이 실제로 추출하고 싶은 부분입니다[^/][ ]: 문자 집합을 정의^: NOT을 의미[^/]는 "슬래시(/)가 아닌 모든 문자"를 의미+"..

차원 축소(Dimensionality Reduction)

차원 축소란차원 축소는 고차원 데이터를 더 낮은 차원의 데이터로 변환하는 기법입니다. 이는 데이터의 복잡성을 줄이면서도 중요한 정보는 보존하는 것을 목표필요성차원의 저주(Curse of Dimensionality) 해결데이터 시각화 용이계산 효율성 향상불필요한 노이즈 제거데이터 압축주요 차원 축소 기법 PCA (Principal Component Analysis, 주성분 분석) : 가장 대표적인 선형 차원 축소 기법으로, 비지도 학습 방식작동 원리데이터 표준화공분산 행렬 계산고유값과 고유벡터 계산주성분 선택데이터 투영특징데이터의 분산을 최대한 보존직교하는 새로운 축을 찾음선형 변환만 가능활용 사례얼굴 인식 (Eigenface)이미지 압축데이터 시각화이상치 탐지LDA (Linear Discriminant ..

Data Statistics 2024.11.02

딥러닝_통계 분석 종류

통계 분석 기법  변수의 개수에 따른 분류: Simple (단순): 하나의 변수만 사용하는 모델 Multiple (다중): 여러 개의 변수를 사용하는 모델관계의 특성에 따른 분류: Linear (선형): 변수들 간의 관계가 직선적인 모델 Nonlinear (비선형): 변수들 간의 관계가 곡선적이거나 복잡한 모델예단순 선형 모델: 집의 크기로만 가격을 예측하는 경우 다중 선형 모델: 집의 크기, 방 개수, 위치 등 여러 변수로 가격을 예측하는 경우 단순 비선형 모델: 시간에 따른 인구 증가를 곡선으로 예측하는 경우 다중 비선형 모델: 여러 변수를 사용하며 복잡한 패턴을 학습하는 신경망  Logistic Regression Classification (범주 예측), Regression (수치 예측)  로지스..

Data Statistics 2024.11.02

[LSTM] T4 GPU와 L4 GPU의 차이

LSTM 모델을 실행할 때 L4와 T4 GPU 중 어느 것이 더 적합한지는 주로 모델의 복잡도와 배치 크기에 따라 달라집니다.T4 GPU:아키텍처: Turing 아키텍처 기반.성능: FP32와 FP16 연산을 모두 지원하며, 특히 추론 작업에서 효율적입니다.장점: 전력 효율이 좋고, 비교적 저렴한 비용으로 클라우드 서비스에서 사용 가능합니다.LSTM과의 호환성: LSTM은 주로 FP32 연산을 사용하며, 특히 대규모 추론 작업에 유리하기 때문에 T4 GPU가 일반적으로 더 자주 사용됩니다.L4 GPU:아키텍처: 최신 Ada Lovelace 아키텍처 기반.성능: FP8과 FP16 연산 최적화가 되어 있으며, 특히 생성 AI와 대규모 추론 작업에서 탁월한 성능을 발휘합니다.장점: 더 높은 AI 성능 최적화를..

멀티태스크를 통한 플레이어 수 예측

플레이어 수 예측주 태스크로 하고 그 예측값을 사용하여 미분 가능한 효율성 계산을 수행하며 두 태스크의 손실을 동시에 최적화시키기 목적: 플레이어 수를 효율성을 계산하며 예측하기# 1단계: 플레이어 수 예측predicted_players = model.predict(input_data)# 2단계: 효율성 계산efficiency = (predicted_players / (tables * 5)) * 100 문제점: 플레이어 수를 예측하고 효율성을 예측하면 두 단계가 독립적으로 수행되어, 효율성 계산이 예측에 영향을 주지 못한다.# 이렇게 하면 각각 따로 계산됨predicted_players = model.predict(input_data) # 첫 번째 모델efficiency = calculate_effic..

예측 오차를 평가하는 지표

1. MAE (Mean Absolute Error, 평균 절대 오차)mae = mean_absolute_error(actual, predicted)# = Σ|실제값 - 예측값| / n 실제값과 예측값의 차이의 절대값의 평균직관적으로 이해하기 쉬움 (예: MAE가 2라면 평균적으로 2명 정도 차이난다는 의미)원래 단위(이 경우 플레이어 수)로 표현됨2. MSE (Mean Squared Error, 평균 제곱 오차)mse = mean_squared_error(actual, predicted)# = Σ(실제값 - 예측값)² / n 실제값과 예측값의 차이의 제곱의 평균큰 오차에 더 큰 가중치를 둠 (제곱 때문에)원래 단위의 제곱으로 표현됨 (직관적 해석이 어려움) 3. RMSE (Root Mean Squared..

시장조사, 경쟁사 분석 시 유용한 사이트 모음

소비자 수요 조사1. 네이버 데이터 랩 네이버 데이터랩 (naver.com)  네이버 데이터랩네이버의 검색 트렌드 및 급상승검색어 이력, 쇼핑 카테고리별 검색 트렌드 제공datalab.naver.com 2. 구글 트렌드 Google 트렌드  Google 트렌드2023년 올해의 검색어 Google 트렌드 데이터를 통해 한 해를 살펴보세요.trends.google.co.kr 3. 카카오 트렌드  카카오데이터트렌드: 검색어 인사이트 (kakao.com)  카카오데이터트렌드: 검색어 인사이트 datatrend.kakao.com검색 광고 서비스1. 네이버 검색광고 관리자네이버 검색광고 (naver.com) 네이버 검색광고 searchad.naver.com 2. 구글 애즈 키워드 플래너 키워드 플래너로 캠페인 키워..

그로스해킹 2024.10.17

AI 시대 DATA SCIENTIST의 역할

AI 시대 DATA SCIENTIST의 역할_이혜주 롯데멤버스 대표님(이화여대 통계학과 출신) AI의 의미: 삶과 일하는 방식을 변화시키는 핵심적인 드라이브     1990년대:  인터넷      2000년대 : 모바일      2010년대: 스마트폰, 클라우드      2020년대: 생성형 AI AI로 인한 비즈니스 변화 1) 일하는 방식 변화: 업무 + AI 2) 서비스 제공 방식 변화: 제품서비스+AI 3) 고객경험 변화: UX+AI  생성형 AI 한계 1) 실제로 존재하지 않는 정보 제공 2) 최신 정보 재학습 불충분 3) 모델이 왜 그런 결과를 만들어냈는지 설명하기 어려움 생성형 AI시대 데이터가 더 중요한 이유 1) 혁신적인 데이터 생성 및 증강 2) 데이터 보안 및 프라이버시 강화 3) 데이..

Data Science Issue 2024.10.12

RNN과 Attention의 차이

Recurrent Neural Networks (RNNs)와 Attention 메커니즘은 모두 딥러닝에서 시퀀스 데이터를 처리하는 데 중요한 기술이지만, 그 동작 방식과 처리 능력에서 차이가 있습니다. 이 두 기법은 주로 자연어 처리(NLP), 시계열 분석, 음성 인식 등 순차적 데이터가 중요한 작업에 사용됩니다. 2020년을 기준으로, 두 기법의 차이점을 아래와 같이 설명할 수 있습니다.1. RNN (Recurrent Neural Networks)RNN은 시퀀스 데이터의 시간적 정보를 처리하기 위해 설계된 신경망입니다. RNN은 입력 시퀀스에서 순차적으로 데이터를 처리하며, 각 시점의 입력을 순차적으로 입력받아 이전 시간 정보(시점 t-1)를 현재 시점의 계산에 활용합니다.주요 특징:순차 처리: RNN..

Deep Learning 2024.10.12

LSTM을 이용한 시계열 예측

model.fit(X, y, validation_split=0.2, epochs=100, batch_size=32, verbose=0)for i in range(30): last_7_days_reshaped = last_7_days[-7:].reshape(1, 7, 1) next_day = model.predict(last_7_days_reshaped) next_30_days.append(next_day[0, 0]) last_7_days = np.append(last_7_days, next_day)  LSTM과 다른 시계열 모델의 차이란보통의 시계열 모델은 단기 기억만 가능하지만, LSTM은 장기 기억도 할 수 있어요.  일반 시계열 모델: 마치 "어제 비가 왔으니까 오늘도 비가 올..

응용전략 2024.10.05
728x90