전체 글 196

[초청세미나] AI를 활용한 치료 예측 모델 개발 및 프로세스 개선 사례들

[1] 주제: 접근성 향상을 위한 퇴행성 관절염 예측 진단 시스템 고도화 1) 선행연구 - azura kinect(애저키넥트) 카메라를 통한 퇴행성 관절염 에측 진단 - 무릎 각도 및 패턴분석, 고개숙임, 팔, -> 상/하체 보행 특성 - 자료: 한의원 내원객 자료 사용 2) 시스템연구 - 머신러닝 모델 종류별로 4개 돌려보기 -> 빠르고 정확한 모델로 선택 - 특성별 병적 판단 알고리즘: 보행속도, 무릎 벌어진 거리, 발목간 거리, 고개 숙임 정도, 허리 숙임 정도, 팔 구부러짐 정도 등 → 추후 진료시 도움이 될 수 있도록 연구 3) 시스템 상용화 - 스마트폰을 활용한 퇴행성 관절염 예측 진단 [참고자료] 스마트폰 카메라를 활용한 AI 기반 퇴행성 관절염 예측 진단 보조 시스템 - earticle 스..

Data Science Issue 2023.04.15

빅데이터 기본 개념zip

1. 빅 데이터란 무엇인가? 기존의 데이터 분석과는 어떻게 다른가? 주요 특징은? 1) 빅데이터란? 조직의 내외부에 존재하는 다양한 형태의 데이터를 수집, 처리, 저장하여 목적에 맞게 분석하여 조직의 전략적 의사결정 또는 시스템화 하여 생산성 향상에 활용하거나 새로운 비즈니스 모델을 창출하는 패러다임 2) 데이터 분석과 빅데이터 분석의 차이? 데이터 분석 자체의 역사는 오래되었다. 과거에 비해 분석하는 대상의 데이터가 대규모화 되고, 이에 따라 정형데이터 분석 중심에서 비정형 데이터, 외부 데이터 활용하기까지의 범위가 확대가 되고 있다. 빅데이터가 제공하는 기회 의사결정이 질 제고(의사결정 효과성 및 적시성 향상) 운영효율 제고(데이터분석을 통해 도출된 지식을 시스템화하여 업무에 적용) 새로운 가치 창출..

Data Science Issue 2023.04.15

[4장-1] 분류(classfication)와 결정트리(decision tree)

1. 분류란? - 학습 데이터로 주어진 데이터의 피처와 레이블값을 머신러닝 알고리즘으로 학습해 모델을 생성하고, 생성된 모델에 새로운 데이터 값이 주어졌을 때 미지의 레이블 값을 예측하는 것 2. 결정트리와 앙상블 1) 결정 트리 - 매우 쉽고 유연하고 적용될 수 있는 알고리즘, 데이터의 스케일링이나 정규화 등의 사전 가공의 영향이 매우 적음 - 데이터에 있는 규칙을 학습을 통해 자동으로 찾아내는 트리 기반의 분류규칙을 만든다 - 장점: 쉽다, 직관적이다, 사전 가공 영향도가 크지 않다. - 단점: 과적합으로 알고리즘 성능이 떨어진다. 이를 극복하기 위해 트리의 크기를 사전에 제한하는 튜닝이 필요하다 2) 앙상블 - 매우 많은 여러개의 약한 학습기를 결합해 확률적 보완과 오류가 발생한 부분에 대한 가중치..

[07] 빅데이터 분석기획

1) 빅데이터 중요한 요소 - 데이터 확보, 저장, 처리, 분석 → 기획능력 2) 데이터 기획 능력 - 문제점 파악 및 문제해결을 위한 분석 기획 중요 → 분석 시나리오 - 필요한 점: 관련 기술, 분석을 통해 얻을 수 있는 가치에 대한 인식, 국내외 성공사례 공부 ex. 성공사례 -sns를 활용한 영화 흥행 수익 예측 1) sns상의 비정형 텍스트 데이터 2) 텍스트 마이닝(감성 분석, 의견 분석 → 긍,부정) 3) 가치 제공: 경영자 및 투자자의 의사결정시 참고자료 - 심야버스 노선 정책 지원 1) 데이터 분석을 통한 심야버스 노선 최적화 → 비용절감 - 고객 민원 분석을 통한 서비스 개선 1) 콜센터 민원 데이터 활용 3) 제약조건 - 분석대상의 발굴 및 구체화 - 데이터 원천의 확보 역량 - 분석..

Data Science Issue 2023.04.13

[1장] 머신러닝 개념 및 넘파이_파이썬 머신러닝 완벽가이드

1.머신러닝이란? - 데이터를 기반으로 패턴을 학습하고 결과를 추론하는 알고리즘 기법 - 특징: 데이터 마이닝, 영상 인식, 음성 인식, 자연어 처리에 적용 2. 머신러닝의 필요성 - 복잡한 문제를 데이터를 기반으로 숨겨진 패턴을 인지하여 해결함 - 데이터를 기반으로 통계적 신뢰도를 강화하고 예측 오류를 최소화하기 위한 다양한 수학적 기법을 적용해 데이터 내의 패턴을 스스로 인지하고 신뢰도 있는 예측 결과를 도출함 3. 머신러닝의 분류 - 지도학습: 명확한 결정값이 주어진 데이터를 학습 ex. 분류, 회귀, 추천시스템, 시각/음성 인지, 텍스트 분석, NLP - 비지도학습: 결정값이 주어지지 않는 데이터를 학습 ex. 군집화(클러스터링), 차원 축소, 강화학습 4. 머신러닝의 단점 - 데이터에 너무 의존..

[파이썬] 리스트를 활용한 거북이(터틀) 그래픽 응용 프로그램 만들기

#거북이 한마리의 1차원 리스트 # 1차원 리스트: [거북이,X위치,Y위치,거북이크기,거북이색상(R),거북이색상(G),거북이색상(B)] # 2차원 리스트: [거북이1,X,Y,크기,R,G,B], [거북이2,X,Y,크기,R,G,B] .... → 1차원 리스트를 100개를 형성 거북이 100마리의 리스트를 만든 후 거북이 100마리가 화면 중앙에서 임의의 위치로 차례대로 움직이게 만든다. 거북이 1마리의 1차원 리스트를 아래와 같이 7개의 값이 있는 형태로 구성해본다. import turtle import random ## 전역 변수 부분 ## swidth, sheight = 500, 500 myTurtle, tX, tY, tColor, tSize, tShape = [None] * 6 shapeList= []..

[06] 딥러닝의 개념 및 발전

# 딥러닝: 수많은 데이터에서 특징을 추출하고, 특징의 패턴을 학습하는 기계학습 기법 # 인공신경망: 중요한 특징들을 제공해서 학습 AI > 머신러닝 > 딥러닝 [1] 딥러닝 배경 및 활성화 요인 - 데이터의 폭발적 증가 - 하드웨어(CPU 속도 빨라지고 개발 및 투자 증가) - imagenet 안경잡이개발자 :: 이미지넷(ImageNet) 데이터셋 소개 및 다운로드하는 방법 (tistory.com) 이미지넷(ImageNet) 데이터셋 소개 및 다운로드하는 방법 이미지넷(ImageNet) 데이터셋은 MNIST, CIFAR 데이터셋과 더불어 굉장히 유명한 데이터셋이다. 일반적으로 MNIST나 CIFAR는 아이디어에 대한 검증 목적으로 사용한다. 최신 컴퓨팅 장치를 기준으로 보았 ndb796.tistory...

Data Science Issue 2023.04.08

[3장-3] 피마 인디언 당뇨병 예측

1. 캐글에서 데이터 다운로드 Pima Indians Diabetes Database | Kaggle Pima Indians Diabetes Database Predict the onset of diabetes based on diagnostic measures www.kaggle.com 2. 주피터 노트북에서 실행 import numpy as np import pandas as pd import matplotlib.pyplot as plt %matplotlib inline from sklearn.model_selection import train_test_split from sklearn.metrics import accuracy_score, precision_score, recall_score, ro..

[파이썬] 리스트 생성하여 출력 예시 zip

1. 변수를 사용하여 출력해보기(첫 번째, 두번째~~ 숫자 더하기) a,b,c,d=0,0,0,0 #변수사용 hap=0 a=int(input('첫 번째 숫자: ')) b=int(input('두 번째 숫자: ')) c=int(input('세 번째 숫자: ')) d=int(input('네 번째 숫자: ')) e=int(input('다섯 번째 숫자: ')) hap=a+b+c+d print("합계: %d"%hap) 첫 번째 숫자: 1 두 번째 숫자: 2 세 번째 숫자: 3 네 번째 숫자: 4 다섯 번째 숫자: 5 합계: 10 2. 빈 리스트를 생성 후 반복문을 작성해보기 aa=[] #빈 리스트를 생성 & 반복문 for i in range(0,4): #4번을 반복해 항목이 4개인 리스트로 만듦 aa.append(0..

[3장-2] 정밀도와 재현율의 맹점

[정밀도] =TP/(TP+FP) - 확실한 기준이 되는 경우에만 사용 ex. 100명 중에 1명만 암환자가 맞다 [재현율=민감도] = TP/(TP+FN) - 모든 조건을 해당된다고 예측하며 사용 ex. 100명 중에 100명이 모두 암환자라고 생각한다 ROC 곡선 1) TPR: true positive rate : 재현율=민감도 TPR= TP / (FN+TP) 2) FPR: negative 잘못 예측한 비율(음성인데 양성으로 잘못 예측) FPR = FP / (FP+TN) ------------------------------------------------------------------------------------------ from sklearn.metrics import roc_curve # 레..

728x90