Data Analysis/Python

[01] 경기도 청년통장 데이터 분석

뉴욕킴 2023. 6. 12. 23:39

1. 데이터 다운로드

경기지역경제포털 (bigdata-region.kr)

 

경기지역경제포털

지역경제활성화를 위한 데이터 선순환의 시작 '경기지역경제포털'

bigdata-region.kr

 

2. 코드 작성

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
# 한글폰트 사용을 위해 설치
!pip install koreanize-matplotlib
import koreanize_matplotlib

# 그래프에 retina display 적용
%config InlineBackend.figure_format = 'retina'

# 구글 드라이브 연결

from google.colab import drive
drive.mount('/gdrive')

# 파일 불러오기 

data = pd.read_csv('/content/drive/MyDrive/데이터분석 데이터/경기도 일자리 청년통장정보_191201.csv')
print(data.shape)
data.info()
# 컬럼명을 한글로 바꾸기
columns = ['저축목적명', '연령', '성별코드',
                '결혼상태명','우편번호', '지번주소','가구원수','경기도거주기간명',
                '직업명','3D업종명', '제조업종명', '근로형태명',
                '근무처경기도지역여부','근무처우편번호','근무처도로명주소',
                '근무처도로명상세주소', '근무처지번주소', '근무처지번상세주소',
                '근무처명', '근로기간명', '거주상태명', '자동차본인명', 
                '자동차가구원명', '부채상환본인대출금액', '부채상환본인내용',
                '부채상환본인부재여부','부채상환가구원금액','부채상환가구원내용',
                '부채상환가구원부재여부', '전세월세보증금액', 
                '상가보증금액','기타금액','단계1동의여부','단계2동의여부',
                '단계3동의여부','개인정보사용동의여부','개인정보사용동의일시',
                '신청상태명','신청일시','재신청일시','거절사유내용','거절일자',
                '등록일시','수정일시','사용여부','삭제여부','신청경로명',
                '가산점수값','직업유형명','기업유형명','건강보험명',
                '건강보험료월1금액','건강보험료월2금액','건강보험료월3금액','건강보험료평균금액','데이터기준일자']

# 중복 행 체크

data[data.duplicated(columns[1:])]
  • 중복된 행이 있을 때 data.drop_duplicates(columns[1:], keep = 'first') → columns[1:]는 columns 리스트의 첫 번째 열을 제외한 모든 열에 대해 중복 여부를 판단하는 기준으로 사용됩니다. keep='first'는 중복된 행 중 첫 번째 행을 유지하고 나머지 중복 행을 제거하는 옵션
data.drop_duplicates(columns[1:],keep='first')