Data Analysis/Python
[01] 경기도 청년통장 데이터 분석
뉴욕킴
2023. 6. 12. 23:39
1. 데이터 다운로드
경기지역경제포털
지역경제활성화를 위한 데이터 선순환의 시작 '경기지역경제포털'
bigdata-region.kr
2. 코드 작성
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
# 한글폰트 사용을 위해 설치
!pip install koreanize-matplotlib
import koreanize_matplotlib
# 그래프에 retina display 적용
%config InlineBackend.figure_format = 'retina'
# 구글 드라이브 연결
from google.colab import drive
drive.mount('/gdrive')
# 파일 불러오기
data = pd.read_csv('/content/drive/MyDrive/데이터분석 데이터/경기도 일자리 청년통장정보_191201.csv')
print(data.shape)
data.info()
# 컬럼명을 한글로 바꾸기
columns = ['저축목적명', '연령', '성별코드',
'결혼상태명','우편번호', '지번주소','가구원수','경기도거주기간명',
'직업명','3D업종명', '제조업종명', '근로형태명',
'근무처경기도지역여부','근무처우편번호','근무처도로명주소',
'근무처도로명상세주소', '근무처지번주소', '근무처지번상세주소',
'근무처명', '근로기간명', '거주상태명', '자동차본인명',
'자동차가구원명', '부채상환본인대출금액', '부채상환본인내용',
'부채상환본인부재여부','부채상환가구원금액','부채상환가구원내용',
'부채상환가구원부재여부', '전세월세보증금액',
'상가보증금액','기타금액','단계1동의여부','단계2동의여부',
'단계3동의여부','개인정보사용동의여부','개인정보사용동의일시',
'신청상태명','신청일시','재신청일시','거절사유내용','거절일자',
'등록일시','수정일시','사용여부','삭제여부','신청경로명',
'가산점수값','직업유형명','기업유형명','건강보험명',
'건강보험료월1금액','건강보험료월2금액','건강보험료월3금액','건강보험료평균금액','데이터기준일자']
# 중복 행 체크
data[data.duplicated(columns[1:])]
- 중복된 행이 있을 때 data.drop_duplicates(columns[1:], keep = 'first') → columns[1:]는 columns 리스트의 첫 번째 열을 제외한 모든 열에 대해 중복 여부를 판단하는 기준으로 사용됩니다. keep='first'는 중복된 행 중 첫 번째 행을 유지하고 나머지 중복 행을 제거하는 옵션
data.drop_duplicates(columns[1:],keep='first')