1. 데이터 다운로드
경기지역경제포털
지역경제활성화를 위한 데이터 선순환의 시작 '경기지역경제포털'
bigdata-region.kr
2. 코드 작성
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
# 한글폰트 사용을 위해 설치
!pip install koreanize-matplotlib
import koreanize_matplotlib
# 그래프에 retina display 적용
%config InlineBackend.figure_format = 'retina'
# 구글 드라이브 연결
from google.colab import drive
drive.mount('/gdrive')
# 파일 불러오기
data = pd.read_csv('/content/drive/MyDrive/데이터분석 데이터/경기도 일자리 청년통장정보_191201.csv')
print(data.shape)
data.info()
# 컬럼명을 한글로 바꾸기
columns = ['저축목적명', '연령', '성별코드',
'결혼상태명','우편번호', '지번주소','가구원수','경기도거주기간명',
'직업명','3D업종명', '제조업종명', '근로형태명',
'근무처경기도지역여부','근무처우편번호','근무처도로명주소',
'근무처도로명상세주소', '근무처지번주소', '근무처지번상세주소',
'근무처명', '근로기간명', '거주상태명', '자동차본인명',
'자동차가구원명', '부채상환본인대출금액', '부채상환본인내용',
'부채상환본인부재여부','부채상환가구원금액','부채상환가구원내용',
'부채상환가구원부재여부', '전세월세보증금액',
'상가보증금액','기타금액','단계1동의여부','단계2동의여부',
'단계3동의여부','개인정보사용동의여부','개인정보사용동의일시',
'신청상태명','신청일시','재신청일시','거절사유내용','거절일자',
'등록일시','수정일시','사용여부','삭제여부','신청경로명',
'가산점수값','직업유형명','기업유형명','건강보험명',
'건강보험료월1금액','건강보험료월2금액','건강보험료월3금액','건강보험료평균금액','데이터기준일자']
# 중복 행 체크
data[data.duplicated(columns[1:])]
- 중복된 행이 있을 때 data.drop_duplicates(columns[1:], keep = 'first') → columns[1:]는 columns 리스트의 첫 번째 열을 제외한 모든 열에 대해 중복 여부를 판단하는 기준으로 사용됩니다. keep='first'는 중복된 행 중 첫 번째 행을 유지하고 나머지 중복 행을 제거하는 옵션
data.drop_duplicates(columns[1:],keep='first')
'Data Analysis > Python' 카테고리의 다른 글
[파이썬] 독학하기 좋은 사이트 추천 (0) | 2023.07.06 |
---|---|
[Pandas] 인덱스 설정, 수정, 해제 _Day2 (0) | 2023.06.13 |
[Pandas] 칼럼명, 인덱스명, 값 기입 후 출력 & 컬럼명 설정 및 수정 _Day1 (0) | 2023.06.13 |
[파이썬_점프 투 파이썬] 문자열 (0) | 2023.06.11 |
[파이썬_점프 투 파이썬] 숫자열 (0) | 2023.06.11 |