워싱턴 포스트에서 사망사건에 대한 세부사항을 추적하고 있다고 합니다. 정보들에는 인종, 나이 ,성별, 무장여부, 정신적 상태등이 포함되어있습니다.

오늘은 이 데이터를 가지고 사망자들에대한 분석을 해보려고합니다.

모듈 임포트

import numpy as np
import pandas as pd
import plotly.express as px
import matplotlib.pyplot as plt
import seaborn as sns

데이터들을 불러옵니다.

df_hh_income - 지역별 중위 소득

df_pct_poverty - 지역별 가난률

df_pct_completed_hs - 지역별 고등학교 졸업률

df_share_race_city - 지역별 인종 비율

df_fatalities - 경찰에게 사망한 사망자 정보

df_hh_income = pd.read_csv('Median_Household_Income_2015.csv', encoding="windows-1252")
df_pct_poverty = pd.read_csv('Pct_People_Below_Poverty_Level.csv', encoding="windows-1252")
df_pct_completed_hs = pd.read_csv('Pct_Over_25_Completed_High_School.csv', encoding="windows-1252")
df_share_race_city = pd.read_csv('Share_of_Race_By_City.csv', encoding="windows-1252")
df_fatalities = pd.read_csv('Deaths_by_Police_US.csv', encoding="windows-1252")

데이터 확인하기

.shape / .columns / . head() 활용

NaN값 정리하기

.isna().values.any()로 각 데이터의 누락값을 확인합니다.

df_hh_income의 중위소득의 누라값은 0으로 채워줍니다.

df_hh_income.fillna(0, inplace=True)

df_fatalities의 누락값은 제거해줍니다.

df_fatalities.dropna(inplace=True)

미국 내 지역별 가난률 평균 계산하기 / matplotlib으로 시각화