오늘 공부할 내용
· 동일한 주기로 다시 샘플링하고 변환하여 비교 가능한 시계열데이터를 만드는 방법 (예를 들어 일별 데이터에서 월별 데이터로)
· 범위 설정, 레이블, 선 스타일, 마커, 색상, 차트 해상도를 이용하여 맷플롯립 차트의 스타일을 미세 조정하기
· 시계열의 계절성을 시각적으로 알아볼 수 있도록 그리드를 사용해보기
· 누락된 NaN인 값의 개수를 찾고 데이터프레임에서 NaN 값을 어떻게 찾는지
· 차트 시간축의 스타일 지정을 더 잘 하기 위해 로케이터로 작업하는 방법
· 지난 3일간 배운 개념을 복습하고 새로운 데이터셋에 적용
데이터 이해하기
4개의 csv파일로 이루어져있다.
4개 파일을 아래와같이 pandas로 읽었다.
df_tesla = pd.read_csv('TESLA Search Trend vs Price.csv')
df_btc_search = pd.read_csv('Bitcoin Search Trend.csv')
df_btc_price = pd.read_csv('Daily Bitcoin Price.csv')
df_unemployment = pd.read_csv('UE Benefits Search vs UE Rate 2004-19.csv')
다음으로 이전에 배웠던 내용을 토대로 데이터를 전반적으로 이해한다.
검색량은 0~100으로 범위가 제한되는데 이 숫자는 주어진 지역 및 시간에 대한 차트상의 최대치에 대한 상대적 검색 관심도를 나타낸다. 100의 값은 용어의 관심도가 가질 수 있는 최고치이다. 50의 값은 중간 정도, 0은 데이터가 쓸모 없다는것을 의미한다.
#--------------테슬라--------------## 데이터 프레임 모양 확인하기 - shapeprint(df_tesla.shape)
# 열 이름 확인하기 - columnsprint(df_tesla.columns)
# f스트링을 사용하여 가장크거나 가장 작은 검색 데이터 행 가져오기 - max, min 사용print(f"가장 큰 검색 횟수는 {df_tesla['TSLA_WEB_SEARCH'].max()} 입니다.")
print(f"가장 큰 검색 횟수는 {df_tesla['TSLA_WEB_SEARCH'].min()} 입니다.")
# describe()으로 데이터 요약print(df_tesla.describe())
#--------------실업--------------## f스트링을 이용한 실업데이터 최다 검색량print(f"가장 많은 검색 횟수는 {df_unemployment['UE_BENEFITS_WEB_SEARCH'].max()} 입니다.")
#--------------비트코인--------------#print(f"가장큰 비트코인 검색 횟수는 {df_btc_search['BTC_NEWS_SEARCH'].max()}")
데이터 정리하기
누락된 값을 찾는 방법
isna()만 사용할 경우 전체 데이터를 True, False로 분류하며, values.any()를 사용할 경우 데이터에 True가 있는지 확인한다.
아래 결과는 df_btc_price만 NaN 값이 있다고 확인된다.