오늘 공부할 내용
데이터 전처리
데이터 열 이름 변경하기.
header=0으로 지정하여 names를 지정해주면 열 이름을 지정할 수 있다.
df = pd.read_csv('QueryResults.csv', names=['DATE', 'TAG', 'POSTS'], header=0)
혹은 아래와 같이 rename의 columns에 이전 이름 : 새로운 이름으로 전달하여 변경할 수 있다.
import pandas as pd
df = pd.read_csv("QueryResults.csv")
df.rename(columns={'m':'DATE'}, inplace=True)
df.rename(columns={'TagName':'TAG'}, inplace=True)
df.rename(columns={'Unnamed: 2':'POSTS'}, inplace=True)
스택오버플로우에서 가장 많이 태그된 프로그래밍 언어 찾기.
TAG로 그룹화하여 sum()메소드로 합계를 찾을 수 있다.
print(df.groupby("TAG").sum())
타임스탬프 작업하기
데이터프레임의 DATE열을 확인해보면 숫자형이아닌 문자열인것을 확인할 수 있다.
또한 2008-08-01 00:00:00과같이 필요 없는 00:00:00이 출력된다.