오늘 공부할 내용


데이터 전처리

데이터 열 이름 변경하기.

header=0으로 지정하여 names를 지정해주면 열 이름을 지정할 수 있다.

df = pd.read_csv('QueryResults.csv', names=['DATE', 'TAG', 'POSTS'], header=0)

혹은 아래와 같이 rename의 columns에 이전 이름 : 새로운 이름으로 전달하여 변경할 수 있다.

import pandas as pd
df = pd.read_csv("QueryResults.csv")
df.rename(columns={'m':'DATE'}, inplace=True)
df.rename(columns={'TagName':'TAG'}, inplace=True)
df.rename(columns={'Unnamed: 2':'POSTS'}, inplace=True)

스택오버플로우에서 가장 많이 태그된 프로그래밍 언어 찾기.

TAG로 그룹화하여 sum()메소드로 합계를 찾을 수 있다.

print(df.groupby("TAG").sum())

https://blog.kakaocdn.net/dn/7Ww9F/btrG1zfnDyO/GY4OdCw0rD8jib4J2Aat8k/img.png

타임스탬프 작업하기

데이터프레임의 DATE열을 확인해보면 숫자형이아닌 문자열인것을 확인할 수 있다.

https://blog.kakaocdn.net/dn/K9wUO/btrG1rIkG58/J29wut1q187uVqwjLU74D1/img.png

또한 2008-08-01 00:00:00과같이 필요 없는 00:00:00이 출력된다.