오늘 공부할 내용.
- .head(), .tail(), .shape, .columns를 사용하여 데이터프레임을 탐색하고 행과 열의 개수 및 열의 이름을 찾아보기
- .findna()를 이용하여 NaN(not a number, 숫자 아님) 값을 찾아보고 .dropna()를 이용하여 데이터프레임을 정리
- [] 표기를 이용하여 df['column name'] 또는 df[['column name 1', 'column name 2', 'column name 3']]으로 데이터프레임의 전체 열에 접근하기
- df['column name'][index]와 같이 []을 연결하거나 df['column name'].loc[index]을 사용하여 데이터프레임에 있는 개별 셀에 접근하기
- 최대값과 최소값 그리고 각각의 위치는 .max(), .min(), .idxmax() 그리고 .idxmin()과 같은 메소드로 찾기
- .sort_values()로 데이터프레임을 분류하고 .insert()로 새로운 열을 추가하기
- groupby() 메소드를 사용하여 특정 범주에 속하는 항목을 그룹화하여 엑셀 스타일 피벗 테이블을 생성하기
csv파일 불러오기
import pandas as pd
df = pd.read_csv('salaries_by_college_major.csv')
데이터프레임의 행과 열 찾기
shape 메소드 활용
print(df.shape)
열이 레이블, 이름 찾기
columns 활용
print(df.columns)
정크 데이터, 데이터프레임에 NaN (Not a Number) 숫자가 아닌 값 찾기
isna() 메소드 활용
print(df.isna())