본문 바로가기

부스트캠프 AI Tech/Python

Pandas

Pandas

  • Panel datas
  • numpy와 통합하여 빠름

data frame 불러오기
col 이름 지정
col이 없을 시 NaN으로 생성
df.values, type = ndarray

Series

Series 생성
index기준, value 없을 시 NaN

DataFrame

loc, iloc, drop, reset_index, fill_value, lambda, map, apply, applymap, replace

loc, iloc indexing, loc은 end 포함
del ,drop series(col) 삭제
col에 list를 넣으면 dataframe으로
reset_index, 
index기준으로 연산 수행, 없을 시 NaN
fill_value, 없는 값의 default 지정
Series에 map, lambda 적용 가능
같은 index만 변환, 나머지 버림
replace로 변환 가능 
apply - series별로 적용, applymap - element 단위로 적용

Built-in function

describe, unique, sort_values, corr, cov, corrwith, pd.options.display

describe
unique, set과 같은 기능
soer_values, parameter를 기준으로 정렬
corr, cov, corrwith, 상관계수, 공분산, 1 col과 나머지의 상관계수
col x col, 모든 col간의 상관계수

 

pd.options.display.max_rows 한번에 출력할 row의 수

Groupby

  • split -> apply -> combine

groupby, hierarchical index, unstack, reset_index, swaplevel, sort_index, sort_values, get_group, aggregation, transform, filter

groupby
hierarchical index, 순서대로 우선순위 배정
unstack, matrix 형태로 변환
reset_index, index 재배열
swaplevel, index 순서 변경
level을 기준으로 sort
values를 기준으로 sort
key,value 형태로 추출 가능
get_group, split된 group의 정보 추출
aggregation, group의 통계 정보
transform, element-wise 변환
Team을 기준으로 split된 group내에서의 연산
filter, 조건을 만족하는 데이터 검색

Pivot

  • column에 labeling 값 추가 -> value에 aggregation

Crosstab

  • pivot table의 특수한 형태, 두 col의 관계를 구할 때 사용

Merge

  • pivot table의 특수한 형태, 두 col의 관계를 구할 때 사용

Merge

pd.merge(df_a, df_b, on='merge_key',how = 'how_join') # col 명이 다를 때
pd.merge(df_a, df_b, left_on='subject_id', right_on='subject_id', how = 'how_join') # col 명이 다를 때

Join

Join

Concat

concat, append 

Persistance

  • pandas의 data를 저장하는 법
  • DB, excel, pickle 등

'부스트캠프 AI Tech > Python' 카테고리의 다른 글

Numpy  (0) 2022.01.23
Data handling  (0) 2022.01.22
Exception/File/Log handling  (0) 2022.01.21
Module  (0) 2022.01.21
Object Oriented Programming  (0) 2022.01.21