본문 바로가기

부스트캠프 AI Tech/Data visualization

(11)
Polar coordinate Polar Plot(극 좌표계) 중심에서의 거리 R, 각도 theta를 사용 회전, 주기성 표현 projection = polar scatter, line, bar 모두 가능 set_rmax(), set_rmin(), set_rticks() set_rlabel_position() set_thetamin(), set_thetamax() scatter(), bar(), plot(), fill() Rader Plot 극좌표계를 사용한 차트 Star Plot 데이터의 Quality 각 feature는 independent이어야함 feature가 많으면 가독성 하락 set_thetagrids(), set_theta_offset()
Seaborn Seaborn matplotlib 기반 통계 시각화 라이브러리 Category countplot boxplot violin Distribution histplot : 히스토그램 kdeplot : Kernel Density Estimate ecdfplot : 누적 밀도 함수 rugplot : 선을 사용한 밀도함수 Bivariate Distribution histplot, kdeplot 축을 2개 넣기 Relation & Regression scatter plot line plot Matrix plot Headmap - correlation Figure level joint plot pair plot facet plot catplot : Categorical displot : Distribution relp..
More tips More tips Grid colorm zorder, which, axis 두 변수의 합 : x+y=c (grid가 대각선으로) 비율이 중요할 때 : y=cx (원점에서 퍼짐) 특정 데이터 중심 : (x-x')^2+(y-y')^2=c (등고선) 선 추가 면 추가 Settings, theme
Facet Facet 화면 상의 view를 분할 같은 dataset에서 다른 insight 도출 1 Figure, N subplot plt.subplot() plt.figure() + fig.add_subplot() plt.subplots() figuresize, dpi, sharex, squeeze, aspect subplot slicing numpy slicing fig.add_grid_spec() fig.subplot2grid() ax.inset_axes() - 내부에 작은 정보 make_axes_locatable(ax) - 외부에 작은 정보
Color Color Categorical 독립된 색상으로 구분 최대 10개까지 사용 Sequential 연속적인 색상 사용 단일한 색조로 균일한 색상 변화 Diverge Sequential과 비슷하나 중앙을 기준으로 발산 상반된 값, 서로 다른 2개의 값 Highlighting 명도, 색상, 채도, 보색
Text Text Title - 주제 Label - 축의 정보 Tick label - 축의 scale Legend - 범례 Annotation(Text) - 각주 detail color linespacing - 줄 간격 backgroundcolor alpha - 투명도 zorder - 맨앞으로, 맨뒤로 visible alignment va, ha, rotation, multialignment bbox
Scatter plot Scatter plot feature 간 관계를 표현 .scatter() 색, 모양, 크기로 구분 군집, 값 사이의 차이, 이상치 확인 용이 점이 많아질 시 투명도 jottering : 점의 위치 조정 2차원 histogram : 히트맵 사용 contour plot : 등고선 인과 관계 != 상관 관계 추세선은 1개만 사용할 것 grid는 지양, category가 포함됐다면 히트맵, 버블 차트
Line plot Line plot 연속적으로 변화하는 값을 점으로 나타내어 연결한 선 시계열 분석에 특화 .line()이 아닌 .plot() 너무 많은 선은 가독성 하락 색상(color), 마커(marker), 선의 종류(linestyle) noise를 방지하기 위해 smoothing 사용 추세를 보기 위함이므로 축을 0에 둘 필요 x 디테일한 정보는 생략 간격을 규칙적으로 표기, 불규칙적이라면 점 찍어 표기 점과 점 사이에 데이터를 잇는 방법(보간) error나 noise를 처리, smoothing 이중 축 - 같은 시간 축에 다른 데이터를 표현 line의 끝에 label 표시, min/max 등 annotation 표시 uncertainty 표현