21년 3월 9일 

코드스테이츠 부트캠프 6일차

Week1 Artificail Intelligence


오늘의 나를 뒤돌아보며,

 


6일차

Data Visualize (데이터 시각화)

 

키워드

  • Feature Engineering
  • String & DateTime
  • apply

 

1~3일차 동안 과제를 해야한다는 것에 초점을 둬서 시각화를 하기위한 plot 개념을 모르고 사용했었다. 오늘 데이터 시각화를 배우게 되면서 어떻게 데이터 들을 눈으로 보면서 더 쉽게 접근할 수 있는지 시각화 하는 방법을 알게됐다.

 

데이터 시각화란, 데이터를 한 눈에 알아 볼 수 있게 변경하는 작업을 의미한다

 

seaborn을 사용하여 데이터를 시각화하였다.

seaborn.pydata.org/index.html

 

seaborn: statistical data visualization — seaborn 0.11.1 documentation

Seaborn is a Python data visualization library based on matplotlib. It provides a high-level interface for drawing attractive and informative statistical graphics. For a brief introduction to the ideas behind the library, you can read the introductory note

seaborn.pydata.org

시각화를 하는 이유는 무엇일까? 

데이터로 부터 말하고자 하는 것을 더욱 더 효율적으로 전달하기 위함이다.

 

그렇다면 시각화를 잘 하는 방법은 무엇일까?

-무엇을 말하고자 하는지 목표를 정해야한다. 목표가 없으면 장황하게 설명만 하기 바쁘다.

-평소에 좋은 시각화 예시를 많이 접해서 시각화 인사이트를 늘리자!

 

주의해야할 것!

-표현하고자 하는 그래프의 기준을 잘 설정하자! 분명1학년 남학생들의 키 평균을 표현하고 싶은데 뜬금없이 3학년 여학생들의 키 평균 데이터를 사용하면 안된다.

 

 

내가 생각하는 데이터 시각화를 하는 순서

(잘못된게있거나 더욱더 실력이 쌓이면서 수정이 필요하면 수정할 예정)

 

1. pd.read_csv를 통해 데이터 불러오기

그리고 꼭 필수로 입력하자

1
2
3
4
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns              #seaborn 시각화를 하기 위함
import numpy as np
cs

 

 

2. 원하는 plot 정한다 

아래의 seaborn gallery에 들어가면 다양한 그래프 형태를 보고 필요한 것들을 고르면 된다.

seaborn.pydata.org/examples/index.html

 

Example gallery — seaborn 0.11.1 documentation

 

seaborn.pydata.org

 

3. plot에 알맞게 필요한 데이터 입력하면 실행된다.

1
2
3
4
5
6
7
8
9
sns.stripplot(x="island",         # x축
              y="bill_depth_mm"# y축
              data=df,            # 사용하는 데이터
              order=ord,          # 범주 순서
              jitter=True)        # 많은 점이 있고 중복되는 경우에 유용하고, 분포를 더 쉽게 볼 수 있다.
 
 
 
              alpha = 1           # 투명도 양 조절/  0.1은 투명하고 1은 짙다
cs

 

 


 

 

꼭 기억하고 넘어가야 하는 것

 

★ hue는 범례를 나타내는 것으로 그래프가 의미하는게 어떤 것인지 의미함! (그래프 안에 작은 박스에 있는 각각의 데이터 설명)

 

★ rugplot : x,y축 위에 작은 rug로 실제 데이터들의 위치 보여줌

 

1
2
코드에서 사용하는 palette의 값을 pal이라는 변수에 저장해야 하면 {}를 사용하여 묶어주기
pal = {'Adelie''#ff9ff3''Gentoo''#4000c7''Chinstrap''#1dd1a1'}
cs

 

'개발 관련자료' 카테고리의 다른 글

chi square test (카이제곱 검정)  (0) 2021.04.01
Hypothesis Test (가설검정)  (0) 2021.03.22
Data Manipulation  (0) 2021.03.21
Feature Engineering  (0) 2021.03.18
Data Preprocess & EDA  (0) 2021.03.18

+ Recent posts