21년 3월 9일
코드스테이츠 부트캠프 6일차
Week1 Artificail Intelligence
오늘의 나를 뒤돌아보며,
6일차
Data Visualize (데이터 시각화)
키워드
- Feature Engineering
- String & DateTime
- apply
1~3일차 동안 과제를 해야한다는 것에 초점을 둬서 시각화를 하기위한 plot 개념을 모르고 사용했었다. 오늘 데이터 시각화를 배우게 되면서 어떻게 데이터 들을 눈으로 보면서 더 쉽게 접근할 수 있는지 시각화 하는 방법을 알게됐다.
데이터 시각화란, 데이터를 한 눈에 알아 볼 수 있게 변경하는 작업을 의미한다
seaborn을 사용하여 데이터를 시각화하였다.
seaborn: statistical data visualization — seaborn 0.11.1 documentation
Seaborn is a Python data visualization library based on matplotlib. It provides a high-level interface for drawing attractive and informative statistical graphics. For a brief introduction to the ideas behind the library, you can read the introductory note
seaborn.pydata.org
시각화를 하는 이유는 무엇일까?
데이터로 부터 말하고자 하는 것을 더욱 더 효율적으로 전달하기 위함이다.
그렇다면 시각화를 잘 하는 방법은 무엇일까?
-무엇을 말하고자 하는지 목표를 정해야한다. 목표가 없으면 장황하게 설명만 하기 바쁘다.
-평소에 좋은 시각화 예시를 많이 접해서 시각화 인사이트를 늘리자!
주의해야할 것!
-표현하고자 하는 그래프의 기준을 잘 설정하자! 분명1학년 남학생들의 키 평균을 표현하고 싶은데 뜬금없이 3학년 여학생들의 키 평균 데이터를 사용하면 안된다.
내가 생각하는 데이터 시각화를 하는 순서
(잘못된게있거나 더욱더 실력이 쌓이면서 수정이 필요하면 수정할 예정)
1. pd.read_csv를 통해 데이터 불러오기
그리고 꼭 필수로 입력하자
1
2
3
4
|
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns #seaborn 시각화를 하기 위함
import numpy as np
|
cs |
2. 원하는 plot 정한다
아래의 seaborn gallery에 들어가면 다양한 그래프 형태를 보고 필요한 것들을 고르면 된다.
seaborn.pydata.org/examples/index.html
Example gallery — seaborn 0.11.1 documentation
seaborn.pydata.org
3. plot에 알맞게 필요한 데이터 입력하면 실행된다.
1
2
3
4
5
6
7
8
9
|
sns.stripplot(x="island", # x축
y="bill_depth_mm", # y축
data=df, # 사용하는 데이터
order=ord, # 범주 순서
jitter=True) # 많은 점이 있고 중복되는 경우에 유용하고, 분포를 더 쉽게 볼 수 있다.
alpha = 1 # 투명도 양 조절/ 0.1은 투명하고 1은 짙다
|
cs |
꼭 기억하고 넘어가야 하는 것
★ hue는 범례를 나타내는 것으로 그래프가 의미하는게 어떤 것인지 의미함! (그래프 안에 작은 박스에 있는 각각의 데이터 설명)
★ rugplot : x,y축 위에 작은 rug로 실제 데이터들의 위치 보여줌
1
2
|
코드에서 사용하는 palette의 값을 pal이라는 변수에 저장해야 하면 {}를 사용하여 묶어주기
pal = {'Adelie': '#ff9ff3', 'Gentoo': '#4000c7', 'Chinstrap': '#1dd1a1'}
|
cs |
'개발 관련자료' 카테고리의 다른 글
chi square test (카이제곱 검정) (0) | 2021.04.01 |
---|---|
Hypothesis Test (가설검정) (0) | 2021.03.22 |
Data Manipulation (0) | 2021.03.21 |
Feature Engineering (0) | 2021.03.18 |
Data Preprocess & EDA (0) | 2021.03.18 |