21년 3월 5일 

코드스테이츠 부트캠프 2일차

Week1 Feature Engineering


오늘의 나를 뒤돌아보며,

어제 과제를 시작했을 때 큰 당황을 했었지만 오늘은 어제보다 조금 더 익숙해져서 덜 당황했다.  앞으로도 이 용기가 점점 많아지면서 강력해지길 바라며 노력할거다.


2일차 Feature Engineering

Feature Engineering이란 주어진 데이터셋의 feature들을 조합 하는 행위들을 의미한다.

 

키워드

  • Feature Engineering
  • String & DateTime
  • apply

DataFrame이란 테이블 형태의 데이터이다.

하나의 행에는 하나의 데이터 혹은 관측치가 있고

하나의 열에는 하나의 feature를 기반으로 저장하기를 권장한다.

이를 tidy 형태 라고 부르기도 하며, 다른 라이브러리들과 호환성을 위해서 간단하게 한다.


꼭 기억하고 넘어가야 하는 것

 

★ df = pd.read_csv(링크) 를 통해서 데이터 파일을 불러올 수 있다. 

 

★ df = pd.read_csv(urlhead + myurl).transpose()         #1단계 : csv 파일을 불러와 행과 열을 서로 전환시킨다.

 

 들여쓰기 잘 하기!

 

 # 들여쓰기 문법 에러

if a == 10:

print('10입니다.')

 

# 올바른 코드

if a == 10:

     print('10입니다.')

 

★ 데이터셋에 NaN과 같은 결측치가 있는지 잘 확인해야한다.

 #결측치 0 대체

df = df.fillna(0)

 

★차이점

Na는 Not Available          결측값

NULL                            값이 존재하지 않는다.

NaN                             Not a number 수학적으로 정의되지 않음

                               숫자 영

Undefined                     선언되지않은 변수

 

'개발 관련자료' 카테고리의 다른 글

chi square test (카이제곱 검정)  (0) 2021.04.01
Hypothesis Test (가설검정)  (0) 2021.03.22
Data Visualize (데이터시각화)  (0) 2021.03.21
Data Manipulation  (0) 2021.03.21
Data Preprocess & EDA  (0) 2021.03.18

+ Recent posts