정리_머신러닝 공부 계획

기몽42 2023. 5. 8. 15:50

2023. 5. 8. 15:50

scikit-learn에는 수많은 머신러닝 모델이 구현되어 있는데 모두 유사한 프로세스를 통해서 사용할 수 있습니다.

우선 여러분께서 풀어야 하는 문제를 풀기에 적합한 모델을 선택하여 클래스를 찾아본 후 관련 속성이나 하이퍼파라미터를 확인해 봅니다.
문제에 따라서 약간 차이가 있겠지만 위에서 살펴본 것과 같이 데이터를 준비합니다.
fit() 메소드를 사용하여 모델을 학습합니다.
'predict()' 메소드를 사용하여 새로운 데이터를 예측합니다.

머신러닝 키워드

simple regression
- 판매 가격 예측
- MAE (평균절대오차)
- 회귀모델을 만들 때 기준모델을 어떻게 정의하나요? 이 과정이 왜 중요할까요?
multiple regression
- 학습과 테스트 데이터를 분리 해야하는 이유
- 과적합/과소적합이란?
- 편향과 분산의 트레이드오프 관계
- 회귀모델을 평가하는 평가지표
  - MAE, MSE, RMSE, R-squared
ridge regression(과적합 줄이려고 사용)
- One-hot encoding
- category_encoders
- 특성선택
- SelectKBest
logistic regression
- 분류, 회귀의 차이점
결정트리(Decision Trees)
- pipelines
- 결정트리(decision tree)
- 특성 중요도(feature importances)
랜덤포레스트(Random Forests)
- 앙상블(Ensemble)
- 순서형인코딩(Ordinal encoding)
- 범주형 변수의 인코딩 방법
- 결정트리와 차이점
- 배깅(Bagging)
- Out-Of-Bag(OOB) sample
- 지니불순도(Gini impurity)를 통해 중요도 정보를 확인한다.
Evaluation Metrics for Calssification
- 오차행렬(Confusion matrix(분류 모델의 성능 평가 지표))
- 정밀도(precision), 재현율(recall)
  - 트레이드오프
- 임계값
- ROC, AUC
- F1 Score
Model Selection
- 교차검증 하는 이유는?
  - K-Fold, Stratified K-Fold
  - cross_val_scores
- 하이퍼파리미터 튜닝
  - GridSearchCV
Choose your ML problems
- 예측모델을 올바르게 사용 및 분포 확인
- 정보 누출(leakage)
- 상황에 맞는 검증 지표
Data Wrangling
Feature Importances (중요한 feature들은 어떻게 판별할까?)
- LightGBM
- 부스팅(Boosting)
  - AdaBoost
    - AdaBoost와 RandomgForest 의 차이는?
  - Gradien Boosting
부분의존도그림(Partial Dependence Plots(PDP)) - 관심있는 특성들이 타겟에 어떻게 영향을 주는지 쉽게 파악할 수 있다.
- PDPbox
- SHAP

참고

1

머신러닝이란?
- 지도학습
  - 분류
  - 회귀
- 비지도학습
  - 클러스터링
  - K Means
SVM

[머신러닝] SVM (서포트 벡터 머신)

2. 회귀 (실습 : 보스턴 주택가격 예측)

큰 틀을 이해하기에 좋은 블로그

[머신러닝 이론] 회귀 (Regression)

선형회귀 정리한 블로그

5. 머신러닝 알고리즘 : 선형회귀(linear regression)

과적합, 과소적합

오버피팅, 언더피팅 제대로 이해하고 극복하기

경사하강법
Regularized Linear Regression

Regularized Linear Regression

Lasso
- One-hot encoding
- SelectKBest
- category_encoders
Logistic
ElasticNet

3. 분류

의사결정트리

의사결정나무(Decision Tree)

결정트리에서의 과적합에 대한

[머신러닝 강좌 #12] 결정트리(DecisionTree)와 과적합에 대해](https://nicola-ml.tistory.com/93)

Random Forests
- 순서형인코딩(Ordinal encoding)
- Out-Of-Bag(OOB) sample
- 지니불순도(Gini impurity)

[머신러닝] 랜덤포레스트

4. 평가

오차행렬(Confusion matrix(분류 모델의 성능 평가 지표))
정밀도(precision), 재현율(recall)
- 정밀도와 재현율의 트레이드오프
임계값
ROC, AUC
F1 Score

5. 모델선택

교차검증 하는 이유는?
- K-Fold, Stratified K-Fold
- cross_val_scores
하이퍼파리미터 튜닝
- GridSearchCV
예측모델을 올바르게 사용 및 분포 확인
정보 누출(leakage)
상황에 맞는 검증 지표

6. XAI

(중요한 feature들은 어떻게 판별할까?)

LightGBM
부스팅(Boosting)
- AdaBoost
  - AdaBoost와 RandomgForest 의 차이는?
- Gradien Boosting
XGBoost, LightGBM (유튭 영상이 40분.......와우)
XGBoost, LightGBM
부분의존도그림(Partial Dependence Plots(PDP)) - 관심있는 특성들이 타겟에 어떻게 영향을 주는지 쉽게 파악할 수 있다.
- PDPbox
- SHAP

'개발 관련자료 > ML, DL' 카테고리의 다른 글

경사하강법(gradient descent) (0)	2021.06.16
역전파(Backpropagation) 알고리즘 (0)	2021.06.16
퍼셉트론(Perceptron) (0)	2021.06.16
Bias와 Variance 개념 (0)	2021.06.11
L1 regularization, L2 regularization 간단한 개념 (0)	2021.06.11

ki_mong42 기몽42 님의 블로그입니다.

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

ki_mong42

정리_머신러닝 공부 계획

scikit-learn에는 수많은 머신러닝 모델이 구현되어 있는데 모두 유사한 프로세스를 통해서 사용할 수 있습니다.

머신러닝 키워드

1

2. 회귀 (실습 : 보스턴 주택가격 예측)

3. 분류

4. 평가

5. 모델선택

6. XAI

'개발 관련자료 > ML, DL' 카테고리의 다른 글

+ Recent posts

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역