scikit-learn에는 수많은 머신러닝 모델이 구현되어 있는데 모두 유사한 프로세스를 통해서 사용할 수 있습니다.

  • 우선 여러분께서 풀어야 하는 문제를 풀기에 적합한 모델을 선택하여 클래스를 찾아본 후 관련 속성이나 하이퍼파라미터를 확인해 봅니다.
  • 문제에 따라서 약간 차이가 있겠지만 위에서 살펴본 것과 같이 데이터를 준비합니다.
  • fit() 메소드를 사용하여 모델을 학습합니다.
  • 'predict()' 메소드를 사용하여 새로운 데이터를 예측합니다.

머신러닝 키워드

  • simple regression
    • 판매 가격 예측
    • MAE (평균절대오차)
    • 회귀모델을 만들 때 기준모델을 어떻게 정의하나요? 이 과정이 왜 중요할까요?
  • multiple regression
    • 학습과 테스트 데이터를 분리 해야하는 이유
    • 과적합/과소적합이란?
    • 편향과 분산의 트레이드오프 관계
    • 회귀모델을 평가하는 평가지표
      • MAE, MSE, RMSE, R-squared
  • ridge regression(과적합 줄이려고 사용)
    • One-hot encoding
    • category_encoders
    • 특성선택
    • SelectKBest
  • logistic regression
    • 분류, 회귀의 차이점
  • 결정트리(Decision Trees)
    • pipelines
    • 결정트리(decision tree)
    • 특성 중요도(feature importances)
  • 랜덤포레스트(Random Forests)
    • 앙상블(Ensemble)
    • 순서형인코딩(Ordinal encoding)
    • 범주형 변수의 인코딩 방법
    • 결정트리와 차이점
    • 배깅(Bagging)
    • Out-Of-Bag(OOB) sample
    • 지니불순도(Gini impurity)를 통해 중요도 정보를 확인한다.
  • Evaluation Metrics for Calssification
    • 오차행렬(Confusion matrix(분류 모델의 성능 평가 지표))
    • 정밀도(precision), 재현율(recall)
      • 트레이드오프
    • 임계값
    • ROC, AUC
    • F1 Score
  • Model Selection
    • 교차검증 하는 이유는?
      • K-Fold, Stratified K-Fold
      • cross_val_scores
    • 하이퍼파리미터 튜닝
      • GridSearchCV
  • Choose your ML problems
    • 예측모델을 올바르게 사용 및 분포 확인
    • 정보 누출(leakage)
    • 상황에 맞는 검증 지표
  • Data Wrangling
  • Feature Importances (중요한 feature들은 어떻게 판별할까?)
    • LightGBM
    • 부스팅(Boosting)
      • AdaBoost
        • AdaBoost와 RandomgForest 의 차이는?
      • Gradien Boosting
  • 부분의존도그림(Partial Dependence Plots(PDP)) - 관심있는 특성들이 타겟에 어떻게 영향을 주는지 쉽게 파악할 수 있다.
    • PDPbox
    • SHAP

참고


1

  • 머신러닝이란?
    • 지도학습
      • 분류
      • 회귀
    • 비지도학습
      • 클러스터링
      • K Means
  • SVM

[머신러닝] SVM (서포트 벡터 머신)

2. 회귀 (실습 : 보스턴 주택가격 예측)

  • 큰 틀을 이해하기에 좋은 블로그

[머신러닝 이론] 회귀 (Regression)

  • 선형회귀 정리한 블로그

5. 머신러닝 알고리즘 : 선형회귀(linear regression)

  • 과적합, 과소적합

오버피팅, 언더피팅 제대로 이해하고 극복하기

  • 경사하강법
  • Regularized Linear Regression

Regularized Linear Regression

  • Lasso
    • One-hot encoding
    • SelectKBest
    • category_encoders
  • Logistic
  • ElasticNet

3. 분류

  • 의사결정트리

의사결정나무(Decision Tree)

  • 결정트리에서의 과적합에 대한

[머신러닝 강좌 #12] 결정트리(DecisionTree)와 과적합에 대해](https://nicola-ml.tistory.com/93)

  • Random Forests
    • 순서형인코딩(Ordinal encoding)
    • Out-Of-Bag(OOB) sample
    • 지니불순도(Gini impurity)

[머신러닝] 랜덤포레스트


4. 평가

  • 오차행렬(Confusion matrix(분류 모델의 성능 평가 지표))
  • 정밀도(precision), 재현율(recall)
    • 정밀도와 재현율의 트레이드오프
  • 임계값
  • ROC, AUC
  • F1 Score

5. 모델선택

  • 교차검증 하는 이유는?
    • K-Fold, Stratified K-Fold
    • cross_val_scores
  • 하이퍼파리미터 튜닝
    • GridSearchCV
  • 예측모델을 올바르게 사용 및 분포 확인
  • 정보 누출(leakage)
  • 상황에 맞는 검증 지표

6. XAI

(중요한 feature들은 어떻게 판별할까?)

  • LightGBM
  • 부스팅(Boosting)
    • AdaBoost
      • AdaBoost와 RandomgForest 의 차이는?
    • Gradien Boosting
    XGBoost, LightGBM (유튭 영상이 40분.......와우)
  • XGBoost, LightGBM
  • 부분의존도그림(Partial Dependence Plots(PDP)) - 관심있는 특성들이 타겟에 어떻게 영향을 주는지 쉽게 파악할 수 있다.
    • PDPbox
    • SHAP

+ Recent posts