scikit-learn에는 수많은 머신러닝 모델이 구현되어 있는데 모두 유사한 프로세스를 통해서 사용할 수 있습니다.
- 우선 여러분께서 풀어야 하는 문제를 풀기에 적합한 모델을 선택하여 클래스를 찾아본 후 관련 속성이나 하이퍼파라미터를 확인해 봅니다.
- 문제에 따라서 약간 차이가 있겠지만 위에서 살펴본 것과 같이 데이터를 준비합니다.
- fit() 메소드를 사용하여 모델을 학습합니다.
- 'predict()' 메소드를 사용하여 새로운 데이터를 예측합니다.
머신러닝 키워드
- simple regression
- 판매 가격 예측
- MAE (평균절대오차)
- 회귀모델을 만들 때 기준모델을 어떻게 정의하나요? 이 과정이 왜 중요할까요?
- multiple regression
- 학습과 테스트 데이터를 분리 해야하는 이유
- 과적합/과소적합이란?
- 편향과 분산의 트레이드오프 관계
- 회귀모델을 평가하는 평가지표
- MAE, MSE, RMSE, R-squared
- ridge regression(과적합 줄이려고 사용)
- One-hot encoding
- category_encoders
- 특성선택
- SelectKBest
- logistic regression
- 분류, 회귀의 차이점
- 결정트리(Decision Trees)
- pipelines
- 결정트리(decision tree)
- 특성 중요도(feature importances)
- 랜덤포레스트(Random Forests)
- 앙상블(Ensemble)
- 순서형인코딩(Ordinal encoding)
- 범주형 변수의 인코딩 방법
- 결정트리와 차이점
- 배깅(Bagging)
- Out-Of-Bag(OOB) sample
- 지니불순도(Gini impurity)를 통해 중요도 정보를 확인한다.
- Evaluation Metrics for Calssification
- 오차행렬(Confusion matrix(분류 모델의 성능 평가 지표))
- 정밀도(precision), 재현율(recall)
- 트레이드오프
- 임계값
- ROC, AUC
- F1 Score
- Model Selection
- 교차검증 하는 이유는?
- K-Fold, Stratified K-Fold
- cross_val_scores
- 하이퍼파리미터 튜닝
- GridSearchCV
- 교차검증 하는 이유는?
- Choose your ML problems
- 예측모델을 올바르게 사용 및 분포 확인
- 정보 누출(leakage)
- 상황에 맞는 검증 지표
- Data Wrangling
- Feature Importances (중요한 feature들은 어떻게 판별할까?)
- LightGBM
- 부스팅(Boosting)
- AdaBoost
- AdaBoost와 RandomgForest 의 차이는?
- Gradien Boosting
- AdaBoost
- 부분의존도그림(Partial Dependence Plots(PDP)) - 관심있는 특성들이 타겟에 어떻게 영향을 주는지 쉽게 파악할 수 있다.
- PDPbox
- SHAP
참고
1
- 머신러닝이란?
- 지도학습
- 분류
- 회귀
- 비지도학습
- 클러스터링
- K Means
- 지도학습
- SVM
2. 회귀 (실습 : 보스턴 주택가격 예측)
- 큰 틀을 이해하기에 좋은 블로그
- 선형회귀 정리한 블로그
5. 머신러닝 알고리즘 : 선형회귀(linear regression)
- 과적합, 과소적합
- 경사하강법
- Regularized Linear Regression
- Lasso
- One-hot encoding
- SelectKBest
- category_encoders
- Logistic
- ElasticNet
3. 분류
- 의사결정트리
- 결정트리에서의 과적합에 대한
[머신러닝 강좌 #12] 결정트리(DecisionTree)와 과적합에 대해](https://nicola-ml.tistory.com/93)
- Random Forests
- 순서형인코딩(Ordinal encoding)
- Out-Of-Bag(OOB) sample
- 지니불순도(Gini impurity)
- Ensemble
- Bagging
- Boosting
- 머신러닝 - 11. 앙상블 학습 (Ensemble Learning): 배깅(Bagging)과 부스팅(Boosting)
4. 평가
- 오차행렬(Confusion matrix(분류 모델의 성능 평가 지표))
- 정밀도(precision), 재현율(recall)
- 정밀도와 재현율의 트레이드오프
- 임계값
- ROC, AUC
- F1 Score
5. 모델선택
- 교차검증 하는 이유는?
- K-Fold, Stratified K-Fold
- cross_val_scores
- 하이퍼파리미터 튜닝
- GridSearchCV
- 예측모델을 올바르게 사용 및 분포 확인
- 정보 누출(leakage)
- 상황에 맞는 검증 지표
6. XAI
(중요한 feature들은 어떻게 판별할까?)
- LightGBM
- 부스팅(Boosting)
- AdaBoost
- AdaBoost와 RandomgForest 의 차이는?
- Gradien Boosting
- AdaBoost
- XGBoost, LightGBM
- 부분의존도그림(Partial Dependence Plots(PDP)) - 관심있는 특성들이 타겟에 어떻게 영향을 주는지 쉽게 파악할 수 있다.
- PDPbox
- SHAP
'개발 관련자료 > ML, DL' 카테고리의 다른 글
경사하강법(gradient descent) (0) | 2021.06.16 |
---|---|
역전파(Backpropagation) 알고리즘 (0) | 2021.06.16 |
퍼셉트론(Perceptron) (0) | 2021.06.16 |
Bias와 Variance 개념 (0) | 2021.06.11 |
L1 regularization, L2 regularization 간단한 개념 (0) | 2021.06.11 |