Ridge regression과 Lasso regression 개념에 대해서 다뤄보려고 한다.
이는 선형회귀분석의 한계점을 보완하는 방법이다.
첫번째 그림을 보면 직선 방정식을 이용하여 선을 그었다. 데이터와 직선의 차이가 꽤 난다. 정확한 예측은 아닙니다. 이런 경우를 underfitted 또는 high bias 라고 합니다. bias가 큰 모델은 test data를 위한 학습이 덜 된 것이 원인이고, 이는 train data와 test data간의 차이가 너무 커서 train data로만 학습한 모델은 test data를 맞출수가 없는 것입니다
두번째 그림이 가장 좋은 모델이라고 말할 수 있습니다. 어느정도 데이터에 적합하면서 bias와 variance에 대해서도 적절합니다.
세번째 그림을 보면 현재 데이터로는 잘 맞겠지만 다른 데이터를 사용한다면 정확한 예측을 하지 못합니다. 이런 경우는 overfitting 또는 high variance 라고 합니다. variance가 큰 모델은 train data에 over-fitting된 것이 원인이고, 이는 너무 train data에 fitting된 모델을 만들어서 test data에서 오차가 발생한 것을 의미합니다.
위 그림을 보면 파란색 선은 overfitting 된 상태인데 직선으로 모델이 설정될 수 있게 해주는 작업을 해줘야 한다.
이 때 Ridge regression과 Lasso regression를 이용한다.
Ridge regression
-특성의 갯수를 줄이거나 모델을 단순한 모양으로 적합하는 것
-편향을 조금 더하고, 분산을 줄이는 방법으로 정규화(Regularization)를 수행한다. 여기서 말하는 정규화는 모델을 변형하여 과적합을 완화해 일반화 성능을 높여주기 위한 기법을 말한다.
-모델의 복잡도를 조정하는데 가중치를 0의 방향으로 잡아당기는 역할을 한다.
-alpha를 증가시킬수록 규제가 커져, 과대적합을 줄임 = 분산을 줄이고 편향은 커질 수 있음.
-가중치의 절댓값을 가능한 작게 만들려는 작업.
-l2 norm을 사용해 규제하여 각 parameter값을 규제함
Lasso regression
-정규화 선형회귀로 선형회귀 계수에 대한 제약조건을 추가하여 모델이 overfitting 되는 것을 막아줌
-feature를 감소시켜 구불구불한 곡선을 직선으로 펴주며 정규화한다.
-결국 중요한 feature만 쓴다는 것이다.
-l1 norm을 사용해 규제하여 각 parameter값을 규제함
참고
-https://blog.naver.com/qkrtncjf6435/222299725257
'개발 관련자료 > ML, DL' 카테고리의 다른 글
Bias와 Variance 개념 (0) | 2021.06.11 |
---|---|
L1 regularization, L2 regularization 간단한 개념 (0) | 2021.06.11 |
cross validation(교차검증) (0) | 2021.05.05 |
ROC Curve / AUC (0) | 2021.05.05 |
Confision Matrix (0) | 2021.05.05 |