Ridge regression과 Lasso regression 개념에 대해서 다뤄보려고 한다.

이는 선형회귀분석의 한계점을 보완하는 방법이다.

 

 

첫번째 그림을 보면 직선 방정식을 이용하여 선을 그었다. 데이터와 직선의 차이가 꽤 난다. 정확한 예측은 아닙니다. 이런 경우를 underfitted 또는 high bias 라고 합니다. bias가 큰 모델은 test data를 위한 학습이 덜 된 것이 원인이고, 이는 train data와 test data간의 차이가 너무 커서 train data로만 학습한 모델은 test data를 맞출수가 없는 것입니다

 

두번째 그림이 가장 좋은 모델이라고 말할 수 있습니다. 어느정도 데이터에 적합하면서 bias와 variance에 대해서도 적절합니다.

 

세번째 그림을 보면 현재 데이터로는 잘 맞겠지만 다른 데이터를 사용한다면 정확한 예측을 하지 못합니다. 이런 경우는 overfitting 또는 high variance 라고 합니다. variance가 큰 모델은 train data에 over-fitting된 것이 원인이고, 이는 너무 train data에 fitting된 모델을 만들어서 test data에서 오차가 발생한 것을 의미합니다.

 

 

위 그림을 보면 파란색 선은 overfitting 된 상태인데 직선으로 모델이 설정될 수 있게 해주는 작업을 해줘야 한다.

이 때 Ridge regression과 Lasso regression를 이용한다.

 

 

 

Ridge regression

Ridge regression

-특성의 갯수를 줄이거나 모델을 단순한 모양으로 적합하는 것

-편향을 조금 더하고, 분산을 줄이는 방법으로 정규화(Regularization)를 수행한다. 여기서 말하는 정규화는 모델을 변형하여 과적합을 완화해 일반화 성능을 높여주기 위한 기법을 말한다.

-모델의 복잡도를 조정하는데 가중치를 0의 방향으로 잡아당기는 역할을 한다. 

-alpha를 증가시킬수록 규제가 커져, 과대적합을 줄임 = 분산을 줄이고 편향은 커질 수 있음.

-가중치의 절댓값을 가능한 작게 만들려는 작업.

-l2 norm을 사용해 규제하여 각 parameter값을 규제함

 

 

 

 

Lasso regression

Lasso regression

-정규화 선형회귀로 선형회귀 계수에 대한 제약조건을 추가하여 모델이 overfitting 되는 것을 막아줌

-feature를 감소시켜 구불구불한 곡선을 직선으로 펴주며 정규화한다.

-결국 중요한 feature만 쓴다는 것이다.

-l1 norm을 사용해 규제하여 각 parameter값을 규제함

 

 

참고

-https://rk1993.tistory.com/entry/Ridge-regression%EC%99%80-Lasso-regression-%EC%89%BD%EA%B2%8C-%EC%9D%B4%ED%95%B4%ED%95%98%EA%B8%B0

-https://blog.naver.com/qkrtncjf6435/222299725257

 

Regression - Elastic Net, L1(Lasso), L2(Ridge)

이전에 직무 스터디 활동으로 R을 활용한 대학원 합격률 예측 최적 모델을 적용하는 분석을 했다. 해당 분...

blog.naver.com

 

'개발 관련자료 > ML, DL' 카테고리의 다른 글

Bias와 Variance 개념  (0) 2021.06.11
L1 regularization, L2 regularization 간단한 개념  (0) 2021.06.11
cross validation(교차검증)  (0) 2021.05.05
ROC Curve / AUC  (0) 2021.05.05
Confision Matrix  (0) 2021.05.05

+ Recent posts