본문 바로가기
Machine Learning

Chapter 6. Linear Model Selection and Regularization

by Mi.Ro 2023. 8. 29.

Textbook : An Introduction to Statistical Learning

Subset Selection

Best Subset Selection

  • p개 설명변수의 모든 가능한 조합 각각에 대해 \(2^p\)개의 모든 모델을 적합하여 최고의 모델을 찾는다.

Forward stepwise selection

  • 설명변수가 0개인 모델에서 시작해 모든 설명변수가 모델에 포함될 때까지 한번에 하나씩 설명변수를 추가한다.
  • 1개의 0모델과 k번의 iteration에서 p-k개의 모델을 적합한다. 적합 모델 수는 \(1+p(p+1)/2\)개이다.
  • best selection model에 비해 계산적 장점이 있지만 모든 \(2^p\)개 모델 중 가능한 최고의 모델을 찾는다는 보장은 없다.

Backward stepwise selection

  • 설명변수 p개를 모두 포함하는 모델에서 시작해 한번에 하나씩 유용성이 가장 적은 설명변수를 제외한다.
  • forward stepwise selection과 같이  \(1+p(p+1)/2\)개의 모델만 검색하며 가능한 최고의 모델을 찾는다는 보장은 없다.

 

Shrinkage

Ridge Regression

  • RSS에 shrinkage penalty를 추가한 식을 최소로 한다.
  • 두번째 항은 계수가 0에 가까울 때 작고 계수의 추정치를 0으로 수축하는 효과가 있다.
  • tuning parameter \(\lambda\)는 두 항의 상대적인 영향을 제어한다.(\(\lambda=0\)일 때는 penalty항의 영향이 없고 (\(\lambda=\infty \)에 따라 penalty항의 영향이 커진다.

$$RSS+\lambda\sum_{j=1}^{p}\beta_j^2=\sum_{i=1}^{n}\left ( y_i-\beta_0-\sum_{j=1}^{p}\beta_jx_{ij} \right )^2+\lambda\sum_{j=1}^{p}\beta_j^2$$

 

The Lasso

  • Ridge regression은 subset selection과 달리 최종 모델에 p개 설명변수 모두를 포함한다. 
  • lasso는 이런 단점을 극복해서 penalty를 \(|\beta_j|\)로 대체해 계수 추정치의 일부를 정확히 0이 되게 한다.

$$RSS+\lambda\sum_{j=1}^{p}|\beta_j|=\sum_{i=1}^{n}\left ( y_i-\beta_0-\sum_{j=1}^{p}\beta_jx_{ij} \right )^2+\lambda\sum_{j=1}^{p}|\beta_j|$$

 

Dimension Reduction Methods(차원 축소)

Principal Components Analysis(PCA, 주성분분석)

  • nxp 데이터 행렬 X의 차원을 줄이는 기법 : 데이터에서 변동이 가장 큰 방향(분산)을 첫 번째 주성분으로 하여 처음 M개의 주성분을 구한다.

Partial Least Squares

  • PCR처럼 차원 축소 방법이며 PCR과 달리 새로운 변수들을 지도식 방식(supervised way)으로 찾는다.

 

연습문제 풀이

1. subset selection 각 기법에 대해 0~p개의 설명변수를 포함하는 p+1개의 모델을 얻는다.

(a) k개의 설명변수를 갖는 세 모델 중 어떤 것이 가장 작은 훈련 RSS를 가지는가?

→ Best subset selection. 나머지 2개 모델은 모든 경우의 모델에 대해 확인할 수 없음.

(b) k개의 설명변수를 갖는 세 모델 중 어떤 것이 가장 작은 검정 RSS를 가지는가?

→ Best subset selection. 나머지 2개 모델은 모든 경우의 모델에 대해 확인할 수 없음.

(c)

1. T,T, F, F, F

 

2. True or False

(a) 3 : parameter수가 줄어드므로 유연성이 낮음. 편향 증가에 취약하므로 편향 증가가 분산 감소보다 작을 경우 정확도 향상.

(b) 3

(c) 2

 

3. s가 증가-> 회귀계수가 증가함 -> 모델 복잡도가 높아짐

(a) 4

(b) 2

(c) 3

(d) 4

(e) 5

 

4. ridge regression에서 \(\lambda\)를 0에서부터 증가시킴 -> 모델 복잡도가 낮아짐

(a) 훈련 RSS : 3

(b) 검정 RSS : 2

(c) 분산 : 4

(d) 편향 : 3

(e) 5

 

5. 

Ridge : Minimize $\sum_{i=1}^{n}(y_i-\hat{y_i})^2+\lambda\sum_{j=1}^{p}\hat{\beta_j}^2$

Lasso : Minimize $\sum_{i=1}^{n}(y_i-\hat{y_i})^2+\lambda\sum_{j=1}^{p}|\hat{\beta_j}|$

$n=2, p=2, x_{11}=x_{12}, x_{21}=x_{22}, y_1+y_2=0, x_{11}+x_{21}=0, x_{12}+x_{22}=0, \hat{\beta_0}=0$

 

(a) ridge regression optimization problem

$$\hat{y_i}=\hat{\beta_{0}}+\hat{\beta_{1}}x_{i1}+\hat{\beta_{2}}x_{i2}$$

Minimize $(y_1-\hat{\beta_{1}}x_{11}-\hat{\beta_{2}}x_{12})^2+(y_2-\hat{\beta_{1}}x_{21}-\hat{\beta_{2}}x_{22})^2+\lambda(\hat{\beta_1}^2+\hat{\beta_2}^2)$

 

(c) lasso optimization

Minimize $(y_1-\hat{\beta_{1}}x_{11}-\hat{\beta_{2}}x_{12})+(y_2-\hat{\beta_{1}}x_{21}-\hat{\beta_{2}}x_{22})+\lambda(|\hat{\beta_1}|+|\hat{\beta_2}|)$