Chapter 6. Linear Model Selection and Regularization

Textbook : An Introduction to Statistical Learning

Subset Selection

Best Subset Selection

p개 설명변수의 모든 가능한 조합 각각에 대해 $2^p$개의 모든 모델을 적합하여 최고의 모델을 찾는다.

Forward stepwise selection

설명변수가 0개인 모델에서 시작해 모든 설명변수가 모델에 포함될 때까지 한번에 하나씩 설명변수를 추가한다.
1개의 0모델과 k번의 iteration에서 p-k개의 모델을 적합한다. 적합 모델 수는 $1+p(p+1)/2$개이다.
best selection model에 비해 계산적 장점이 있지만 모든 $2^p$개 모델 중 가능한 최고의 모델을 찾는다는 보장은 없다.

Backward stepwise selection

설명변수 p개를 모두 포함하는 모델에서 시작해 한번에 하나씩 유용성이 가장 적은 설명변수를 제외한다.
forward stepwise selection과 같이 $1+p(p+1)/2$개의 모델만 검색하며 가능한 최고의 모델을 찾는다는 보장은 없다.

Shrinkage

Ridge Regression

RSS에 shrinkage penalty를 추가한 식을 최소로 한다.
두번째 항은 계수가 0에 가까울 때 작고 계수의 추정치를 0으로 수축하는 효과가 있다.
tuning parameter $\lambda$는 두 항의 상대적인 영향을 제어한다.($\lambda=0$일 때는 penalty항의 영향이 없고 ($\lambda=\infty $에 따라 penalty항의 영향이 커진다.

$$RSS+\lambda\sum_{j=1}^{p}\beta_j^2=\sum_{i=1}^{n}\left ( y_i-\beta_0-\sum_{j=1}^{p}\beta_jx_{ij} \right )^2+\lambda\sum_{j=1}^{p}\beta_j^2$$

The Lasso

Ridge regression은 subset selection과 달리 최종 모델에 p개 설명변수 모두를 포함한다.
lasso는 이런 단점을 극복해서 penalty를 $|\beta_j|$로 대체해 계수 추정치의 일부를 정확히 0이 되게 한다.

$$RSS+\lambda\sum_{j=1}^{p}|\beta_j|=\sum_{i=1}^{n}\left ( y_i-\beta_0-\sum_{j=1}^{p}\beta_jx_{ij} \right )^2+\lambda\sum_{j=1}^{p}|\beta_j|$$

Dimension Reduction Methods(차원 축소)

Principal Components Analysis(PCA, 주성분분석)

nxp 데이터 행렬 X의 차원을 줄이는 기법 : 데이터에서 변동이 가장 큰 방향(분산)을 첫 번째 주성분으로 하여 처음 M개의 주성분을 구한다.

Partial Least Squares

PCR처럼 차원 축소 방법이며 PCR과 달리 새로운 변수들을 지도식 방식(supervised way)으로 찾는다.

연습문제 풀이

1. subset selection 각 기법에 대해 0~p개의 설명변수를 포함하는 p+1개의 모델을 얻는다.

(a) k개의 설명변수를 갖는 세 모델 중 어떤 것이 가장 작은 훈련 RSS를 가지는가?

→ Best subset selection. 나머지 2개 모델은 모든 경우의 모델에 대해 확인할 수 없음.

(b) k개의 설명변수를 갖는 세 모델 중 어떤 것이 가장 작은 검정 RSS를 가지는가?

→ Best subset selection. 나머지 2개 모델은 모든 경우의 모델에 대해 확인할 수 없음.

(c)

1. T,T, F, F, F

2. True or False

(a) 3 : parameter수가 줄어드므로 유연성이 낮음. 편향 증가에 취약하므로 편향 증가가 분산 감소보다 작을 경우 정확도 향상.

(b) 3

3. s가 증가-> 회귀계수가 증가함 -> 모델 복잡도가 높아짐

(a) 4

(b) 2

(d) 4

(e) 5

4. ridge regression에서 $\lambda$를 0에서부터 증가시킴 -> 모델 복잡도가 낮아짐

(a) 훈련 RSS : 3

(b) 검정 RSS : 2

(d) 편향 : 3

(e) 5

Ridge : Minimize $\sum_{i=1}^{n}(y_i-\hat{y_i})^2+\lambda\sum_{j=1}^{p}\hat{\beta_j}^2$

Lasso : Minimize $\sum_{i=1}^{n}(y_i-\hat{y_i})^2+\lambda\sum_{j=1}^{p}|\hat{\beta_j}|$

$n=2, p=2, x_{11}=x_{12}, x_{21}=x_{22}, y_1+y_2=0, x_{11}+x_{21}=0, x_{12}+x_{22}=0, \hat{\beta_0}=0$

(a) ridge regression optimization problem

→

$$\hat{y_i}=\hat{\beta_{0}}+\hat{\beta_{1}}x_{i1}+\hat{\beta_{2}}x_{i2}$$

Minimize $(y_1-\hat{\beta_{1}}x_{11}-\hat{\beta_{2}}x_{12})^2+(y_2-\hat{\beta_{1}}x_{21}-\hat{\beta_{2}}x_{22})^2+\lambda(\hat{\beta_1}^2+\hat{\beta_2}^2)$

→Minimize $(y_1-\hat{\beta_{1}}x_{11}-\hat{\beta_{2}}x_{12})+(y_2-\hat{\beta_{1}}x_{21}-\hat{\beta_{2}}x_{22})+\lambda(|\hat{\beta_1}|+|\hat{\beta_2}|)$

'Machine Learning' 카테고리의 다른 글

Chapter 9. Support Vector Machine (1)	2023.08.31
Chapter 7. Moving Beyond Linearity (1)	2023.08.29
Chapter 5. Resampling Methods(재표본추출 방법) (0)	2023.08.28
Chapter 4. Classification(분류) (1)	2023.08.28
Chapter 3. Linear regression (0)	2023.08.27

세상의 모든 미로 찾기

Chapter 6. Linear Model Selection and Regularization

Textbook : An Introduction to Statistical Learning

Subset Selection

Shrinkage

Dimension Reduction Methods(차원 축소)

연습문제 풀이

'Machine Learning' 카테고리의 다른 글

티스토리툴바

티스토리툴바

Chapter 6. Linear Model Selection and Regularization

Textbook : An Introduction to Statistical Learning

Subset Selection

Shrinkage

Dimension Reduction Methods(차원 축소)

연습문제 풀이

'Machine Learning' 카테고리의 다른 글

관련글

티스토리툴바

티스토리툴바