Textbook : An Introduction to Statistical Learning
Subset Selection
Best Subset Selection
- p개 설명변수의 모든 가능한 조합 각각에 대해 \(2^p\)개의 모든 모델을 적합하여 최고의 모델을 찾는다.
Forward stepwise selection
- 설명변수가 0개인 모델에서 시작해 모든 설명변수가 모델에 포함될 때까지 한번에 하나씩 설명변수를 추가한다.
- 1개의 0모델과 k번의 iteration에서 p-k개의 모델을 적합한다. 적합 모델 수는 \(1+p(p+1)/2\)개이다.
- best selection model에 비해 계산적 장점이 있지만 모든 \(2^p\)개 모델 중 가능한 최고의 모델을 찾는다는 보장은 없다.
Backward stepwise selection
- 설명변수 p개를 모두 포함하는 모델에서 시작해 한번에 하나씩 유용성이 가장 적은 설명변수를 제외한다.
- forward stepwise selection과 같이 \(1+p(p+1)/2\)개의 모델만 검색하며 가능한 최고의 모델을 찾는다는 보장은 없다.
Shrinkage
Ridge Regression
- RSS에 shrinkage penalty를 추가한 식을 최소로 한다.
- 두번째 항은 계수가 0에 가까울 때 작고 계수의 추정치를 0으로 수축하는 효과가 있다.
- tuning parameter \(\lambda\)는 두 항의 상대적인 영향을 제어한다.(\(\lambda=0\)일 때는 penalty항의 영향이 없고 (\(\lambda=\infty \)에 따라 penalty항의 영향이 커진다.
$$RSS+\lambda\sum_{j=1}^{p}\beta_j^2=\sum_{i=1}^{n}\left ( y_i-\beta_0-\sum_{j=1}^{p}\beta_jx_{ij} \right )^2+\lambda\sum_{j=1}^{p}\beta_j^2$$
The Lasso
- Ridge regression은 subset selection과 달리 최종 모델에 p개 설명변수 모두를 포함한다.
- lasso는 이런 단점을 극복해서 penalty를 \(|\beta_j|\)로 대체해 계수 추정치의 일부를 정확히 0이 되게 한다.
$$RSS+\lambda\sum_{j=1}^{p}|\beta_j|=\sum_{i=1}^{n}\left ( y_i-\beta_0-\sum_{j=1}^{p}\beta_jx_{ij} \right )^2+\lambda\sum_{j=1}^{p}|\beta_j|$$
Dimension Reduction Methods(차원 축소)
Principal Components Analysis(PCA, 주성분분석)
- nxp 데이터 행렬 X의 차원을 줄이는 기법 : 데이터에서 변동이 가장 큰 방향(분산)을 첫 번째 주성분으로 하여 처음 M개의 주성분을 구한다.
Partial Least Squares
- PCR처럼 차원 축소 방법이며 PCR과 달리 새로운 변수들을 지도식 방식(supervised way)으로 찾는다.
연습문제 풀이
1. subset selection 각 기법에 대해 0~p개의 설명변수를 포함하는 p+1개의 모델을 얻는다.
(a) k개의 설명변수를 갖는 세 모델 중 어떤 것이 가장 작은 훈련 RSS를 가지는가?
→ Best subset selection. 나머지 2개 모델은 모든 경우의 모델에 대해 확인할 수 없음.
(b) k개의 설명변수를 갖는 세 모델 중 어떤 것이 가장 작은 검정 RSS를 가지는가?
→ Best subset selection. 나머지 2개 모델은 모든 경우의 모델에 대해 확인할 수 없음.
(c)
1. T,T, F, F, F
2. True or False
(a) 3 : parameter수가 줄어드므로 유연성이 낮음. 편향 증가에 취약하므로 편향 증가가 분산 감소보다 작을 경우 정확도 향상.
(b) 3
(c) 2
3. s가 증가-> 회귀계수가 증가함 -> 모델 복잡도가 높아짐
(a) 4
(b) 2
(c) 3
(d) 4
(e) 5
4. ridge regression에서 \(\lambda\)를 0에서부터 증가시킴 -> 모델 복잡도가 낮아짐
(a) 훈련 RSS : 3
(b) 검정 RSS : 2
(c) 분산 : 4
(d) 편향 : 3
(e) 5
5.
Ridge : Minimize $\sum_{i=1}^{n}(y_i-\hat{y_i})^2+\lambda\sum_{j=1}^{p}\hat{\beta_j}^2$
Lasso : Minimize $\sum_{i=1}^{n}(y_i-\hat{y_i})^2+\lambda\sum_{j=1}^{p}|\hat{\beta_j}|$
$n=2, p=2, x_{11}=x_{12}, x_{21}=x_{22}, y_1+y_2=0, x_{11}+x_{21}=0, x_{12}+x_{22}=0, \hat{\beta_0}=0$
(a) ridge regression optimization problem
→
$$\hat{y_i}=\hat{\beta_{0}}+\hat{\beta_{1}}x_{i1}+\hat{\beta_{2}}x_{i2}$$
Minimize $(y_1-\hat{\beta_{1}}x_{11}-\hat{\beta_{2}}x_{12})^2+(y_2-\hat{\beta_{1}}x_{21}-\hat{\beta_{2}}x_{22})^2+\lambda(\hat{\beta_1}^2+\hat{\beta_2}^2)$
(c) lasso optimization
→Minimize $(y_1-\hat{\beta_{1}}x_{11}-\hat{\beta_{2}}x_{12})+(y_2-\hat{\beta_{1}}x_{21}-\hat{\beta_{2}}x_{22})+\lambda(|\hat{\beta_1}|+|\hat{\beta_2}|)$
'Machine Learning' 카테고리의 다른 글
Chapter 9. Support Vector Machine (1) | 2023.08.31 |
---|---|
Chapter 7. Moving Beyond Linearity (1) | 2023.08.29 |
Chapter 5. Resampling Methods(재표본추출 방법) (0) | 2023.08.28 |
Chapter 4. Classification(분류) (1) | 2023.08.28 |
Chapter 3. Linear regression (0) | 2023.08.27 |