Textbook : An Introduction to Statistical Learning
연습문제 풀이
1. 더 유연한 방법 vs. 덜 유연한 방법
(a) 표본의 크기가 크고 설명 변수의 수가 작은 것 -> 표본이 크므로 더 유연한 방법 사용
(b) 설명변수의 크기가 크고 관측치의 수가 작은 것 -> 표본이 작아서 덜 유연한 방법 사용
(c) 설명변수들과 반응 변수 사이의 상관관계가 비선형적 -> 비선형적 상관관계를 가지므로 더 유연한 방법 사용
(d) 오차항들의 분산이 높다 -> 덜 유연한 방법 사용. 유연한 방법은 분산을 더 높일 수 있다.
2. 분류 or 회귀? 추론 or 예측? n과 p는?
(a) 미국 내 상위 500개 회사 자료 - 각 회사 이익, 직원 수, 업종, CEO 연봉 포함. 어떤 요소가 CEO 연봉에 영향을 주는지? -> 회귀, 추론, n=500, p=3
(b) 새로운 제품이 성공할 것인지 실패할 것인지? 기 출시된 20개 제품 데이터 - 각 제품의 성공/실패, 판매 가격, 마케팅 예산, 경쟁사 가격, 10개의 다른 변수 포함 -> 분류, 예측, n=20, p=13
(c) 주식시장 주별 변동 관련 달러화의 %변화 예측? 2012년 전체 주별 데이터 - 각 주에 대한 달러의 %변화, 미국, 영국, 독일 시장의 각 %변화 -> 회귀, 예측, n=52, p=3
3. 편향-분산의 분해(Textbook 이미지 참조)
(a) left : Training MSE(gray curve), test MSE(red curve), minimum possible test MSE over all methods (dashed line).
right : Squared bias (blue curve), variance (orange curve), Var(∈), (dashed line), and test MSE (red curve)
-> 오른쪽 그래프를 왼쪽에 합쳐서 그리면 됨
(b)
1. (제곱)편향(squared bias) : 모델의 유연성(복잡도)가 증가함에 따라 작아진다.
2. 분산(variance) : 모델의 유연성(복잡도)가 증가함에 따라 커진다.
3. 훈련오차(training error) : 모델의 유연성이 증가할수록 관측된 데이터에 더 가깝게 적합하여 오차가 감소한다.(overfit)
4. 검정오차(test error) : bias+variance로, 모델의 유연성이 증가할수록 bias가 작아지면서 감소하다가 variance가 증가하기 시작하면서 오차가 증가하기 시작한다(overfit)
5. 베이즈(축소 불가능)오차 : X를 통하여 예측할수 없는 오차. f를 아무리 잘 추정하더라도 줄일 수 없는 오차로 줄일 수 없는 값으로 고정되어 있다.
4. 통계학습의 예시(chat gpt 참고)
(a) Classification(분류)
- 이메일 스팸 필터링
- 설명변수: 이메일의 텍스트 내용, 제목, 발신자 등의 정보
- 반응변수: 이메일이 스팸인지 여부 (0 또는 1, 예를 들어, 0은 스팸이 아니고 1은 스팸임)
- 목적: 예측
- 설명: 목적은 새로운 이메일이 스팸인지 아닌지를 예측하는 것입니다. 이메일의 특징을 분석하여 스팸 여부를 판단합니다.
- 의료 진단
- 설명변수: 환자의 의학적 특징 및 검사 결과
- 반응변수: 질병의 여부 (예를 들어, 양성 또는 음성)
- 목적: 추론
- 설명: 목적은 환자의 의료 데이터를 기반으로 질병을 진단하는 것입니다. 모델은 환자의 특징과 질병 간의 관계를 추론하여 진단을 수행합니다.
- 손글씨 숫자 분류
- 설명변수: 숫자 이미지의 픽셀 값
- 반응변수: 이미지에 나타난 숫자 (0부터 9까지)
- 목적: 예측
- 설명: 목적은 주어진 숫자 이미지에서 어떤 숫자가 나타나는지 예측하는 것입니다. 모델은 이미지의 픽셀 값을 기반으로 숫자를 분류합니다.
(b) Regression(회귀)
- 주택 가격 예측
- 설명변수: 주택의 특징 (면적, 위치, 방의 개수 등)
- 반응변수: 주택 가격 (연속적인 값)
- 목적: 예측
- 설명: 목적은 주어진 주택의 특징을 기반으로 주택의 가격을 예측하는 것입니다. 모델은 주택 특징과 가격 간의 관계를 학습하여 예측을 수행합니다.
- 주가 예측
- 설명변수: 과거 주가 데이터 및 관련 이벤트 정보
- 반응변수: 주식 가격 (연속적인 값)
- 목적: 예측
- 설명: 목적은 주식 가격의 향후 동향을 예측하는 것입니다. 모델은 과거 데이터와 이벤트 정보를 사용하여 주가를 예측합니다.
- 기온 예측
- 설명변수: 기상 데이터 (온도, 습도, 바람 속도 등)
- 반응변수: 미래 기온 (연속적인 값)
- 목적: 예측
- 설명: 목적은 주어진 기상 데이터를 기반으로 특정 시간에 미래 기온을 예측하는 것입니다. 모델은 기상 데이터와 기온 간의 관계를 학습하여 예측을 수행합니다.
(c) Clustering
- 고객 세분화
- 설명: 목적은 비슷한 특징을 가진 고객 그룹을 형성하여 고객 세분화를 수행하는 것입니다. 이를 통해 개별 고객 그룹의 특성을 추론합니다.
- 뉴스 기사 주제 분류
- 설명: 목적은 뉴스 기사를 주제별로 그룹화하여 어떤 주제가 어떤 비중으로 다루어지고 있는지를 추론하는 것입니다.
- 유전자 발현 데이터 분석
- 설명: 목적은 유전자 발현 데이터를 기반으로 유사한 생물학적 샘플을 그룹화하여 생물학적 특성을 추론하는 것입니다.
5. 유연한 방법 vs. 덜 유연한 방법
- 매우 유연한 방법(very flexible approach)의 장점과 단점 : 더 복잡하고 비선형 데이터에 잘 맞을 수 있고 편향을 줄일 수 있다. 추정해야 하는 파라미터 수가 증가하여 과적합을 초래할 수 있고 분산을 증가시킨다.
- 더 유연한 방법(more flexible approach) : 예측의 정확도에만 관심이 있고 예측 모델의 해석력에는 관심이 없을때 사용.
- 덜 유연한 방법(less flexible approach) : 추론이 목적이고 결과의 해석력이 중요할 때 사용.
6. 모수적 기법 vs. 비모수적 기법
- 모수적 기법(parametric approach) : f의 함수를 미리 가정하고 데이터를 학습하여 파라미터를 추정한다. 비모수적 기법에 비해 상대적으로 데이터가 덜 필요하고 관측 데이터가 없는 구간도 예측이 가능하지만 추정한 함수가 f의 실제 형태와 맞지 않으면 추정이 정확하지 않을 수 있다.
- 비모수적 기법(nonparametric approach) : f를 가정하지 않고 관측 데이터로 f를 추정한다. 더 넓은 범위의 f형태에 정확하게 적합될 가능성이 있다. 관측치의 빈 구간에 대해서 추정이 어려우므로 sparse한 dataset이나 차원이 큰 경우에 예측이 어렵다. 따라서 f에 대한 정확한 추정을 얻기 위해서는 모수적 기법에 비해 많은 수의 관측치가 필요하다.
7. K-nearest neighbors
(a)
관측치 1 : $$((0-0)^{2}+(0-3)^2+(0-0)^2)^{1/2}=3 $$
관측치 2 : $$((0-2)^{2}+(0-0)^2+(0-0)^2)^{1/2}=2$$
관측치 3 : $$((0-0)^{2}+(0-1)^2+(0-3)^2)^{1/2}=\sqrt{10}$$
관측치 4 : $$((0-2)^{2}+(0-1)^2+(0-2)^2)^{1/2}=\sqrt{5}$$
관측치 5 : $$((0+1)^{2}+(0-0)^2+(0-1)^2)^{1/2}=\sqrt{2}$$
관측치 6 : $$((0-1)^{2}+(0-1)^2+(0-1)^2)^{1/2}=\sqrt{3}$$
(b) K=1일때,
가장 가까운 관측치 1개 : 관측치 5와 가장 가까움 -> Green으로 예측
(c) K=3일때,
가장 가까운 관측치 3개 : 관측치 5, 6, 2 순서로 가까움 -> Green 1/3, Red 2/3의 확률 -> Red로 예측
(d) 베이즈 결정경계가 아주 비선형일때
-> 최적 K는 작다. K가 작을수록 더 유연하고 비선형 분류에 적합한 분류기가 된다.
'Machine Learning' 카테고리의 다른 글
Chapter 4. Classification(분류) (1) | 2023.08.28 |
---|---|
Chapter 3. Linear regression (0) | 2023.08.27 |
Classification model 사용하기(Python) (0) | 2023.08.16 |
Machine Learning 참고서적 (0) | 2023.08.15 |
Machine Learning이란? (0) | 2023.08.01 |