Loading [MathJax]/jax/output/HTML-CSS/jax.js

ABOUT ME

Today
Yesterday
Total
  • [통계] 회귀분석 기본 개념 - 단순회귀분석 (Simple Linear Regression)
    Data Analysis/Statistics 2023. 1. 10. 10:16
    반응형
    단순선형회귀모형

     

    Y=β0+β1X+ε,ϵi iid N(0, σ2)

     

    절편 ( β0 ) : X = 0일때 Y의 평균값

    기울기 ( β1 ) ​ : X의 한 단위 변화에 대한 Y의 변화량

     

    오차(error)는 우연성(randomness)을 가집니다.

    같은 일을 수행해도 그때마다 생기는 차이가 존재하기 때문입니다.

     

    단순선형회귀모형 : 가정

     

     

    단순선형회귀모형에서는 4가지의 가정을 만족해야합니다.

    (1) 선형성 : 종속변수와 독립변수간에 선형적 특성을 보인다는 가정

    (2) 정규성 : 잔차가 평균을 중심으로 정규분포의 형태로 흩어져있다는 가정

    (3) 독립성 : 관찰값들이 서로 독립이라는 가정

    x가 같은 값으로 100개의 값이 있다고 하면 x가 같을 뿐이지 y가 어떤 값을 갖는데 서로 영향을 주지 않는다.

    ex) 178로 동일한 여러 아버지의 아들의 키가 특정값으로 동일하지 않음

    (4) 등분산성 : 잔차가 등분산성을 띈다는 가정

    x가 주어졌을 때 y 가 정규분포를 따름 정규분포의 흩어진 정도(분산)가 모두 동일하다.

    x값이 커지면 분산이 커지는 경우가 있는데, 등분산성은 x값에 관계없이 분산이 모두 동일하다고 가정한다.

     

    회귀모수를 추정하는 수식은 생략하고 다음 포스팅에서 R로 회귀식을 추정해 보도록 하겠습니다.

    회귀모수를 추정했다고 가정하고 가설검정을 진행해보겠습니다.

     

    회귀모수에 대한 가설검정

     

    Y=β0 + β1X + ε,   εiiid  N(0,σ2)

     

     

    β0, β1은 상수인가?

    β0β1를 상수라고 생각할수 있는데 아닙니다.

     

    <이유>

    β0β1값은 특정한 데이터로 부터 나온 추정량입니다.

    표본이 랜덤샘플로 부터 추정된 값들이기 때문에 randomness가 이 추정값에 반영이 됩니다.

    쉽게 말해, 표본에 어떤 데이터가 들어갔는지에 따라 추정값이 변한다는 말입니다.

    즉, 추정값이 상수이지만 데이터에 의존하고,

    이 데이터의 불확실성 (randomness)이 데이터에 반영이 되어서 확률변수가 됩니다.

     

    회귀모수에 대한 가설검정을 하는 이유를 알아봤으니, 가설 검정을 해보도록 하겠습니다.

     
    H0:β1=β1 vs H1:β1β1

     

     

    검정통계량

     
    t1 = ^β1β1var(^β1)   t(n2)
     
    |t1|tα/2(n2),H0

     

    예측변수 X는 반응변수 Y에 대하여 통계적으로 유의한 예측변수임을 알 수 있게 됩니다.

    β0도 같은 방법을 가설검정을 진행하면 됩니다.

     


     

    내가 추정한 직선식이 얼마나 의미있는지를 알아봐야겠죠?

    적합성을 측정하는데는 분산분석, 결정계수 이 두가지 방법이 있습니다.

     

     

    분산분석 (ANOVA)

     

    SST = SSE + SSR     ni=1(yi¯y)2 =  ni=1(yi^yi)2 +  ni=1(^yi¯y)2

     

    [분산분석표]

     

    위 식에서 SSR이 클수록 추정한 직선식이 의미있다고 할 수 있습니다.

    식을 보면 SSE는 n개의 항의 합으로 이루어져 있기 때문에 더하는 항의 개수가 많을수록 값이 커질 것입니다.

    항의 개수가 많아서 값이 큰건지 원래 큰 값을 갖는건지 확인하기 위해

    자유도(항의 개수)로 조정한 값을 MS (MSR, MSE)에 해당됩니다.

     

     

    [가설검정]

     
    H0:β1=0 vs H1:β10

     

    MSR이 MSE 대비해서 얼마나 큰지 그 상대적인 값을 가지고 β0 = 0 인지에 대한 가설 검정을 합니다.

     

     

    결정계수(R-squared)

     

    결정계수는 적합성을 측정하기 위한 또 다른 방법입니다.

    결정계수를 구하는 공식은 다음과 같습니다.

     

     

    R2 = SSRSST = 1SSESST

     

     

    설명변수 X가 Y를 설명하는데 유용하다 = X가 Y와 직선적인 관계가 있다

    = β1이 0이 아니다 = SSR값이 전체에서 차지하는 비중이 커진다

    즉, SSR이 클수록 R-squared 값이 커지게 되므로 추정한 회귀식이 적합하다고 할 수 있게 됩니다.

    그런데, 결정계수 또한 설명변수를 많이 사용할 수록 커지게 됩니다.

     

     
    설명변수, 많이 사용할수록 좋을까?

    (1) 변수를 많이 쓰면 모형이 복잡해지고 해석하기도 어려워집니다.

    -> 변수선택 필요

    (2) 다중공선성 문제도 발생됩니다.

     

     

     

     

    수정된 결정계수 (Adjusted R-squared)
     
     
    R2adj = 1  (1R2)(n1)np1

     

    다시 본론으로 돌아와서, 설명변수를 많이 쓸수록 결정계수 값은 항상 커집니다.

    그래서 변수의 개수에 대한 패널티를 준것수정된 결정계수입니다.

    식을 잘 살펴보면 p값이 클수록 Adjusted R-squared 값은 작아짐을 알 수 있습니다.

    R로 단순회귀분석 해보기

    https://summerindata.tistory.com/15

     

    [R] 단순회귀분석 (Simple Linear Regression) 실습

    단순선형회귀분석 개념은 아래 링크를 참고해주세요. https://summerindata.tistory.com/14 [통계] 회귀분석 기본 개념 - 단순회귀분석 (Simple Linear Regression) 단순선형회귀모형 $Y=\beta _{0} +\beta _{1}X + \varepsilo

    summerindata.tistory.com

     

    반응형

    댓글

Designed by Tistory.