-
[통계] 회귀분석 기본 개념 - 상관분석Data Analysis/Statistics 2023. 1. 6. 09:32반응형
회귀분석이란?
반응변수가 설명변수들에 의해 어떻게 설명(예측)되는지를 알아보기 위해
그 관계를 적절한 함수식으로 표현하여 분석하는 통계적 자료분석 방법입니다.
$Y\ =\ f\left({X}_1,{X}_2,\cdot \cdot \cdot ,{X}_p\right)\ + \varepsilon $
Y를 반응변수 또는 종속변수라고 하고,
X를 설명변수 또는 예측변수라고 합니다.
상관분석이란?
두 변수간의 상관성(직선적인 관계)이 있는지를 파악하는것
두 변수간의 상관성은 상관 계수로 판단합니다.
상관계수의 종류
상관계수의 종류는 여러가지가 있지만, 가장 많이 쓰이는 두가지는 다음과 같습니다.
■ Pearson (피어슨 상관계수)
상관분석에서 가장 흔히 사용되는 상관계수입니다. 연속형 변수와 연속형 변수간의 선형관계를 확인할 때 사용됩니다.
피어슨 상관계수는 두 변수가 모두 정규성을 따른다는 가정이 꼭 필요합니다.
이것을 모수적 방법이라고 합니다.
■ Spearman Rank (스피어만 순위 상관계수)
두 변수가 정규성을 따르지 않을때 사용되는 방법입니다.
스피어만 순위 상관계수는 순위를 이용하기 때문에 비모수적 방법이며 연속형 변수뿐만 아니라 순위형 변수에도 적용 가능합니다.
피어슨 상관계수 값의 범위
$-1\ \le Cor\left(Y\ ,\ X\right)\le \ 1$
상관계수 부호
상관계수의 부호는 증감의 방향성을 나타냅니다.
즉, 상관계수의 부호가 양수이면 양의 상관관계를 가지고,
상관계수의 부호가 음수이면 음의 상관관계를 가집니다.
상관계수 크기
상관계수의 절대값의 크기는 직선의 주변에 어느정도 집중되어 있는지를 나타냅니다.
즉, 상관계수 절대값이 클수록 높은 상관관계를 가지고
상관계수 절대값이 작을수록 약한 상관관계를 가집니다.
피어슨 상관계수 해석
상관계수의 절대값이 0.4 이상이면 상관성이 있다고 판단하고, 0.7이상 부터는 강한 상관관계가 있다고 판단합니다.
상관분석 진행하는 R코드는 아래 링크를 참고해주세요.
https://summerindata.tistory.com/12
[R] 회귀분석 실습 - 상관분석
상관분석 개념에 대해 알고싶다면 이전 포스팅을 참고해 주세요. https://summerindata.tistory.com/11 [통계] 회귀분석 기본 개념 - 상관분석 회귀분석이란? 반응변수가 설명변수들에 의해 어떻게 설명(예
summerindata.tistory.com
반응형'Data Analysis > Statistics' 카테고리의 다른 글
[통계] 회귀분석 기본 개념 - 단순회귀분석 (Simple Linear Regression) (0) 2023.01.10 [통계] 정규모집단에서 모평균에 대한 양측검정 (1) 2022.12.21 [통계] 가설검정의 기본 개념 (0) 2022.12.19