경영지도사/마케팅 조사

통계 분석 기법들 - 중급 통계

쎄마비 2021. 6. 20. 21:11
728x90
반응형

 

  1. 카이제곱 독립성 검정: 명목 척도로 수집된 두 변수의 관계를 조사하는 것.

    검정 순서는 일반적인 가설 검정 단계와 동일하다.
    1. 가설과 유의 수준 결정: 카이제곱 분포는 항상 단측 검정으로 유의 수준을 양 옆으로 나누는 경우는 없다.
      1. 귀무가설: 두 변수는 서로 독립적이다.
      2. 대립가설: 두 변수는 서로 독립적이지 않다. 
    2. 검정 통계량 결정: 명목 척도로 수집된 두 변수의 관계를 조사할 때 카이제곱 독립성 검정을 사용한다. 교차분석표가 제시되는 경우에도 카이제곱 독립성 검정을 사용하는 것으로 우선 생각해봐야 한다.
      1. 교차분석표: 두 가지 기준으로 측정된 값들의 실측값과 기댓값의 빈도를 나타낸 표
      2. 관찰빈도: 실제로 관측된 값
      3. 기대빈도: 두 변수의 관계가 독립적인 경우 기대되는 값
      4. 기대빈도 계산 공식: 해당 행의 관찰빈도*해당 열의 관찰빈도/전체 표본의 크기
    3. 기각역 결정: 카이제곱 독립성 검정 시 자유도는 (행의 수-1)*(열의 수-1)이다.
    4. 검정 통계량 계산: {(각 셀의 관찰빈도-기대빈도)²/기대빈도}의 총합
    5. 통계적 의사결정: 검정 통계량과 기각역을 비교하여 판단한다.

  2. 카이제곱 적합성 검정: 명목 척도로 수집된 데이터가 연구자가 가정한 분포를 따르는지 조사하는 것.

    검정 순서는 일반적인 가설 검정 단계와 동일하다.
    1. 가설과 유의 수준 결정: 카이제곱 분포는 항상 단측 검정으로 유의 수준을 양 옆으로 나누는 경우는 없다.
      1. 귀무가설: 관측 빈도는 예측 빈도와 동일하다.
      2. 대립가설: 관측 빈도는 예측 빈도와 다르다.
    2. 검정 통계량 결정: 명목 척도로 수집된 데이터가 연구자가 가정한 분포를 따르는지 조사할 때 카이제곱 적합성 검정을 사용한다.
    3. 기각역 결정: 카이제곱 적합성 검정 시 자유도는 셀의 수-1이다.
    4. 검정 통계량 계산: {(각 셀의 관찰빈도-기대빈도)²/기대빈도}의 총합
    5. 통계적 의사결정: 검정 통계량과 기각역을 비교하여 판단한다.

  3. 분산분석: 1) 각 모집단이 정규 분포를 이루며 2) 분산이 같다는 가정 하에 둘 이상 집단의 평균값을 비교하는 것.

    연구자의 처치에 따라 여러 집단의 값이 차이를 보였는가를 확인하는 용도로 사용되며 검정 통계량으로는 집단 간 분산을 집단 내 분산으로 나눈 F 값을 사용한다.
    1. 일원분산분석: 처치 변수가 하나인 분산분석
      1. 가설과 유의 수준 결정: F 분포는 항상 단측 검정으로 유의 수준을 양 옆으로 나누는 경우는 없다.
        1. 귀무가설: 각 집단의 평균은 차이가 없다.
        2. 대립가설: 모든 집단의 평균이 같지는 않다.(최소한 한 집단의 평균은 다른 집단과 다르다.)
      2. 검정 통계량 결정: 1) 각 모집단이 정규 분포를 이루며 2) 분산이 같을 때 둘 이상 집단의 평균값을 비교하기 위해 분산분석을 사용하며 검정 통계량은 F 값을 사용한다.
      3. 기각역 결정: F 분포표 활용을 위해 자유도는 2가지가 필요하며 각각 처치의 수-1, 관측값의 개수-처치의 수이다.
      4. 검정 통계량 계산
        1. F=집단 간 분산/집단 내 분산이다.
          1. 집단 간 분산=집단 간 차이의 제곱합/자유도
            1. 집단 간 차이의 제곱합=(집단 평균과 전체 평균 차이의 제곱)*해당 집단의 값의 수의 총합
            2. 집단 간 자유도=처치의 수-1
          2. 집단 내 분산=집단 내 차이의 제곱합/자유도
            1. 집단 내 차이의 제곱합=개별 값과 해당 집단의 평균 차이의 제곱의 총합
            2. 집단 내 차이의 자유도=값의 개수-처치의 수
      5. 통계적 의사결정: 검정 통계량과 기각역을 비교하여 판단한다.


    2. 이원분산분석: 처치 변수가 두 가지인 분산분석 
      1. 랜덤 디자인: 처치 변수가 두 가지이므로 관련 과정이 각각 진행된다. 또 집단 내 자유도 차이에 주의한다.
        1. 가설과 유의 수준 결정: F 분포는 항상 단측 검정으로 유의 수준을 양 옆으로 나누는 경우는 없다.
          1. 처치 변수에 따라 가설도 별개로 설정된다.
            1. 1번 처치 변수에 대한 가설
              1. 귀무가설: 1번 처치 변수가 달라도 각 집단의 평균은 차이가 없다.
              2. 대립가설: 1번 처치 변수에 따라 최소한 한 집단의 평균은 다른 집단과 다르다.
            2. 2번 처치 변수에 대한 가설 
              1. 귀무가설: 2번 처치 변수가 달라도 각 집단의 평균은 차이가 없다.
              2. 대립가설: 2번 처치 변수에 따라 최소한 한 집단의 평균은 다른 집단과 다르다.
        2. 검정 통계량 결정: 1) 각 모집단이 정규 분포를 이루며 2) 분산이 같을 때 둘 이상 집단의 평균값을 비교하기 위해 분산분석을 사용하며 검정 통계량은 F 값을 사용한다.
        3. 기각역 결정: F 분포표 활용을 위해 자유도는 2가지가 필요하며 각각 처치의 수-1, 관측값의 개수-처치의 수이다.
        4. 검정 통계량 계산
          1. F=집단 간 분산/집단 내 분산이다.
            1. 1번 처치 변수에 따른 집단 간 분산=집단 간 차이의 제곱합/자유도
              1. 집단 간 차이의 제곱합=(집단 평균과 전체 평균 차이의 제곱)*해당 집단의 값의 수의 총합
              2. 집단 간 자유도=처치의 수-1
            2. 2번 처치 변수에 따른 집단 간 분산=집단 간 차이의 제곱합/자유도
              1. 집단 간 차이의 제곱합=(집단 평균과 전체 평균 차이의 제곱)*해당 집단의 값의 수의 총합
              2. 집단 간 자유도=처치의 수-1
            3. 집단 내 분산=집단 내 차이의 제곱합/자유도
              1. 집단 내 차이의 제곱합=개별 값과 해당 집단의 평균 차이의 제곱의 총합
              2. 집단 내 차이의 자유도=(1번 처치의 수-1)과 (2번 처치의 수-1)의 곱
        5. 통계적 의사결정: 검정 통계량과 기각역을 비교하여 판단한다. 1번 처치 변수, 2번 처치 변수에 따른 가설에 대해 각각 결과를 확인할 수 있다.

      2. 블록 디자인(반복 측정): 외생변수의 영향을 줄이기 위해 관련 변수를 묶어 블록으로 처리한 것이다. 검정 과정은 랜덤 디자인과 동일하다. 과정 중 블록에 따른 차이는 연구 목적에서 벗어나기 때문에 크게 염두에 두지 않는다.

      3. 요인 디자인(팩토리얼 디자인): 둘 이상의 요인의 상호작용효과를 포함한 효과를 조사하는 경우 사용한다.
        1. 가설과 유의 수준 결정: F 분포는 항상 단측검정으로 유의 수준을 양 옆으로 나누는 경우는 없다.
          1. 처치 변수에 따라 가설도 별개로 설정된다.
            1. 1번 처치 변수에 대한 가설
              1. 귀무가설: 1번 처치 변수가 달라도 각 집단의 평균은 차이가 없다.
              2. 대립가설: 1번 처치 변수에 따라 최소한 한 집단의 평균은 다른 집단과 다르다.
            2. 2번 처치 변수에 대한 가설 
              1. 귀무가설: 2번 처치 변수가 달라도 각 집단의 평균은 차이가 없다.
              2. 대립가설: 2번 처치 변수에 따라 최소한 한 집단의 평균은 다른 집단과 다르다.
            3. 상호작용효과에 대한 가설
              1. 귀무가설: 처치 변수 사이에는 상호작용효과가 없다.
              2. 대립가설: 처치 변수 사이에는 상호작용효과가 있다.
        2. 검정 통계량 결정: 1) 각 모집단이 정규 분포를 이루며 2) 분산이 같을 때 둘 이상 집단의 평균값을 비교하기 위해 분산분석을 사용하며 검정 통계량은 F 값을 사용한다.
        3. 기각역 결정: F 분포표 활용을 위해 자유도는 2가지가 필요하며 집단 간 처치의 수-1, (1번 처치의 수-1)*(2번 처치의 수)*(처치의 수-1)이다. 상호작용효과의 기각역 확인 시에는 (1번 처치의 수-1)*(2번 처치의 수-1), (1번 처치의 수)*(2번 처치의 수)*(처치의 수-1)를 사용한다.
        4. 검정 통계량 계산
          1. F=집단 간 분산/집단 내 분산이다.
            1. 1번 처치 변수에 따른 집단 간 분산=집단 간 차이의 제곱합/자유도
              1. 집단 간 차이의 제곱합=(집단 평균과 전체 평균 차이의 제곱)*해당 집단의 값의 수의 총합
              2. 집단 간 자유도=처치의 수-1
            2. 2번 처치 변수에 따른 집단 간 분산=집단 간 차이의 제곱합/자유도
              1. 집단 간 차이의 제곱합=(집단 평균과 전체 평균 차이의 제곱)*해당 집단의 값의 수의 총합
              2. 집단 간 자유도=처치의 수-1
            3. 상호작용효과 확인용 집단 간 분산=집단 간 차이의 제곱합/자유도
              1. 집단 간 차이의 제곱합=(셀의 값-행의 평균-열의 평균+전체 평균)² 의 총합
              2. 집단 간 자유도=(1번 처치의 수-1)*(2번 처치의 수-1)
            4. 집단 내 분산=집단 내 차이의 제곱합/자유도
              1. 집단 내 차이의 제곱합=개별 값과 해당 집단의 평균 차이의 제곱의 총합
              2. 집단 내 차이의 자유도=(1번 처치의 수)*(2번 처치의 수)*(처치의 수-1)
        5. 통계적 의사결정: 검정 통계량과 기각역을 비교하여 판단한다. 1번 처치 변수, 2번 처치 변수, 상호작용효과에 대한 가설 결과를 확인할 수 있다.
      4. 2 요인 반복 측정: 요인 디자인과 동일하나 여러 번 측정하기 때문에 셀 내에 값이 여러 개 존재한다. 따라서 제곱합을 구할 때 값의 수가 측정 횟수만큼 배가되는 점에 주의해야 한다.
  4. 상관분석: 두 변수가 선형 관계를 갖는지, 갖는다면 어떤 방향으로 얼마나 큰 관계를 갖는지 분석하는 것.

    분석 과정은 t 검정과 동일하나 추가적으로 상관계수 공식과 검정 통계량 공식을 알아야 한다.
    1. 피어슨 상관분석: 두 변수가 등간, 비율 척도인 경우 사용한다.
      1. 피어슨 상관계수 공식: 각 쌍의 각 열의 평균과의 차이의 곱의 총합/√(1번 변수의 평균과 각 값들과의 차의 제곱의 총합)*(2번 변수의 평균과 각 값들과의 차의 제곱의 총합)
      2. 피어슨 검정통계량 공식: t=상관계수*√(n-2)/√(1-상관계수의 제곱)
      3. 상관계수의 자유도: n-2
    2. 스피어만 상관분석: 두 변수가 서열 척도인 경우 사용한다.
      1. 스피어만 상관계수 공식: 1-{6*(각 쌍의 사이의 차의 제곱의 총합)}/값의 개수*(값의 개수의 제곱-1)
      2. 스피어만 검정통계량 공식: 상관계수와 동일하다.
      3. 상관계수의 자유도: n
  5. 회귀분석: 두 메트릭 척도 자료 사이의 인과관계를 분석하는 것.
    1. 회귀 분석에서는 오차의 정규성, 등분산성, 독립성 그리고 독립변수와 종속변수 간의 선형 관계를 가정한다.
    2. 회귀 분석의 주된 목적은 회귀식을 만드는 것이다. 회귀식은 y=a+bx와 같은 형식으로 구성된다.
    3. 독립 변수의 설명력은 결정계수 r²으로 나타난다. r²=SSR(회귀식으로 설명되는 분산)/SSy(전체 분산)
    4. 다중회귀식을 만드는 방법은 동시입력과 순차입력 방식이 있다.
      1. 동시입력: 모든 변수의 영향력을 확인하고 싶은 경우 사용한다.
      2. 순차입력: 중요한 변수들의 영향력만 확인하고 싶은 경우 사용한다.
    5. 다중 회귀 분석에서는 독립 변수들 사이의 상관관계인 다중공선성에 주의해야 한다. 다중공선성은 공차와 VIF값을 통해 확인하는데 공차가 0.1 미만 VIF가 10을 초과하는 경우 다중공선성이 심각한 것으로 판단한다.
      1. 공차: 한 독립변수의 분산 중 다른 독립변수들에 의해 설명되지 않는 정도
      2. VIF: 공차의 역수
    6. 다중공선성을 해소하는 방법
      1. 일부 독립변수를 제거한다.
      2. 주성분분석으로 변수들의 차원을 축소한다.
      3. 변수를 합치는 등 변형하여 새로운 변수를 만든다.
      4. 자료 수집 시 다중공선성을 고려한다.
    7. 조절 회귀분석: 독립변수-종속변수 사이에 영향을 주는 조절변수가 존재하는 경우 사용.
    8. 매개 회귀분석: 독립변수-종속변수 사이에 영향을 주는 매개변수가 존재하는 경우 사용.
    9. 로지스틱 회귀분석: 조사 대상을 두 집단 중 하나로 분류하기 위해 사용.
728x90
반응형

'경영지도사 > 마케팅 조사' 카테고리의 다른 글

통계 분석 기법들 - 고급 통계  (0) 2021.06.21
집단의 평균 차이 검정 실습  (0) 2021.06.18
가설 검정  (0) 2021.06.17
표본 분포와 신뢰 구간, 표본의 크기 도출  (0) 2021.06.16
표본 추출  (0) 2021.06.15