728x90
반응형

앤디 필드의 유쾌한 R 통계학 9

앤디 필드의 유쾌한 R 통계학 챕터 9 - 두 평균의 비교

이번 챕터에서는 t test에 대해 배운다. 유형은 여럿이지만 사용하는 함수는 t.test 하나고 사용도 어렵지 않다. 다만 paired 여부와 사용할 데이터를 여러모로 살펴보고 전처리하는데 주의해야 한다. 통계적 유의성과 별도로 효과크기도 측정하는 것이 좋다. # 필요한 패키지 불러오기 library(ggplot2); library(pastecs); library(WRS);library(reshape) # 데이터 불러오기 spiderLong

데이터 분석/R 2022.05.10

앤디 필드의 유쾌한 R 통계학 챕터 6 - 상관분석

상관분석을 진행하고자 할 때 언제 어떤 방법을 사용할지 잘 판단해야 한다. 정규분포하는 연속형 변수 사이의 관계를 볼 때는 가장 일반적인 피어슨 상관계수를 사용한다. 정규분포가 아닌 변수 사이의 상관관계를 파악할 때는 스피어만 상관계수를 사용한다. 다만 중복값(동순위값)이 많은 경우에는 켄달의 타우를 사용한다. 연속변수와 이분변수 사이의 관계를 파악할 때 이연 상관계수를 사용하는데 이분변수의 원천이 연속형인 경우에는 이연, 아닌 경우에는 점이연이라고 하며 이연변수 확인을 위해서는 cor, cor.test 함수가 아닌 polyserial 함수를 사용한다. (점이연은 그냥 cor함수를 사용한다.) 여러 변수들 중 내가 원하는 두 변수 사이의 관계만 확인하고 싶은 경우 편상관 분석을 시행한다. 이때 pcor ..

데이터 분석/R 2022.04.08

앤디 필드의 유쾌한 R 통계학 챕터 5 - 자료 가정

챕터 5에서는 R을 활용하여 표본 자료의 정규성, 등분산성을 검증한다. 정규성 검정은 stat.desc() 함수와 shapiroTest() 함수를 활용하고 등분산 검정은 leveneTest() 함수를 활용한다. 이 때 단순히 함수만 사용하는 것이 아니라 히스토그램, Q-Q plot, 분산비 등을 통해 다시 한 번 자료를 살피는 것도 필요하다. rm(list=ls()) # 이번 챕터에서는 R을 통해 분포의 정규성과 분산의 동질성(homogeneity)을 확인하는 방법을 배운다. library(car);library(ggplot2);library(pastecs);library(psych);library(Rcmdr) # 눈으로 정규성 확인하기 # 데이터 불러오기 dlf

데이터 분석/R 2022.04.05

앤디 필드의 유쾌한 R 통계학 챕터 4 - 기초 시각화

챕터 4에서는 ggplot2를 사용하여 여러 가지 그래프를 그리는 방법을 배운다. rm(list=ls()) # 이번 챕터에서는 ggplot2를 사용한다. library(ggplot2) # 그래프는 기하 객체(geom), 미적 속성(aes)로 구성된다. # 자주 쓰이는 geom geom_bar() # 선 그리기 geom_point() # 점 그리기 geom_line() # 자료를 잇는 직선 그리기 geom_smooth() # 자료 전체를 요약하는 직선 그리기 gem_histogram() # 히스토그램 그리기 geom_boxplot() # 박스플롯 그리기 geom_text() # 텍스트 넣기 geom_density() # 밀도 그래드 그리기 geom_errorbar() # 오차 막대 그리기 geom_vlin..

데이터 분석/R 2022.04.01

앤디 필드의 유쾌한 R 통계학 챕터 1, 챕터 2 - 통계 용어와 개념

챕터 1과 챕터 2에서는 기본적인 통계 용어와 개념을 설명한다. 모든 내용이 중요하지만 대부분은 익숙한 용어라 부분부분 간단한 설명만 덧붙인다. 챕터 1 데이터 분석의 진행 순서 + 관련 용어 답이 필요한 질문을 찾는다 검증할 가설을 만든다 가설은 과학적으로 검증할 수 있어야 한다 측정할 변수를 정한다 변수의 분류 독립변수와 종속변수 범주형 변수 : 이분, 명목, 순서 연속변수 : 구간, 비율 변수 측정시 고려할 점 타당성 : 측정하고자 하는 것을 측정하는가? 기준 타당성 내용 타당성 : 측정이 대상을 얼마나 대표할 수 있는가? 신뢰도: 측정에 일관성이 있는가? 측정 방법을 정한다 상관연구와 실험연구 그룹간 설계 = 개체간 설계 = 독립설계 개체내 설계 = 반복측정 설계 체계적 변동과 비체계적 변동 > ..

데이터 분석/R 2022.03.29

독학을 위한 책 선정(앤디 필드의 유쾌한 R 통계학)

데이터 분석 능력 향상을 위해 학교 수업 외에도 개인 스터디를 시작하기로 했다. 수업에서도 충분한 영역을 커버할 것이라고 생각하지만 개인 스터디를 통해 아래 두 가지를 이룰 수 있을 것이라 기대한다. 1. 학교 수업에서 좋은 성적 받기 2. 더 빠른 시간에 실제 프로젝트를 진행할 수 있는 실력 얻기(졸업 전 공모전 등 포트폴리오를 위한 시간 확보하기) 데이터 분석 유행이 된 지도 몇 년이 지나 시중에도 굉장히 다양한 교재가 있었는데 나는 '앤디 필드의 유쾌한 R 통계학'이라는 교재를 활용하기로 했다. 처음에는 R cookbook이나 다른 얇은 책을 볼 생각으로 도서관에서 책의 내용을 훑어보았는데 대부분은 기대했던 방향과는 조금 다른 내용이었다. 그래서 주변의 비슷한 책들을 살펴보던 중 상대적으로 두꺼운 ..

데이터 분석/R 2022.03.25
728x90
반응형