[생명과학을 위한 통계학] 시리즈 글들은 Data Analysis for the Life Sciences by Rafael A Irizarry & Michael I Love와 오픈 강의 플랫폼들 (Coursera, edX)에서 제공하는 강의들을 바탕으로 작성되었습니다. 더 자세한 내용을 확인하고 싶으신 경우 글 하단의 링크를 확인해주세요.
이전 게시물에서 정리한 가설검정 중 T-test를 R로 할 것이다. 이번 실습에서는 참고서적에서 제공한 femaleMiceWeights.csv 데이터를 사용했다.
1. 라이브러리 로딩 & 데이터 읽기
femaleMiceWeights.csv는 먹이의 종류 (chow, hf)와 체중이 기록된 데이터이다. read.csv()를 통해 working directory에 있는 .csv 형식의 파일을 읽을 수 있으며, head() 함수로 데이터의 앞부분을 확인해볼 수 있다.
library(dplyr)
library(rafalib)
dat <- read.csv("femaleMiceWeights.csv")
head(dat)
2. 데이터 프로세싱
앞에서 import 한 데이터를 dplyr 라이브러리를 사용하여 t-test에 쓰기 쉽게 프로세싱을 해야 한다. filter(), select()를 통해 칼럼을 뽑아내고 행을 필터링을 한 후, unlinst()를 사용하여 data.frame 형식의 데이터를 vector로 변환해준다. 이때 각 과정을 파이프 (pipe) 연산자 %>%로 한 줄의 명령어로 합칠 수 있다.
[생명과학을 위한 통계학] 시리즈 글들은 Data Analysis for the Life Sciences by Rafael A Irizarry & Michael I Love와 오픈 강의 플랫폼들 (Coursera, edX)에서 제공하는 강의들을 바탕으로 작성되었습니다. 더 자세한 내용을 확인하고 싶으신 경우 글 하단의 링크를 확인해주세요.