-
[생명과학을 위한 통계학] (1) R 프로그래밍 준비하기공부 2020. 4. 21. 02:28
[생명과학을 위한 통계학] 시리즈 글들은 Data Analysis for the Life Sciences by Rafael A Irizarry & Michael I Love와 오픈 강의 플랫폼들 (Coursera, edX)에서 제공하는 강의들을 바탕으로 작성되었습니다. 더 자세한 내용을 확인하고 싶으신 경우 글 하단의 링크를 확인해주세요.
세상에는 수많은 프로그래밍 언어가 존재한다. 필자가 학부 시절 컴퓨터공학을 부전공하면서 경험해본 프로그래밍 언어만 해도 꽤 많은데 (C, C++, Java, Python, Bash, SAS, MATLAB), 컴퓨터공학을 전공으로 했던 친구들은 훨씬 더 많은 종류의 프로그래밍 언어를 접했을 것이다.
R은 SAS, Python과 함께 통계분석에서 많이 사용되는 프로그래밍 언어이다. R이 통계분석에 많이 사용되는 이유는 아마도 사용하는데 돈을 낼 필요가 없는 오픈소스 언어이기 때문일 것이다. 스스로 공부한 것을 정리하기 위해서 앞으로 쭉 연재할 [생명과학을 위한 통계학] 시리즈에서는 R을 사용하여 데이터를 분석하고 해석하는 방법에 대해서 배울 것이다.
1. R 설치하기
먼저 R은 CRAN (The Comprehensive R Archive Network)라는 사이트에서 관리 및 배포를 한다. 해당 사이트는 R의 다양한 버전들과 기능에 대한 문서들을 저장하고 있으므로 R documentation들을 찾아보다 보면 어느새 CRAN에 접속해 있는 자신을 발견할 수 있다.
R을 설치하는 방법은 어렵지 않다. 아래 링크를 통해 CRAN을 접속한 뒤, 본인이 사용하고 있는 운영체제에 맞는 R 버전을 다운로드 후 설치하면 된다.
2. IDE 설치하기 (RStudio)
R을 설치한것만으로는 우리가 앞으로 하고자 하는 R 프로그래밍을 하기는 힘들다. 코딩, 디버깅 등 프로그래밍을 하는데 필요한 여러 작업들을 손쉽게 도와줄 IDE (Integrated Development Environment)이 필요한데, R 프로그래밍에 있어서는 RStudio이 자주 사용된다.
R을 설치할때와 마찬가지로 아래 링크를 통해 본인이 사용하고 있는 운영체제에 맞는 RStudio Desktop을 다운로드할 수 있다.
https://rstudio.com/products/rstudio/download/
3. R의 기초 배우기
기존에 프로그래밍 언어를 한번이라도 접해본 적이 있다면 R의 문법을 이해하기는 어렵지 않을 것이다. 하지만 C, Java, Python과 같은 general한 프로그래밍 언어와는 다른 문법이 상당수 있기 때문에 먼저 R의 기본 문법들에 대해 익숙해질 필요가 있다.
[생명과학을 위한 통계학] 시리즈의 목적은 R의 문법 자체를 정리하는게 아니기 때문에 R이 처음인 독자는 Coursera에서 제공하는 무료 오픈 강의 참고하면 되겠다. 아래 강의에서는 interactive한 코딩 연습이 가능한 swirl 패키지를 통해 진행되므로 혼자 쉽게 할 수 있다.
https://www.coursera.org/learn/r-programming
필자도 R 문법이 익숙하지 않기 때문에 글 중간중간에 필요할 경우 R 문법에 대한 설명을 상황에 맞게 추가하도록 하겠다.
4. R 패키지 설치하기
패키지란 유용한 기능이나 데이터들을 모아서 배포하는 단위로서, 통계분석에 있어서 자주 사용되는 유명한 패키지들이 있다.
R에서 패키지는 install.packages 함수로 설치를 한 후, R 세션에 library 함수로 로딩하여 사용한다.
#예시) rafalib 패키지 설치하기 install.packages("rafalib") library(rafalib)
앞으로 사용할 패키지들은 다음과 같다. R의 패키지들 목록과 documentation은 CRAN에서 확인할 수 있다.
- downloader : download files over HTTP and HTTPS
- rafalib : convenience functions for routine data exploration
- dplyr : a grammar of data manipulation
5. 준비 끝!
이것으로 기본적인 R 프로그래밍을 위한 준비는 끝났다!
[생명과학을 위한 통계학] 시리즈 글들은 Data Analysis for the Life Sciences by Rafael A Irizarry & Michael I Love와 오픈 강의 플랫폼들 (Coursera, edX)에서 제공하는 강의들을 바탕으로 작성되었습니다. 더 자세한 내용을 확인하고 싶으신 경우 글 하단의 링크를 확인해주세요.
[참고서적]
- [PDF] Data Analysis for the Life Sciences by Rafael A Irizarry & Michael I Love[오픈 강의]
1. [Coursera] R Programming from Johns Hopkins University
2. [edX] Statistics and R from Harvard University
3. [edX] Introduction to Linear Models and Matrix Algebra from Harvard University
4. [edX] Statistical Inference and Modeling for High-throughput Experiments from Harvard University
5. [edX] High-Dimensional Data Analysis from Harvard University
6. [edX] Introduction to Bioconductor from Harvard University
7. [edX] Case Studies in Functional Genomics from Harvard University
8. [edX] Advanced Bioconductor from Harvard University'공부' 카테고리의 다른 글
[생명과학을 위한 통계학] (5) Confidence Interval, Effect Size, Power Calculation (0) 2020.05.04 [생명과학을 위한 통계학] (4) T-test in R (0) 2020.04.27 [생명과학을 위한 통계학] (3) 중심 극한 정리, 가설 검정 (0) 2020.04.23 [생명과학을 위한 통계학] (2) 통계적 추론, 확률 변수, 확률 분포, 통계적 가설검정, P-value (0) 2020.04.21