Chapter 1
Brief Introduction into Using R
To get started a gentle introduction to the statistical programming language
R will be given (R Development Core Team, 2009), specific for our purposes.
This will solve the practical issues to follow the stream of reasoning. In
particular, it is briefly explained how to install R and Bioconductor, how to
obtain help, and how to perform simple calculations.
Since many computations are essentially performed on data vectors, several
basic illustrations of this are given. With respect to gene expressions the
data vectors are placed one beneath the other to form a data matrix with
the genes as rows and the patients as columns. The idea of a data matrix is
extensively explained and illustrated by several examples. A larger example
consists of the classical Golub et al. (1999) data, which will be analyzed
frequently to illustrate statistical procedures.
1.1 Getting R Started on your PC
You can downloaded R freely from http://cran.r-project.org. Click on
your favorite operating system (Windows, Linux or MacOS) and simply follow
the instructions. After a little patience you should be able to start R (Ihaka
& Gentleman, 1996) after which a screen is opened with the prompt >. The
input and output of R will be displayed in verbatim typewriting style.
All useful functions of R are contained in libraries which are called ”packages”.
The standard installation of R makes basic packages available such
as base and stats. From the button Packages at cran.r-project.org it
can be seen that R has a huge number of packages available for a wide scale
1
2 CHAPTER 1. BRIEF INTRODUCTION INTO USING R
of statistical procedures. To download a specific package you can use the
following.
> install.packages(c("TeachingDemos"),repo="http://cran.r-project.org",
+ dep=TRUE)
This installs the package TeachingDemos developed by Greg Snow from the
repository http://cran.r-project.org. By setting the option dep to TRUE
the packages on which the TeachingDemos depend are also installed. This is
strongly recommended! Alternatively, in the Windows application of R you
can simply click on the Packages button at the top of your screen and follow
the instructions. After installing you have to load the package in order to use
its functions. For instance, to produce a nice plot of the outcome of throwing
twelve times with a die, you can use the following.
> library(TeachingDemos)
> plot(dice(12,1))
In the sequel we shall often use packages from Bioconductor, a very useful
open source software project for the analysis and comprehension of genomic
data. To follow the book it is essential to install Bioconductor on your PC
or network. Bioconductor is primarily based on R and can be installed, as
follows.
> source("http://www.bioconductor.org/biocLite.R")
> biocLite()
Then to download the ALL package from a repository to your system, to load
it, and to make the ALL data (Chiaretti, et. al, 2004) available for usage, you
can use the following.
> biocLite("ALL")
> library(ALL)
> data(ALL)
These data will be analyzed extensively later-on in Chapter 5 and 6. General
help on loaded Bioconductor packages becomes available by openVignette().
For further information the reader is referred to www.bioconductor.org or
to several other URL’s1
.
1 http://mccammon.ucsd.edu/~bgrant/bio3d/user_guide/user_guide.html
http://rafalab.jhsph.edu/software.html
http://dir.gmane.org/gmane.science.biology.informatics.conductor
1.2. GETTING HELP 3
In this and the following chapters we will illustrate many statistical ideas
by the Golub et al. (1999) data, see also Section 1.8. The golub data become
available by the following.2
> library(multtest)
> data(golub)
R is object-oriented in the sense that everything consists of objects belonging
to certain classes. Type class(golub) to obtain the class of the object golub
and str(golub) to obtain its structure or content. Type objects() or ls()
to view the currently loaded objects, a list probably growing soon to be large.
To prevent conflicting definitions, it is wise to remove them all at the end of
a session by rm(list=ls()). To quit a session, type q(), or simply click on
the cross in the upper right corner of your screen.
1.2 Getting help
All functionalities of R are well-organized in so-called packages. Use the function
library() to see which packages are currently installed on your operating
system. The packages stats and base are automatically installed, because
these contain many basic functionalities. To obtain an overview of the
content of a package use ls(package:stats) or library(help="stats").
Help on the purpose of specific functions can be obtained from the (package)
manual by typing a question mark in front of a function. For instance, ?sum
gives details on summation. In case you are seeking help on a function which
uses if, simply type apropos("if"). When you are starting with a new concept
such as ”boxplot”, it is convenient to have an example showing output
(a plot) and programming code. Such is given by example(boxplot). The
function history can be useful for collecting previously given commands.
Type help.start() to launch an HTML page linking to several wellwritten
R manuals such as: ”An Introduction to R”, ”The R Language Defi-
nition”, ”R Installation and Administration”, and ”R Data Import/Export”.
Further help can be obtained from http://cran.r-project.org. Its ”contributed”
page contains well-written freely available on-line books3 and useful
reference charts4
. At http://www.r-project.org you can use R site
2 Functions to read data into R are read.table or read.csv, see also the ”The R Data
Import/Export manual”.
3”R for Beginners” by Emmanuel Paradis or the ”The R Guide” by Jason Owen
4”R reference card” by Tom Short or by Jonathan Baron
4 CHAPTER 1. BRIEF INTRODUCTION INTO USING R
search, Rseek, or other useful search engines. There are a number of useful
URL’s with information on R.5
1.3 Calculating with R
R can be used as a simple calculator. For instance, to add 2 and 3 we simply
insert the following.
> 2+3
[1] 5
In many calculations the natural base e = 2.718282 of exponential functions
is used. Such type of functions can be called as follows.
> exp(1)
[1] 2.718282
To compute e
2 = e · e we use exp(2).
6 So, indeed, we have e
x =exp(x), for
any value of x.
The sum 1 + 2 + 3 + 4 + 5 can be computed by
> sum(1:5)
[1] 15
and the product 5! = 5 · 4 · 3 · 2 · 1 by
> prod(1:5)
[1] 120
1.4 Generating a sequence and a factor
In order to compute so-called quantiles of distributions (see e.g. Section
2.1.4) or plots of functions, we need to generate sequences of numbers. The
easiest way to construct a sequence of numbers is by
> 1:5
[1] 1 2 3 4 5
5We mention in particular:
http://faculty.ucr.edu/~tgirke/Documents/R_BioCond/R_BioCondManual.html
6The argument of functions is always placed between parenthesis ().
1.5. COMPUTING ON A DATA VECTOR 5
This sequence can also be produced by the function seq, which allows for
various sizes of steps to be chosen. For instance, in order to compute percentiles
of a distribution we may want to generate numbers between zero and
one with step size equal to 0.1.
> seq(0,1,0.1)
[1] 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0
For plotting and testing of hypotheses we need to generate yet another
type of sequence, called a “factor”. It is designed to indicate an experimental
condition of a measurement or the group to which a patient belongs.7
When, for instance, for each of three experimental conditions there are measurements
from five patients, the corresponding factor can be generated as
follows.
> factor factor
[1] 1 1 1 1 1 2 2 2 2 2 3 3 3 3 3
Levels: 1 2 3
The three conditions are often called “levels” of a factor. Each of these
levels has five repeats corresponding to the number of observations (patients)
within each level (type of disease). We shall further illustrate the idea of a
factor soon because it is very useful for purposes of visualization.
1.5 Computing on a data vector
A data vector is simply a collection of numbers obtained as outcomes from
measurements. This can be illustrated by a simple example on expression
values of a gene. Suppose that gene expression values 1, 1.5, and 1.25 from
the persons ”Eric”, ”Peter”, and ”Anna” are available. To store these in a
vector we use the concatenate command c(), as follows.
> gene1 gene1
[1] 1.00 1.50 1.25
7 See e.g. Samuals & Witmer (2003, Chap. 8) for a full explanation of experiments
and statistical principles of design.
6 CHAPTER 1. BRIEF INTRODUCTION INTO USING R
Now we have created the object gene1 containing three gene expression values.
To compute the sum, mean, and standard deviation of the gene expression
values we use the corresponding built-in-functions.
> sum(gene1)
[1] 3.75
> mean(gene1)
[1] 1.25
> sum(gene1)/3
[1] 1.25
> sd(gene1)
[1] 0.25
> sqrt(sum((gene1-mean(gene1))^2)/2)
[1] 0.25
By defining x1 = 1.00, x2 = 1.50, and x3 = 1.25, the sum of the weights can
be expressed as Pn
i=1 xi = 3.75. The mathematical summation symbol P is
in R language simply sum. The mean is denoted by x =
P3
i=1 xi/3 = 1.25
and the sample standard deviation as
s =
vuutX
3
i=1
(xi − x)
2/(3 − 1) = 0.25.
1.6 Constructing a data matrix
In various types of spreadsheets it is custom to store data values in the
form of a matrix consisting of rows and columns. In bioinformatics gene
expression values (from several groups of patients) are stored as rows such
that each row contains the expressions values of the patients corresponding
to a particular gene and each column contains all gene expression values for
a particular person. To illustrate this by a small example suppose that we
have the following expression values on three genes from Eric, Peter, and
Anna.8
> gene2 gene3 gene4
บทที่ 1แนะนำโดยย่อลงโดยใช้ Rจะเริ่มต้นแนะนำภาษาการเขียนโปรแกรมสถิติที่อ่อนโยนR จะได้รับ (R พัฒนาหลักทีม 2009), เฉพาะสำหรับวัตถุประสงค์ของเรานี้จะแก้ปัญหาการปฏิบัติตามกระแสของเหตุผล ในเฉพาะ มีสั้น ๆ คำอธิบายวิธีการติดตั้ง R และ Bioconductor วิธีการได้รับความช่วยเหลือ และวิธีการคำนวณอย่างง่าย ๆเนื่องจากหนึ่งในหลักดำเนินการบนข้อมูลเวกเตอร์ หลายภาพประกอบพื้นฐานนี้จะได้รับ เกี่ยวกับนิพจน์ยีนข้อมูลเวกเตอร์อยู่หนึ่งใต้อื่น ๆ แบบเมทริกซ์ข้อมูลด้วยยีนเป็นผู้ป่วยที่เป็นคอลัมน์และแถว ความคิดของเมทริกซ์ข้อมูลเป็นอย่างกว้างขวางอธิบาย และภาพประกอบ โดยหลาย ๆ อย่าง ตัวอย่างขนาดใหญ่ประกอบด้วยคลาสสิกอย่างไร Golub et al. (1999) ข้อมูล ซึ่งจะวิเคราะห์ได้บ่อย ๆ การแสดงให้เห็นถึงวิธีการทางสถิติ1.1 การเริ่มต้นแล้ว R บนพีซีของคุณคุณสามารถดาวน์โหลด R ได้อย่างอิสระจาก http://cran.r-project.org คลิกที่ชื่นชอบระบบปฏิบัติการ (Windows, Linux หรือ MacOS) และก็ตามของคุณคำแนะนำ หลังจากความอดทนน้อย คุณควรจะสามารถเริ่มต้น R (Ihakaและสุภาพบุรุษ 1996) หลังจากที่หน้าจอมีเปิดด้วยพร้อมท์ > ที่ป้อนและผลผลิตของ R จะแสดงในลักษณะ typewriting ทุกตัวอักษรฟังก์ชันที่มีประโยชน์ทั้งหมดของ R มีอยู่ในไลบรารีที่เรียกว่า "แพคเกจ"การติดตั้งมาตรฐานของ R ทำแพคเกจพื้นฐานดังกล่าวเป็นฐานและสถิติ จากปุ่มแพคเกจที่ cran.r-project.org มันจะเห็นได้ว่า R มีขนาดใหญ่ขนาดกว้างพร้อมแพคเกจ12 หมวด 1 แนะนำโดยย่อเป็น R ที่ใช้ของกระบวนการทางสถิติ เมื่อต้องการดาวน์โหลดแพคเกจเฉพาะที่คุณสามารถใช้การต่อไปนี้> install.packages (ซี ("TeachingDemos") repo = "http://cran.r-project.org"+ dep = TRUE)นี้ติดตั้งแพคเกจ TeachingDemos ที่พัฒนา โดยกาหิมะhttp://cran.r-project.org เก็บ โดยการตั้งค่า dep เลือก TRUEนอกจากนี้ยังมีการติดตั้งแพคเกจ TeachingDemos ขึ้นอยู่ นี่คือขอแนะนำ ในโปรแกรมประยุกต์ Windows ของ R หรือ คุณสามารถเพียงแค่คลิกที่ปุ่มแพคเกจที่ด้านบนของหน้าจอ และทำตามคำแนะนำ หลังจากติดตั้ง คุณต้องโหลดแพคเกจใช้ของฟังก์ชัน ตัวอย่าง การลงจุดดีของผลลัพธ์ของการขว้างปาครั้งที่ 12 ตาย คุณสามารถใช้ต่อไปนี้> library(TeachingDemos)> plot(dice(12,1))ในภาคนี้ เราจะมักใช้แพคเกจจาก Bioconductor มีประโยชน์มากโครงการซอฟต์แวร์เปิดแหล่งข้อมูลสำหรับการวิเคราะห์และทำความเข้าใจของ genomicข้อมูล ตามหนังสือ จึงจำเป็นต้องติดตั้ง Bioconductor บนคอมพิวเตอร์ของคุณหรือเครือข่าย Bioconductor เป็นหลักยึด R และสามารถติด ตั้ง เป็นต่อไปนี้> ต้นฉบับ ("http://www.bioconductor.org/biocLite.R")> biocLite()แล้วเมื่อต้องการดาวน์โหลดแพคเกจทั้งหมดจากคลังระบบ โหลดและ เพื่อให้ข้อมูลทั้งหมด (Chiaretti, et. al, 2004) สำหรับการใช้งาน คุณสามารถใช้ต่อไปนี้> biocLite("ALL")> library(ALL)> data(ALL)จะวิเคราะห์ข้อมูลเหล่านี้ได้อย่างกว้างขวางภายหลังในบทที่ 5 และ 6 ทั่วไปกับโหลดแพ Bioconductor จะพร้อมใช้งาน โดย openVignette()สำหรับข้อมูลเพิ่มเติม อ่านว่า www.bioconductor.org หรือการ URL อื่น ๆ หลาย ' s1.1 http://mccammon.ucsd.edu/~bgrant/bio3d/user_guide/user_guide.htmlhttp://rafalab.jhsph.edu/software.htmlhttp://dir.gmane.org/gmane.science.biology.informatics.conductor1.2 รับความช่วยเหลือ 3ในนี้และบทต่อไปนี้ เราจะแสดงสถิติหลายความคิดข้อมูล (1999) อย่างไร Golub et al. ดู 1.8 ส่วนการ ข้อมูลอย่างไร golub กลายเป็นมีการ following.2> library(multtest)> data(golub)R คือเชิงวัตถุในแง่ที่ว่า ทุกสิ่งประกอบด้วยวัตถุที่เป็นของการเรียนแน่นอน Class(golub) ชนิดรับชั้นอย่างไร golub วัตถุและ str(golub) ได้รับของโครงสร้างหรือเนื้อหา ชนิด objects() หรือ ls()เมื่อต้องการดูวัตถุกำลังโหลด รายการคงเติบโตเร็วมีขนาดใหญ่เพื่อป้องกันไม่ให้ข้อกำหนดที่ขัดแย้งกัน จึงฉลาดที่จะลบออกทั้งหมดเมื่อสิ้นสุดเซสชัน โดย rm(list=ls()) การปิดเซสชัน พิมพ์ q() เพียงแค่คลิกที่กากบาทที่มุมขวาบนของหน้าจอ1.2 ได้รับความช่วยเหลือฟังก์ชันทั้งหมดของ R จะจัดห้องพักในแพคเกจที่เรียกว่า ใช้ฟังก์ชันlibrary() ไปดูแพคเกจที่ติดตั้งอยู่บนการทำงานของคุณระบบ แพคเกจสถิติและฐานข้อมูลโดยอัตโนมัติติดตั้ง เนื่องจากเหล่านี้ประกอบด้วยฟังก์ชันการทำงานพื้นฐานหลาย เมื่อต้องการดูภาพรวมของการเนื้อหาของแพคเกจใช้ ls(package:stats) หรือ library(help="stats")สามารถได้รับกับวัตถุประสงค์ของฟังก์ชันเฉพาะจาก (แพคเกจ)ด้วยตนเอง โดยการพิมพ์เครื่องหมายคำถามหน้าฟังก์ชัน เช่น หรือไม่รวมให้รายละเอียดในการรวม ในกรณีที่คุณกำลังมองหาวิธีใช้เกี่ยวกับฟังก์ชันที่ใช้ เพียงพิมพ์ apropos("if") เมื่อคุณเริ่ม ด้วยแนวคิดใหม่เช่น "boxplot" คือการมีตัวอย่างที่แสดงออก(แผน) และเขียนรหัส ดังกล่าวถูกกำหนด โดย example(boxplot) ที่ฟังก์ชันประวัติจะมีประโยชน์สำหรับการรวบรวมกำหนดคำสั่งก่อนหน้านี้พิมพ์ help.start() เพื่อเปิดเพจ HTML การเชื่อมโยงหลาย wellwrittenคู่มือ R เช่น: "อันนำไป R" "เดอะ R ภาษา Defi -nition", "R ติดตั้งและดูแล" และ" R ข้อมูลนำเข้า/ส่งออก"สามารถได้รับความช่วยเหลือเพิ่มเติมจาก http://cran.r-project.org ของ "ส่วน"ประกอบด้วย books3 ง่ายดายอิสระว่างเชิญเขียน และมีประโยชน์อ้างอิง charts4. ที่ http://www.r-project.org คุณสามารถใช้ไซต์ Rหน้าที่ 2 ข้อมูล R เป็น read.table หรือ read.csv อ่านดู "เดอะ R ข้อมูลนำเข้าและส่งออกด้วยตนเอง"3" R สำหรับผู้เริ่มต้น" โดยพาราดิส Emmanuel หรือ "R แนะนำ" โดย Jason โอเว่นบัตรอ้างอิง 4" R " โดยทอมสั้น หรือ Jonathan บารอน4 หมวด 1 แนะนำโดยย่อเป็น R ที่ใช้ค้นหา Rseek หรือเครื่องมือค้นหาที่มีประโยชน์อื่น ๆ มีจำนวนของที่มีประโยชน์URL มีข้อมูล R.51.3 คำนวณกับ RR สามารถใช้เป็นเครื่องคิดเลขอย่างง่าย ตัวอย่าง การเพิ่ม 2 และ 3 เราก็แทรกต่อไปนี้> 2 + 3[1] 5ในการคำนวณหลายธรรมชาติฐาน e = 2.718282 ฟังก์ชันเอ็กซ์โพเนนเชียมีใช้ สามารถเรียกเช่นชนิดของฟังก์ชันดังนี้> exp(1)[1] 2.718282การคำนวณ e2 =ขาดอี เราใช้ exp(2) e6 นั้น แน่นอน เรามีอีx = exp(x) สำหรับทุกค่าของ xผลรวม 1 + 2 + 3 + 4 + 5 ที่สามารถคำนวณโดย> sum(1:5)[1] 15และผลิตภัณฑ์ 5 = 5 · 4 · 3 · 2 · 1 โดย> prod(1:5)[1] 1201.4 สร้างลำดับและสัดส่วนการคำนวณเรียกว่า quantiles ของการกระจาย (ดูเช่น2.1.4) หรือผืนของฟังก์ชัน เราจำเป็นต้องสร้างลำดับหมายเลข ที่วิธีที่ง่ายที่สุดจะสร้างลำดับหมายเลข> 1:5[1] 1 2 3 4 55We พูดถึงโดยเฉพาะอย่างยิ่ง:http://faculty.ucr.edu/~tgirke/Documents/R_BioCond/R_BioCondManual.html6The อาร์กิวเมนต์ของฟังก์ชันจะอยู่ระหว่างวงเล็บ()1.5 การคำนวณเกี่ยวกับเวกเตอร์ข้อมูล 5ลำดับนี้ผลิต โดยลำดับฟังก์ชัน ซึ่งขนาดต่าง ๆ ของขั้นตอนที่จะเลือก ตัวอย่าง ในลำดับการคำนวณ percentilesการกระจาย เราอาจต้องการสร้างหมายเลขระหว่างศูนย์ และหนึ่งขั้นตอนขนาดเท่ากับ 0.1> seq(0,1,0.1)[1] 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0สำหรับพล็อต และการทดสอบสมมุติฐานที่เราจำเป็นต้องสร้างได้อีกชนิดของลำดับ เรียกว่า "ตัว" มันถูกออกแบบมาเพื่อระบุการทดลองเงื่อนไขของการวัดหรือกลุ่มที่ belongs.7 ผู้ป่วยเมื่อ เช่น สำหรับแต่ละเงื่อนไขการทดลองที่ 3 มีการประเมินจากผู้ป่วย 5 ปัจจัยที่เกี่ยวข้องสามารถสร้างเป็นต่อไปนี้> ปัจจัย <-gl(3,5)> ปัจจัย[1] 1 1 1 1 1 2 2 2 2 2 3 3 3 3 3ระดับ: 1 2 3เงื่อนไขสามมักจะเรียกว่า "ระดับ" ของตัว แต่ละเหล่านี้ระดับมี 5 ทำซ้ำที่สอดคล้องกับจำนวนการสำรวจ (ผู้ป่วย)ภายในแต่ละระดับ (ชนิดของโรค) เราจะเพิ่มเติมแสดงให้เห็นถึงความคิดในการปัจจัยเร็ว ๆ นี้ เพราะเป็นประโยชน์อย่างมากสำหรับวัตถุประสงค์ของการแสดงภาพประกอบเพลง1.5 การคำนวณเกี่ยวกับเวกเตอร์ข้อมูลเวกเตอร์ข้อมูลเป็นเพียงชุดของตัวเลขที่ได้รับเป็นผลจากวัด นี้สามารถแสดง ด้วยตัวอย่างง่าย ๆ เช่นในนิพจน์ค่าของยีนเป็น สมมติค่านิพจน์ 1, 1.5 และ 1.25 จากยีนนั้นมี "Eric" "ปีเตอร์" และ "แอนนา" เก็บในเราใช้ c() สั่งเชื่อมเข้าด้วยกัน เป็นเวกเตอร์> gene1 <-c(1.00,1.50,1.25)> gene1[1] 1.00 1.50 1.257 ดูเช่น Samuals และ Witmer (2003, Chap. 8) สำหรับคำอธิบายทั้งหมดของการทดลองและหลักการทางสถิติของการออกแบบ6 บทที่ 1 แนะนำโดยย่อเป็น R ที่ใช้ตอนนี้ เราได้สร้างวัตถุ gene1 ที่มียีน 3 นิพจน์ค่าการคำนวณผลรวม ค่าเฉลี่ย และส่วนเบี่ยงเบนมาตรฐานของยีนที่ค่าที่เราใช้ฟังก์ชันตรงกัน built-in-> sum(gene1)[1] 3.75> mean(gene1)[1] 1.25> รวม (gene1) 3[1] 1.25> sd(gene1)[1] 0.25> sqrt(sum((gene1-mean(gene1))^2)/2)[1] 0.25คะแนน x 1 = 1.00, x 2 = 1.50 และ x 3 = 1.25 ผลรวมของน้ำหนักแสดงเป็น Pnฉัน =ซี 1 = 3.75 เป็นสัญลักษณ์ทางคณิตศาสตร์รวม PR ภาษาเพียงผล ค่าเฉลี่ยสามารถระบุ โดย x =P3ผมสิ 3 1 = = 1.25และส่วนเบี่ยงเบนมาตรฐานตัวอย่างเป็นs =vuutX3ฉัน = 1(xi − x)2 /(3 − 1) = 0.251.6 สร้างเมทริกซ์ข้อมูลในกระดาษคำนวณชนิดต่างๆ จะกำหนดเองเพื่อจัดเก็บค่าข้อมูลในการรูปแบบของเมทริกซ์ที่ประกอบด้วยแถวและคอลัมน์ ในยีน bioinformaticsค่านิพจน์ (จากกลุ่มต่าง ๆ ของผู้ป่วย) จะถูกเก็บเป็นแถวดังกล่าวว่า แต่ละแถวประกอบด้วยค่านิพจน์ของผู้ป่วยที่สอดคล้องยีนที่เฉพาะและแต่ละคอลัมน์ประกอบด้วยค่านิพจน์ยีนทั้งหมดสำหรับเฉพาะบุคคล การแสดง โดยตัวอย่างขนาดเล็กสมมุติว่า เรามีค่านิพจน์ต่อไปนี้บนยีนสามจาก Eric ปีเตอร์ และAnna.8> gene2 <-c(1.35,1.55,1.00)> gene3 <-c(-1.10,-1.50,-1.25)> gene4 <-c(-1.20,-1.30,-1.00)8By data.entry ฟังก์ชันที่คุณสามารถเปิด และแก้ไขหน้าจอกับค่าmatr
การแปล กรุณารอสักครู่..

บทที่ 1
บทนำบทสรุปลงในการใช้ R
ในการเริ่มต้นการแนะนำอ่อนโยนต่อการเขียนโปรแกรมภาษาทางสถิติ
R จะได้รับ (R ทีมพัฒนาหลัก 2009) เฉพาะสำหรับวัตถุประสงค์ของเรา.
นี้จะแก้ปัญหาในทางปฏิบัติให้เป็นไปตามกระแสของเหตุผล ในโดยเฉพาะอย่างยิ่งจะมีการอธิบายสั้น ๆ วิธีการติดตั้งและ R Bioconductor วิธีการขอรับความช่วยเหลือและวิธีการดำเนินการคำนวณอย่างง่าย. ตั้งแต่การคำนวณจำนวนมากมีการดำเนินการหลักในเวกเตอร์ข้อมูลหลายภาพประกอบพื้นฐานของการนี้จะได้รับ ด้วยความเคารพต่อการแสดงออกของยีนพาหะข้อมูลที่มีอยู่หนึ่งภายใต้อื่น ๆ ในรูปแบบเมทริกซ์ข้อมูลที่มียีนที่เป็นแถวและผู้ป่วยเป็นคอลัมน์ ความคิดของเมทริกซ์ข้อมูลที่มีการอธิบายอย่างกว้างขวางและภาพประกอบโดยหลายตัวอย่าง ตัวอย่างที่มีขนาดใหญ่ประกอบด้วย Golub et al, คลาสสิก (1999) ข้อมูลซึ่งจะถูกวิเคราะห์บ่อยครั้งเพื่อแสดงให้เห็นถึงวิธีการทางสถิติ. 1.1 การวิจัยเริ่มต้นในเครื่องคอมพิวเตอร์ของคุณคุณสามารถดาวน์โหลดได้อย่างอิสระจากR http://cran.r-project.org คลิกที่ระบบปฏิบัติการที่คุณชื่นชอบ (Windows, Linux หรือ MacOS) และเพียงทำตามคำแนะนำ หลังจากที่มีความอดทนน้อยคุณควรจะสามารถที่จะเริ่มต้น r (Ihaka และสุภาพบุรุษ, 1996) หลังจากที่หน้าจอจะเปิดพรอมต์> เข้าและส่งออกของ R จะปรากฏในรูปแบบคำต่อคำพิมพ์ดีด. ฟังก์ชันที่มีประโยชน์ทั้งหมดของ R ที่มีอยู่ในห้องสมุดซึ่งเรียกว่า "แพคเกจ". การติดตั้งมาตรฐานของการวิจัยทำให้แพคเกจใช้ได้เช่นเป็นฐานและสถิติ จากแพคเกจที่ปุ่ม cran.r-project.org ก็จะเห็นได้ว่าการวิจัยมีจำนวนมากของแพคเกจใช้ได้สำหรับขนาดกว้าง1 2 บทที่ 1 บทนำสั้นในการใช้ R ของวิธีการทางสถิติ ต้องการดาวน์โหลดแพคเกจที่คุณสามารถใช้ต่อไป.> install.packages (c ("TeachingDemos") repo = "http://cran.r-project.org" + DEP = TRUE) นี้จะติดตั้งแพคเกจ TeachingDemos พัฒนา โดยเกร็กหิมะจากพื้นที่เก็บข้อมูลhttp://cran.r-project.org โดยการตั้งค่า DEP เลือกที่จะ TRUE แพคเกจที่มีการ TeachingDemos ขึ้นอยู่นอกจากนี้ยังมีการติดตั้ง นี้จะขอแนะนำ! อีกทางเลือกหนึ่งในโปรแกรม Windows ของ R คุณก็สามารถคลิกที่ปุ่มแพคเกจที่ด้านบนของหน้าจอและทำตามคำแนะนำ หลังจากติดตั้งคุณต้องโหลดแพคเกจเพื่อที่จะใช้ฟังก์ชั่น ยกตัวอย่างเช่นในการผลิตพล็อตที่ดีของผลของการขว้างปาสิบสองครั้งด้วยตายคุณสามารถใช้ต่อไป.> คลัง (TeachingDemos)> พล็อต (ลูกเต๋า (12,1)) ในผลสืบเนื่องที่เรามักจะต้องใช้แพคเกจจาก Bioconductor ซึ่งเป็นประโยชน์อย่างมากที่มาเปิดโครงการซอฟต์แวร์สำหรับการวิเคราะห์และความเข้าใจของจีโนมข้อมูล ที่จะปฏิบัติตามหนังสือเล่มนี้ก็เป็นสิ่งจำเป็นในการติดตั้ง Bioconductor บนคอมพิวเตอร์ของคุณหรือเครือข่าย Bioconductor เป็นไปตามหลักในการวิจัยและสามารถติดตั้งเป็นดังต่อไปนี้.> แหล่งที่มา ("http://www.bioconductor.org/biocLite.R")> biocLite () จากนั้นดาวน์โหลดแพคเกจทั้งหมดจากพื้นที่เก็บข้อมูลของระบบ โหลดมันและเพื่อให้ข้อมูลทั้งหมด(Chiaretti, et. al, 2004) ที่มีอยู่สำหรับการใช้งานคุณสามารถใช้ต่อไป.> biocLite ("ทั้งหมด")> คลัง (ALL)> ข้อมูล (ALL) ข้อมูลเหล่านี้จะเป็น การวิเคราะห์อย่างกว้างขวางต่อมาในบทที่ 5 และ 6 ทั่วไปช่วยเหลือในแพคเกจBioconductor โหลดสามารถใช้งานได้โดย openVignette (). สำหรับข้อมูลเพิ่มเติมผู้อ่านจะเรียก www.bioconductor.org หรือการอื่นๆ อีกหลาย URL's1. 1 การขอความช่วยเหลือ 3 ในบทนี้และต่อไปนี้เราจะแสดงให้เห็นถึงความคิดทางสถิติจำนวนมากโดย Golub et al, (1999) ข้อมูลดูมาตรา 1.8 ข้อมูล Golub กลายเป็นใช้ได้โดยfollowing.2> คลัง (multtest)> ข้อมูล (Golub) R คือเชิงวัตถุในแง่ที่ว่าทุกอย่างที่ประกอบด้วยวัตถุที่อยู่ในชั้นเรียนบางอย่าง ระดับประเภท (Golub) เพื่อให้ได้ระดับของวัตถุ Golub และ STR (Golub) เพื่อให้ได้โครงสร้างหรือเนื้อหา วัตถุประเภท () หรือคำสั่ง ls () เพื่อดูวัตถุโหลดขณะที่รายการที่อาจจะเพิ่มขึ้นเรื่อย ๆ เร็ว ๆ นี้จะมีขนาดใหญ่. เพื่อป้องกันไม่ให้คำจำกัดความที่ขัดแย้งกันก็ควรที่จะลบออกทั้งหมดในตอนท้ายของเซสชั่นโดย RM (รายการสั่ง ls = () ) จะลาออกจากเซสชั่นพิมพ์ q () หรือเพียงแค่คลิกที่ข้ามที่มุมขวาบนของหน้าจอของคุณ. 1.2 การขอความช่วยเหลือฟังก์ชันการทำงานทั้งหมดของR เป็นอย่างดีในการจัดแพคเกจที่เรียกว่า ฟังก์ชั่นการใช้งานห้องสมุด () เพื่อดูว่ามีการติดตั้งแพคเกจในปัจจุบันในการดำเนินงานของระบบ แพคเกจสถิติและฐานมีการติดตั้งโดยอัตโนมัติเพราะเหล่านี้มีฟังก์ชันพื้นฐานจำนวนมาก ที่จะได้รับภาพรวมของเนื้อหาของการใช้แพคเกจคำสั่ง ls (แพคเกจ: สถิติ). หรือห้องสมุด (ความช่วยเหลือ = "สถิติ") ช่วยเหลือเกี่ยวกับวัตถุประสงค์ของฟังก์ชั่นที่เฉพาะเจาะจงสามารถหาได้จาก (package) ด้วยตนเองโดยการพิมพ์เครื่องหมายคำถามในด้านหน้า ของฟังก์ชั่น ยกตัวอย่างเช่น? ผลรวมให้รายละเอียดเกี่ยวกับการบวก ในกรณีที่คุณกำลังมองหาช่วยเหลือในฟังก์ชั่นที่ใช้ถ้าเพียงพิมพ์เรื่อง ("ถ้า") เมื่อคุณเริ่มต้นด้วยแนวคิดใหม่เช่น "Boxplot" มันสะดวกที่จะมีตัวอย่างที่แสดงให้เห็นถึงการส่งออก (พล็อต) และรหัสโปรแกรม ดังกล่าวจะได้รับจากตัวอย่าง (Boxplot) ประวัติศาสตร์ฟังก์ชั่นจะมีประโยชน์สำหรับการเก็บรวบรวมคำสั่งที่ได้รับก่อนหน้านี้. พิมพ์ help.start () เพื่อเปิดเพจ HTML เชื่อมโยงไปยังหลาย wellwritten คู่มือ R เช่น: "รู้เบื้องต้นเกี่ยวกับอาร์" ว่า "R ภาษา Defi- nition", "R การติดตั้งและการบริหาร "และ" อาร์ข้อมูลการนำเข้า / ส่งออก ". ความช่วยเหลือเพิ่มเติมสามารถหาได้จาก http://cran.r-project.org "การมีส่วนร่วม" หน้ามีดีเขียนอิสระที่มีอยู่ในบรรทัด books3 และมีประโยชน์charts4 อ้างอิง http://www.r-project.org ที่คุณสามารถใช้เว็บไซต์ R 2 ฟังก์ชั่นในการอ่านข้อมูลลงใน R มี read.table หรือ read.csv ให้ดูก็เป็น "ข้อมูล R นำเข้า / ส่งออกคู่มือ". 3 "R สำหรับ เริ่มต้น "โดยเอ็มมานู Paradis หรือ" อา Guide "โดยเจสันโอเว่น4" อาบัตรอ้างอิง "โดยทอมสั้นหรือโดยโจนาธานบารอน4 บทที่ 1 บทนำสั้นในการใช้ R ค้นหา Rseek หรือเครื่องมือค้นหาอื่น ๆ ที่มีประโยชน์ มีจำนวนของประโยชน์ของ URL มีข้อมูลเกี่ยวกับ R.5 1.3 การคำนวณด้วย R R สามารถใช้เป็นเครื่องคิดเลขง่าย ยกตัวอย่างเช่นการเพิ่ม 2 และ 3 เราก็ใส่ต่อไป.> 2 + 3 [1] 5 ในการคำนวณหลายฐาน e = 2.718282 ธรรมชาติของฟังก์ชั่นการชี้แจงจะใช้ ประเภทดังกล่าวของฟังก์ชั่นสามารถเรียกว่าเป็นดังต่อไปนี้.> ประสบการณ์ (1) [1] 2.718282 การคำนวณอี2 = อี·อีเมล์ที่เราใช้ประสบการณ์ (2). 6 ดังนั้นแน่นอนเรามีจx = exp (x) สำหรับค่าใด ๆ ของ x. ผลรวม 1 + 2 + 3 + 4 + 5 สามารถคำนวณได้โดย> ผลรวม (1: 5) [1] 15 และผลิตภัณฑ์ 5! = 5 · 4 · 3 · 2 · 1 โดย> แยง (1: 5) [1] 120 1.4 การสร้างลำดับและเป็นปัจจัยในการคำนวณquantiles ที่เรียกว่าการกระจาย (ดูมาตราเช่น2.1.4) หรือแปลง ฟังก์ชั่นที่เราต้องการที่จะสร้างลำดับของตัวเลข วิธีที่ง่ายที่สุดในการสร้างลำดับของตัวเลขคือการ> 1: 5 [1] 1 2 3 4 5 5We กล่าวถึงโดยเฉพาะอย่างยิ่ง: http://faculty.ucr.edu/~tgirke/Documents/R_BioCond/R_BioCondManual.html อาร์กิวเมนต์ 6The ฟังก์ชั่นที่วางอยู่เสมอระหว่างวงเล็บ (). 1.5 COMPUTING บนข้อมูลเวกเตอร์ 5 ลำดับนอกจากนี้ยังสามารถผลิตได้โดยหมายเลขฟังก์ชั่นซึ่งจะช่วยให้ขนาดต่างๆตามขั้นตอนที่ได้รับเลือก ยกตัวอย่างเช่นในการสั่งซื้อเพื่อคำนวณเปอร์เซนต์ของการกระจายเราอาจต้องการที่จะสร้างตัวเลขระหว่างศูนย์และหนึ่งในขั้นตอนที่มีขนาดเท่ากับ0.1.> หมายเลข (0,1,0.1) [1] 0.1 0.2 0.0 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 สำหรับการวางแผนและการทดสอบสมมติฐานที่เราต้องการที่จะสร้างอีกหนึ่งชนิดของลำดับที่เรียกว่า "ปัจจัย" มันถูกออกแบบมาเพื่อแสดงให้เห็นทดลองสภาพของวัดหรือกลุ่มที่ผู้ป่วย belongs.7 เมื่อตัวอย่างเช่นสำหรับแต่ละสามเงื่อนไขการทดลองมีการวัดจากห้าผู้ป่วยปัจจัยที่เกี่ยวข้องที่สามารถสร้างเป็นดังนี้.> ปัจจัย <- GL (3,5)> ปัจจัย[1] 1 1 1 1 1 2 2 2 2 2 3 3 3 3 3 ระดับ: 1 2 3 ทั้งสามเงื่อนไขที่มักจะเรียกว่า "ระดับ" ของปัจจัย แต่ละเหล่านี้ในระดับที่มีห้าซ้ำที่สอดคล้องกับจำนวนของการสังเกต (ผู้ป่วย) ในแต่ละระดับ (ชนิดของโรค) เรายังจะต้องแสดงให้เห็นถึงความคิดของการที่ปัจจัยในเร็ว ๆ นี้เพราะมันมีประโยชน์มากสำหรับวัตถุประสงค์ของการสร้างภาพ. 1.5 บนคอมพิวเตอร์ข้อมูลเวกเตอร์เวกเตอร์ข้อมูลเป็นเพียงคอลเลกชันของตัวเลขที่ได้รับเป็นผลจากการตรวจวัด นี้สามารถแสดงโดยตัวอย่างง่ายๆในการแสดงออกของค่านิยมของยีน สมมติว่าการแสดงออกของยีนที่มีค่า 1, 1.5 และ 1.25 จากบุคคล"เอริค", "ปีเตอร์" และ "แอนนา" ที่มีอยู่ การจัดเก็บเหล่านี้ในเวกเตอร์ที่เราใช้คำสั่ง concatenate ค () ดังต่อไปนี้.> gene1 <- ค (1.00,1.50,1.25)> gene1 [1] 1.00 1.50 1.25 7. ดูเช่น Samuals และ Witmer (2003, บทที่ 8 ) สำหรับคำอธิบายทั้งหมดของการทดลองและหลักการทางสถิติของการออกแบบ. 6 บทที่ 1 บทนำสั้นในการใช้ R ตอนนี้เราได้สร้างวัตถุ gene1 มีสามค่าการแสดงออกของยีน. การคำนวณผลรวมค่าเฉลี่ยและค่าเบี่ยงเบนมาตรฐานของการแสดงออกของยีนค่าเราใช้ตัวในการทำงานที่สอดคล้องกัน.> ผลรวม (gene1) [1] 3.75> ค่าเฉลี่ย (gene1) [1] 1.25> ผลรวม (gene1) / 3 [1] 1.25> SD (gene1) [1] 0.25> sqrt (ผลรวม ((gene1-เฉลี่ย (gene1)) ^ 2) / 2) [1] 0.25 โดยกำหนด x1 = 1.00 x2 = 1.50 และ x3 = 1.25, ผลรวมของน้ำหนักที่สามารถแสดงเป็นPn i = 1 จิน = 3.75 ผลรวมทางคณิตศาสตร์สัญลักษณ์ P นั้นในภาษาR เพียงแค่สรุป ค่าเฉลี่ยจะเขียนแทนด้วย x = P3 i = 1 จิน / 3 = 1.25 และตัวอย่างค่าเบี่ยงเบนมาตรฐานเป็นs = vuutX 3 i = 1 (จิน - x) 2 / (3-1). = 0.25 1.6 การสร้างเมทริกซ์ข้อมูลในประเภทต่างๆของสเปรดชีตมันเป็นที่กำหนดเองในการจัดเก็บค่าของข้อมูลในรูปแบบของเมทริกซ์ที่ประกอบด้วยแถวและคอลัมน์ ในรสยีนค่าการแสดงออก (จากหลายกลุ่มของผู้ป่วย) จะถูกเก็บเป็นแถวเช่นให้แต่ละแถวมีค่าการแสดงออกของผู้ป่วยที่สอดคล้องกันเพื่อยีนเฉพาะและแต่ละคอลัมน์มีค่าการแสดงออกของยีนทั้งหมดบุคคลใดบุคคลหนึ่ง เพื่อแสดงให้เห็นนี้โดยตัวอย่างเล็ก ๆ คิดว่าเรามีค่าที่แสดงออกต่อไปนี้ในสามยีนจากเอริคปีเตอร์และAnna.8> gene2 <- ค (1.35,1.55,1.00)> gene3 <- ค (-1.10, -1.50 , -1.25)> gene4 <- ค (-1.20, -1.30, -1.00) 8BY data.entry ฟังก์ชั่นที่คุณสามารถเปิดและแก้ไขหน้าจอที่มีค่าที่MATR
การแปล กรุณารอสักครู่..
