R處理數據的案例

將學生的各科考試成績組合為單壹的成績衡量指標、基於相對名次（前20%，下20%，等等）給出從A到F的評分、根據學生姓氏和名字的首字母對花名冊進行排序

代碼如下：

[python] view plain copy

print?

options(digits = 2)

Student<-c("John Davis","Angela Williams","Bullwinkle Moose","David Jones",

"Janice Markhammer","Cheryl Cushing","Reuven Ytzrhak","Greg Knox",

"Joel England","Mary Rayburn")

Math<-c(502,600,412,358,495,512,410,625,573,522)

Science<-c(95,99,80,82,75,85,80,95,89,86)

English<-c(25,22,18,15,20,28,15,30,27,18)

roster<-data.frame(Student,Math,Science,English,stringsAsFactors = FALSE)

head(roster)

tail(roster)

z<-scale(roster[,2:4])

score<-apply(z, 1, mean)

roster<-cbind(roster,score)

help(quantile)

y<-quantile(score,c(.8,.6,.4,.2))

str(y)

roster$grade[score>=y[1]]<- "A"

roster$grade[score<y[1]& score>=y[2]]<-"B"

roster$grade[score<y[2]& score>=y[3]]<-"C"

roster$grade[score<y[3]& score>=y[4]]<-"D"

roster$grade[score<y[4]]<-"F"

name<-strsplit((roster$Student)," ")

lastname<-sapply(name,"[",2)

fristname<-sapply(name,"[",1)

roster<-cbind(fristname,lastname,roster[,-1])

roster<-roster[order(lastname,fristname),]

roster[,-9]

以上代碼寫得比較緊湊，逐步分解如下。

步驟1 原始的學生花名冊已經給出了。options(digits=2)限定了輸出小數點後數字的位數，

並且讓輸出更容易閱讀。

步驟2 由於數學、科學和英語考試的分值不同（均值和標準差相去甚遠），在組合之前需要先讓它們變得可以比較。壹種方法是將變量進行標準化，這樣每科考試的成績就都是用單位標準差來表示，而不是以原始的尺度來表示了。這個過程可以使用scale()函數來實現。

[python] view plain copy

print?

Math Science English

[1,] 0.013 1.078 0.587

[2,] 1.143 1.591 0.037

[3,] -1.026 -0.847 -0.697

[4,] -1.649 -0.590 -1.247

[5,] -0.068 -1.489 -0.330

[6,] 0.128 -0.205 1.137

[7,] -1.049 -0.847 -1.247

[8,] 1.432 1.078 1.504

[9,] 0.832 0.308 0.954

[10,] 0.243 -0.077 -0.697

步驟3 然後，可以通過函數mean()來計算各行的均值以獲得綜合得分，並使用函數cbind()將其添加到花名冊中：

[python] view plain copy

print?

>roster[,-9]

fristname lastname lastname.1 Math Science English score

5 Cheryl Cushing Markhammer 495 75 20 -0.63

6 John Davis Cushing 512 85 28 0.35

2 Joel England Williams 600 99 22 0.92

4 David Jones Jones 358 82 15 -1.16

10 Greg Knox Rayburn 522 86 18 -0.18

8 Janice Markhammer Knox 625 95 30 1.34

9 Bullwinkle Moose England 573 89 27 0.70

7 Mary Rayburn Ytzrhak 410 80 15 -1.05

1 Angela Williams Davis 502 95 25 0.56

3 Reuven Ytzrhak Moose 412 80 18 -0.86

步驟4 函數quantile()給出了學生綜合得分的百分位數。可以看到，成績為A的分界點為0.74，B的分界點為0.44，等等。

[python] view plain copy

print?

> y

80% 60% 40% 20%

0.74 0.44 -0.36 -0.89

步驟5 通過使用邏輯運算符，妳可以將學生的百分位數排名重編碼為壹個新的類別型成績變量。下面在數據框roster中創建了變量grade

步驟6 妳將使用函數strsplit()以空格為界把學生姓名拆分為姓氏和名字。把strsplit()應用到壹個字符串組成的向量上會返回壹個列表：

[python] view plain copy

print?

name<-strsplit((roster$Student)," ")

[python] view plain copy

print?

> name

[[1]]

[1] "John" "Davis"

[[2]]

[1] "Angela" "Williams"

[[3]]

[1] "Bullwinkle" "Moose"

[[4]]

[1] "David" "Jones"

[[5]]

[1] "Janice" "Markhammer"

[[6]]

[1] "Cheryl" "Cushing"

[[7]]

[1] "Reuven" "Ytzrhak"

[[8]]

[1] "Greg" "Knox"

[[9]]

[1] "Joel" "England"

[[10]]

[1] "Mary" "Rayburn"

步驟7 妳可以使用函數sapply()提取列表中每個成分的第壹個元素，放入壹個儲存名字的向量，並提取每個成分的第二個元素，放入壹個儲存姓氏的向量。"["是壹個可以提取某個對象的壹部分的函數——在這裏它是用來提取列表name各成分中的第壹個或第二個元素的。妳將使用cbind()把它們添加到花名冊中。由於已經不再需要student變量，可以將其丟棄（在下標中使用?1）。

步驟8 最後，可以使用函數order()依姓氏和名字對數據集進行排序.

[python] view plain copy

print?

> roster[,-9]

fristname lastname lastname.1 Math Science English score grade

5 Cheryl Cushing Markhammer 495 75 20 -0.63 C

6 John Davis Cushing 512 85 28 0.35 B

2 Joel England Williams 600 99 22 0.92 B

4 David Jones Jones 358 82 15 -1.16 F

10 Greg Knox Rayburn 522 86 18 -0.18 A

8 Janice Markhammer Knox 625 95 30 1.34 D

9 Bullwinkle Moose England 573 89 27 0.70 D