به نام خدا

مقدمات R

فهرست مطالب

نصب کردن R
پکیج‌های R
مقدمات R
توابع آماری
داده‌ساختار‌ها در R
نکات تکمیلی

نصب کردن R

ابتدا R را از اینجا دانلود کنید.

نصب کردن R بر روی Jupyter Notebook:
بعد از نصب‌کردن R ، آن را اجرا کنید.
در کنسولِ آن ، دستور زیر را اجرا کنید تا پکیج های مورد نیاز دانلود و نصب شود.

install.packages(c('repr', 'IRdisplay', 'evaluate', 'crayon', 'pbdZMQ', 'devtools', 'uuid', 'digest'))

سپس با استفاده از پکیج devtools ، پکیج IRkernel را نصب می‌کنیم :
دستور زیر را اجرا کنید.

devtools::install_github('IRkernel/IRkernel')

و حال باید R kernel را برای Jupyter نمایان کنیم.

IRkernel::installspec()

نصب R Studio :
R studio یک محیط گرافیکی برای کار باR می‌باشد. برای نصب آن را از اینجا دانلود کنید.

پکیج‌های R

مجموعه دستورات مفید در ارتباط با پکیج‌ها :

## Installing a package
install.packages("package-name")

## Removing a package
remove.packages("")

## Installed packages that need to be updated
old.packages()

## Updating old packages
update.packages()

## Using a function from a package without loading the package 
### PackageName::function()
ggplot2::geom_point

مقدمات R

print("Hello World!")

[1] "Hello World!"

چاپ کردن :
فرض کنید که می‌خواهیم مقدار یک عبارت و یا متغیر را نمایش دهیم. برای این کار کافیست تا آن عبارت و یا متغیر را اجرا کرده و نتیجه چاپ می‌شود.

1 + 1
pi
sqrt(8)

همینطور از تابع ()print نیز برای چاپ کردن می‌توانیم استفاده کنیم.

print(pi)

[1] 3.141593

نکته‌ای که تابع ()print را متمایز می کند این است که هر شی (Object) را که در R داریم در فرمت درست چاپ می‌کند.
به عنوان مثال در زیر یک ماتریس را چاپ می‌کنیم. (درباره‌ی داده‌ساختار‌ها در جلوتر صحبت خواهیم کرد.)

print(matrix(c(1,2,3,4),2,2))

     [,1] [,2]
[1,]    1    3
[2,]    2    4

توجه : تابع ()print در هربار تنها یک شی را چاپ می‌کند.

print("Pi number is equal to " , pi)

[1] "Pi number is equal to "

برای این‌کار از تابع ()cat استفاده می‌کنیم.

cat("Pi number is equal to", pi , "\n")

Pi number is equal to 3.141593

تابع ()cat توانایی چاپ بردار (Vector) های ساده را نیز دارد.

cat("12 months of the year are" , month.name , "\n")

12 months of the year are January February March April May June July August September October November December

(month.name و pi از جمله ثابت هایی هستند که خود R فراهم می‌کند.)

تعریف متغیر :
در R برای تعریف یک متغیر نیاز به آوردن نوع آن نمی‌باشد. کافیست از عملگر -> استفاده کنیم.

s <- "this is a string"
x <- 4
s
print(x)

[1] 4

نکته 1 : در اسم‌گذاری شی‌ها (Objects) می‌توانید از نقطه "." نیز در نام آن‌ها استفاده‌کنید همانطور که در بالاتر دیدیم month.name اسم یک بردار در R می‌باشد.
نکته 2 : از = نیز می‌توان برای مقدار‌دهی استفاده کرد ، اما در R ، عملگر = کاربرد دیگری نیز دارد که آن مشخص کردن یک پارامتر در یک تابع می‌باشد. برای همین بهتر است از -> استفاده کنیم.
اینجا را مطالعه کنید.

با تعریف یک متغیر به این شکل ، متغیر در workspace نگه داشته می‌شود.
برای مشاهده متغیر‌ها و توابعی که در workspace ما قرار دارد از تابع ()ls استفاده می‌کنیم.
برای دریافت جزئیات از ()ls.str استفاده کنید.

ls()
ls.str()
a <- 4
ls()
ls.str()

s :  chr "this is a string"
x :  num 4

a :  num 4
s :  chr "this is a string"
x :  num 4

با استفاده از دستور ()rm می‌توانید متغیر‌ها را از workspace خود پاک کنید.

print("Removing x")
rm("x")
ls.str()

##Clearing the workspace
rm(list = ls())

print("The workspace now :")
ls()

[1] "Removing x"

a :  num 4
s :  chr "this is a string"

[1] "The workspace now :"

کمک گرفتن در R :
یکی از بهترین راه‌های یادگیری و کمک گرفتن ، مطالعه مستندات پکیج‌ها و توابع می‌باشد که در خود R موجود می‌باشند.

از روش‌های زیر می‌توانید این مستندات را ببینید.

## Documentation of installed functions
?mean

## Documentation of functions
??highchart

## Documentation of packages or functions
help("")

#### Getting help on packages
vignette("")

Warning message:
“vignette ‘’ not found”

ساخت یک بردار :
بردار‌ها از اصلی ترین قسمت‌های R می‌باشند. بردار‌ها می‌توانند شامل اعداد ، رشته‌ها یا مقادیر منطقی باشند اما نمی‌توانند به صورت ترکیبی از چند نوع باشند.
با عملگر ()c می‌توانید یک بردار بسازید.

c(1,3,3*pi,4+5)
c(T,F,T)

اگر مقادیر داده شده به ()c خود ، بردار باشند آن‌ها را باز کرده و با دیگر مقادیر ترکیب می‌کند.

v1 <- c(1,4,5)
v2 <- c(8,5,6)
c(2,v1,v2,0)

مقایسه دو بردار :
با مقایسه دو بردار ، R عضو به عضو دو بردار را مقایسه کرده و برداری از مقادیر منطقی True – False برمی‌گرداند.

v <- c(2,4,6)
u <- c(3,4,5)

u != v   # 2 != 3  4 == 4  6 != 5

v > u    # 2 < 3   4 == 4   6 > 5

همین طور :

u > 4
v*2 > 7

انتخاب یک یا چند عضو بردار :
بر حسب شرایط به یک یا چند روش زیر عمل می‌کنیم.

- استفاده از کروشه و انتخاب اعضا بر حسب اندیس آن‌ها. (توجه کنید که R اندیس‌ها از 1 شروع می‌شود.)

v <- c(0,10,20,30,7,11,23)
v[1]

- استفاده از اندیس های منفی به عنوان اعضای مستثنی شده.

v[-1]

- استفاده از برداری از اندیس‌ها برای انتخاب چند عضو

v[2:4]
v[c(2,3,4)]
v[-c(2,3,4)]

- استفاده از یک بردار منطقی (در بالاتر دیدیم که با اعمال عملگر‌های منطقی بر یک بردار ، خروجی یک بردار شامل مقادیر منطقی می‌باشد.)

v[v > 8]
v[v > median(v)]

تولید دنباله‌ای از اعداد :
- ساده‌ترین راه تولید دنباله با افزایش 1 :

4:9
-3:7

فکر می‌کنید خروجی 6:4 چیست ؟

6:4

- می‌توانید برای ایجاد دنباله‌هایی با هر مقدار افزایش و یا با طول دنباله ایجاد شده مشخص از تابع ()seq استفاده کنید.

seq(from = 3, to = 8, by = 2)
seq(from = 5, to = 20, length.out = 4)
seq(1,2,length.out = 5)

- برای ایجاد مقادیر تکراری از تابع ()rep استفاده می‌کنیم.

rep(2,times = 4)

c(1:5,seq(6,10),(1:5)+10)

توابع آماری

به طور پیش‌فرض در پکیج stats در R بسیاری از توابع کارآمد آماری موجود است که در زیر به بخشی از آن‌ها می‌پردازیم.

توابع مقدماتی آماری :

u <- c(10:1)
u

print("Mean :")
mean(u)

print("Standard Deviation :")
sd(u)

print("Variance :")
var(u)

print("Min :")
min(u)

print("Max :")
max(u)

print("Median :")
median(u)

[1] "Mean :"

[1] "Standard Deviation :"

[1] "Variance :"

[1] "Min :"

[1] "Max :"

[1] "Median :"

و توابع توزیع‌های احتمالاتی :

## For a random sample of normal distribution
sample <- rnorm(n = 5, mean = 0, sd = 1)
sample
##For other distributions:
## Use    runif    for uniform sample
## Use    rbinom   for binomial sample
## ...

علاوه بر تابع بالا ، ()dnorm چگالی توزیع را و ()pnorm تابع توزیع را بر می‌گردانند.

داده‌ساختار‌ها در R

بردار‌ها :
در مورد بردار‌ها بالاتر صحبت کردیم و در این بخش تنها به چند نکته تکمیلی می‌پردازیم :
- اضافه‌کردن داده به بردار :

vec <- 1:6
vec

newVec <- c(vec,10,vec)
newVec

## Inserting Data into a Vector
append(vec,8:10, after = 2)

قانون بازیافت در R :
پیش‌تر گفتیم که در هنگام انجام اعمال محاسباتی در R بر روی بردار‌ها ، R عمل مورد نظر را بر روی تک‌تک اعضا‌ی دو بردار انجام می‌دهد.
حال اگر طول دو بردار برابر نباشد چه می‌شود ؟

در این مواقع R ، قانون بازیافت را بر روی بردار کوچک‌تر اعمال می‌کند.
یعنی دوباره از عضو اول بردار کوچک‌تر شروع می‌کند و به عنوان عضو بعدی از آن استفاده می‌کند.

1:6 + 1:3

## 1 2 3 4 5 6
##    +
## 1 2 3 1 2 3

c(1,2,3,10,20,30) + 1:5

## 1 2 3 10 20 30
##     +
## 1 2 3  4  5  1

Warning message in c(1, 2, 3, 10, 20, 30) + 1:5:
“longer object length is not a multiple of shorter object length”

ماتریس‌ها
یکی از داده‌ساختار‌ های موجود در R ماتریس‌ها می‌باشند.

## Create a matrix using matrix() function

# 2*4 matrix
matrix(1:8, nrow = 2)

#2*4 matrix, each row is filled first
matrix(1:8,nrow = 2, byrow = T)

# 4*2 matrix
matrix(1:8, ncol = 2)

## Name columns and rows of a matrix
m <- matrix(1:4,nrow = 2)
colnames(m) <- c("col one","col two")
rownames(m) <- c("row one","row two")
m

## Calling elements
print(m[2,])
print(m[,2])
print(m[2,2])

col one col two 
      2       4 
row one row two 
      3       4 
[1] 4

# Arithmatic on matrices
print("Scalar Multiplication:")
m * 2
print("Element Wise Multiplication:")
m * m
print("Matrix Multiplication:")
m %*% m

[1] "Scalar Multiplication:"

[1] "Element Wise Multiplication:"

[1] "Matrix Multiplication:"

Dataframes:
Dataframe مهم‌ترین و پراستفاده‌ترین داده‌ساختاری است که در R می‌باشد.
یک جدول که در آن هر ستون شامل مقادیر یک متغیر و هر سطر شامل مجموعه‌ای از مقادیر هر ستون می‌باشد.

## Create a dataframe with data.frame()
df <- data.frame(
    ID = 1:5,
    Name = c("Ali","Reza","Kiarash","Nima","Hossein"),
    Grade = c(20,16,17.5,14,19))

df

## Summary of a dataframe
summary(df)

       ID         Name       Grade     
 Min.   :1   Ali    :1   Min.   :14.0  
 1st Qu.:2   Hossein:1   1st Qu.:16.0  
 Median :3   Kiarash:1   Median :17.5  
 Mean   :3   Nima   :1   Mean   :17.3  
 3rd Qu.:4   Reza   :1   3rd Qu.:19.0  
 Max.   :5               Max.   :20.0

##Selecting elements
df$Grade

df[1,]

df[,1]

df[df$Grade > 18,]

df[c("ID","Grade")]

همینطور هنگامی که مجموعه‌داده‌ای را از یک فایل می‌خوانید به صورت dataframe دخیره می‌شود.

## Depending on the format of dataset
## for example inorder to read a .csv file, use read.csv()
read.csv("Address of the file")

Warning message in file(file, "rt"):
“cannot open file 'Address of the file': No such file or directory”

Error in file(file, "rt"): cannot open the connection
Traceback:

1. read.csv("Address of the file")
2. read.table(file = file, header = header, sep = sep, quote = quote, 
 .     dec = dec, fill = fill, comment.char = comment.char, ...)
3. file(file, "rt")

نکات تکمیلی

یکی از بهترین راه‌های دسترسی سریع و مرور نکات پایه‌ای R ، استفاده از cheat sheet های R می‌باشد.
در کنار این نوت‌بوک cheat sheet نکات پایه‌ای قرار داده‌شده که می‌توانید از آن استفاده کنید.
همینطور یک cheat sheet دیگر برای کار با R Studio نیز قرار داده شده است.

ID	Name	Grade
1	Ali	20.0
2	Reza	16.0
3	Kiarash	17.5
4	Nima	14.0
5	Hossein	19.0

ID	Grade
1	20.0
2	16.0
3	17.5
4	14.0
5	19.0