借助R提供的特定功能,将CSV文件读入数据框变得更加容易。
什么是CSV文件?
CSV代表逗号分隔值。在此文件中,存储的值由逗号分隔。这种存储数据的过程更加简单。
为什么CSV是最常用的数据存储文件格式?
在许多公司中,将数据存储在Excel表中是最常见的做法。在大多数公司中,人们将数据存储为逗号分隔值(CSV),因为这个过程比创建普通电子表格更容易。随后,他们可以使用R的内置包来读取和分析数据。
作为最受欢迎和功能强大的统计分析编程语言,R提供了特定的函数,从CSV文件中将数据读入到组织良好的数据框中。
讀取 CSV 檔案到資料框
在這個簡短的範例中,我們將看到如何將 CSV 檔案讀取到有組織的資料框中。
在這個過程中的第一件事是設定工作目錄。您需要選擇 CSV 檔案的工作路徑。
1. 設定工作目錄
在這裡,您可以使用 getwd() 函數檢查預設的工作目錄,並使用 setwd() 函數更改目錄。
>getwd() # 顯示預設的工作目錄
----> "C:/Users/Dell/Documents"
> setwd("C:\Users\Dell\Documents\R-test data") # 設定新的工作目錄
> getwd() # 您可以看到更新後的工作目錄
---> "C:/Users/Dell/Documents/R-test data"
2. 匯入並讀取資料集 / CSV 檔案
設定工作路徑後,您需要導入資料集或 CSV 檔案,如下所示。
> readfile <- read.csv("testdata.txt")
在R Studio中执行上述代码以获取如下所示的数据框。
要检查变量’readfile’的类别,请执行以下代码。
> class(readfile)
---> "data.frame"
在上图中,您可以看到包含学生姓名、他们的ID、部门、性别和成绩信息的数据框。
3. 从CSV文件中提取学生信息
获得数据框后,您现在可以分析数据。您可以从数据框中提取特定信息。
要提取学生的最高分,请执行以下操作:
>marks <- max(data$Marks.Scored) #这将给您最高分
#要提取得分最高的学生的详细信息,
> data <- read.csv("traindata.csv")
> Marks <- max(data$Marks.Scored)
> retval <- subset(data, Marks.Scored == max(Marks.Scored)) #这将
extract the details of the student who secured highest marks
> View(retval)
要提取在’化学’系学习的学生的详细信息,请执行以下操作。
> readfile <- read.csv("traindata.csv")
> retval <- subset( data, Department == "chemistry") #这将提取在生物化学系的学生详细信息
> View(retval)
结论
透過這個過程,您可以使用 read.csv() 函數在 R 中讀取 csv 檔案。本教程涵蓋了如何導入 csv 檔案、讀取 csv 檔案以及從資料框中提取一些特定信息。
I used R studio for this project. RStudio offers great features like console, editor, and environment as well. Anyhow you are free to use other editors like Thinn-R, Crimson editor, etc. I hope this tutorial will help you in understanding the reading of CSV files in R and extracting some information from the data frame.
Source:
https://www.digitalocean.com/community/tutorials/r-read-csv-file-into-data-frame