在 R 中将 CSV 文件读入数据框

借助R提供的特定功能,将CSV文件读入数据框变得更加容易。

什么是CSV文件?

CSV代表逗号分隔值。在此文件中,存储的值由逗号分隔。这种存储数据的过程更加简单。


为什么CSV是最常用的数据存储文件格式?

在许多公司中,将数据存储在Excel表中是最常见的做法。在大多数公司中,人们将数据存储为逗号分隔值(CSV),因为这个过程比创建普通电子表格更容易。随后,他们可以使用R的内置包来读取和分析数据。

作为最受欢迎和功能强大的统计分析编程语言,R提供了特定的函数,从CSV文件中将数据读入到组织良好的数据框中。


讀取 CSV 檔案到資料框

在這個簡短的範例中,我們將看到如何將 CSV 檔案讀取到有組織的資料框中。

在這個過程中的第一件事是設定工作目錄。您需要選擇 CSV 檔案的工作路徑。

1. 設定工作目錄

在這裡,您可以使用 getwd() 函數檢查預設的工作目錄,並使用 setwd() 函數更改目錄。

>getwd() # 顯示預設的工作目錄 

---->   "C:/Users/Dell/Documents"

> setwd("C:\Users\Dell\Documents\R-test data") # 設定新的工作目錄

> getwd() # 您可以看到更新後的工作目錄

---> "C:/Users/Dell/Documents/R-test data"

2. 匯入並讀取資料集 / CSV 檔案

設定工作路徑後,您需要導入資料集或 CSV 檔案,如下所示。

> readfile <- read.csv("testdata.txt")

在R Studio中执行上述代码以获取如下所示的数据框。

要检查变量’readfile’的类别,请执行以下代码。

> class(readfile)

---> "data.frame"            

在上图中,您可以看到包含学生姓名、他们的ID、部门、性别和成绩信息的数据框。

3. 从CSV文件中提取学生信息

获得数据框后,您现在可以分析数据。您可以从数据框中提取特定信息。

要提取学生的最高分,请执行以下操作:

>marks <- max(data$Marks.Scored) #这将给您最高分

#要提取得分最高的学生的详细信息,

> data <- read.csv("traindata.csv")

> Marks <- max(data$Marks.Scored)

> retval <- subset(data, Marks.Scored == max(Marks.Scored))   #这将
 extract the details of the student who secured highest marks 

> View(retval)

要提取在’化学’系学习的学生的详细信息,请执行以下操作。

> readfile <- read.csv("traindata.csv")

> retval <- subset( data, Department == "chemistry")  #这将提取在生物化学系的学生详细信息
 
> View(retval)


结论

透過這個過程,您可以使用 read.csv() 函數在 R 中讀取 csv 檔案。本教程涵蓋了如何導入 csv 檔案、讀取 csv 檔案以及從資料框中提取一些特定信息。

I used R studio for this project. RStudio offers great features like console, editor, and environment as well. Anyhow you are free to use other editors like Thinn-R, Crimson editor, etc. I hope this tutorial will help you in understanding the reading of CSV files in R and extracting some information from the data frame.

了解更多: https://cran.r-project.org/manuals.html

Source:
https://www.digitalocean.com/community/tutorials/r-read-csv-file-into-data-frame