使用R提供的特定功能,将CSV文件读入数据框变得更加简单。
什么是CSV文件?
CSV的扩展名是逗号分隔值。在这个文件中,存储的值被逗号分隔。这种存储数据的过程要简单得多。
为什么CSV是最常用的数据存储文件格式?
在许多公司中,将数据存储在Excel表格中是最常见的做法。在大多数公司中,人们将数据存储为逗号分隔值(CSV),因为这个过程比创建普通的电子表格更容易。随后,他们可以使用R内置的包来读取和分析数据。
作为最流行和强大的统计分析编程语言,R提供了特定的函数,从CSV文件中将数据读入组织良好的数据框。
读取 CSV 文件到数据框
在这个简短的例子中,我们将看到如何将 CSV 文件读入到组织良好的数据框中。
这个过程的第一步是获取并设置工作目录。您需要选择 CSV 文件的工作路径。
1. 设置工作目录
您可以使用 getwd() 函数检查默认的工作目录,并且您也可以使用 setwd() 函数更改目录。
>getwd() #显示默认工作目录
----> "C:/Users/Dell/Documents"
> setwd("C:\Users\Dell\Documents\R-test data") #设置新的工作目录
> getwd() #您可以查看更新后的工作目录
---> "C:/Users/Dell/Documents/R-test data"
2. 导入和读取数据集/CSV 文件
在设置了工作路径之后,您需要导入数据集或 CSV 文件,如下所示。
> readfile <- read.csv("testdata.txt")
在R Studio中执行上述代码以获得如下所示的数据框。
要检查变量’readfile’的类别,请执行下面的代码。
> class(readfile)
---> "data.frame"
在上面的图像中,您可以看到包括学生姓名、他们的ID、部门、性别和分数信息的数据框。
3. 从CSV文件中提取学生信息
获取数据框后,您现在可以分析数据。您可以从数据框中提取特定信息。
要提取学生的最高分,
>marks <- max(data$Marks.Scored) # 这将给您最高分
# 要提取获得最高分的学生的详细信息,
> data <- read.csv("traindata.csv")
> Marks <- max(data$Marks.Scored)
> retval <- subset(data, Marks.Scored == max(Marks.Scored)) # 这将
extract the details of the student who secured highest marks
> View(retval)
要提取正在‘化学’系学习的学生的详细信息,
> readfile <- read.csv("traindata.csv")
> retval <- subset( data, Department == "chemistry") # 这将提取正在生物化学系学习的学生的详细信息
> View(retval)
结论
通过这个过程,您可以使用`read.csv(“”)`函数在R中读取CSV文件。本教程涵盖了如何导入CSV文件、读取CSV文件并从数据框中提取一些特定信息。
I used R studio for this project. RStudio offers great features like console, editor, and environment as well. Anyhow you are free to use other editors like Thinn-R, Crimson editor, etc. I hope this tutorial will help you in understanding the reading of CSV files in R and extracting some information from the data frame.
了解更多信息,请访问:https://cran.r-project.org/manuals.html
Source:
https://www.digitalocean.com/community/tutorials/r-read-csv-file-into-data-frame