Het lezen van het CSV-bestand in DataFrames in R

Met behulp van specifieke functies die R biedt, is het veel eenvoudiger om CSV-bestanden in gegevensframes te lezen.

Wat is een CSV-bestand?

CSV staat voor Comma Separated Values. In dit bestand zijn de opgeslagen waarden gescheiden door een komma. Dit proces van gegevensopslag is veel eenvoudiger.


Waarom is CSV het meest gebruikte bestandsformaat voor gegevensopslag?

Het opslaan van gegevens in een Excel-blad is de meest voorkomende praktijk in veel bedrijven. In de meeste bedrijven slaan mensen gegevens op als door komma’s gescheiden waarden (CSV), omdat het proces eenvoudiger is dan het maken van normale spreadsheets. Later kunnen ze de ingebouwde pakketten van R gebruiken om gegevens te lezen en te analyseren.

Als de meest populaire en krachtige programmeertaal voor statistische analyse biedt R specifieke functies om gegevens in georganiseerde gegevensframes vanuit een CSV-bestand te lezen.


Het lezen van een CSV-bestand naar een gegevensframe

In dit korte voorbeeld zullen we zien hoe we een CSV-bestand kunnen lezen in georganiseerde gegevensframes.

Het eerste wat je moet doen in dit proces is het instellen van de werkmap. Je moet het werkpad van het CSV-bestand kiezen.

1. Het instellen van de werkmap

Hier kun je de standaardwerkmap controleren met de functie getwd() en je kunt ook de map wijzigen met de functie setwd().

>getwd() # Toont de standaardwerkmap

---->   "C:/Users/Dell/Documents"

> setwd("C:\Users\Dell\Documents\R-test data") # om de nieuwe werkmap in te stellen

> getwd() # je kunt de bijgewerkte werkmap zien

---> "C:/Users/Dell/Documents/R-test data"

2. Importeren en lezen van het dataset / CSV-bestand

Na het instellen van het werkpad moet je het dataset of een CSV-bestand importeren zoals hieronder weergegeven.

> readfile <- read.csv("testdata.txt")

Voer de bovenstaande regel code uit in R Studio om het gegevensframe zoals hieronder getoond te verkrijgen.

Om de klasse van de variabele ‘readfile’ te controleren, voer de onderstaande code uit.

> class(readfile)

---> "data.frame"            

In de bovenstaande afbeelding kunt u het gegevensframe zien met de informatie over studentennamen, hun ID’s, afdelingen, geslacht en cijfers.

3. Het extraheren van de informatie van studenten uit het CSV-bestand

Nadat u het gegevensframe heeft verkregen, kunt u nu de gegevens analyseren. U kunt specifieke informatie uit het gegevensframe extraheren.

Om de hoogste cijfers behaald door studenten te extraheren,

>marks <- max(data$Marks.Scored) #dit zal je de hoogste cijfers geven

#Om de details van een student die de hoogste cijfers heeft behaald, te extraheren,

> data <- read.csv("traindata.csv")

> Marks <- max(data$Marks.Scored)

> retval <- subset(data, Marks.Scored == max(Marks.Scored))   #Dit zal
 extract the details of the student who secured highest marks 

> View(retval)

Om de details van de studenten die studeren aan de ‘chemie’-afdeling te extraheren,

> readfile <- read.csv("traindata.csv")

> retval <- subset( data, Department == "chemistry")  # Dit zal de gegevens van de studenten extraheren die aan de afdeling Biochemie studeren 
 
> View(retval)


Conclusie

Door dit proces kun je de csv-bestanden in R lezen met behulp van de read.csv(” “) functie. Deze tutorial behandelt hoe je het csv-bestand kunt importeren en lezen, en hoe je specifieke informatie uit het gegevenskader kunt extraheren.

I used R studio for this project. RStudio offers great features like console, editor, and environment as well. Anyhow you are free to use other editors like Thinn-R, Crimson editor, etc. I hope this tutorial will help you in understanding the reading of CSV files in R and extracting some information from the data frame.

Voor meer informatie, zie: https://cran.r-project.org/manuals.html

Source:
https://www.digitalocean.com/community/tutorials/r-read-csv-file-into-data-frame