בעזרת הפונקציות הספציפיות שמציע R, קריאת קבצי CSV לתוך מסגרות נתונים הופכת להיות הרבה יותר פשוטה.
מהו קובץ CSV?
CSV מורכב מתיקיות המכילות ערכים המופרדים בפסיק. בקובץ זה, הערכים מאוחסנים ומופרדים על ידי פסיק. תהליך זה של אחסון הנתונים הוא הרבה יותר פשוט.
למה קובץ CSV הוא הפורמט הנפוץ ביותר לאחסון נתונים?
אחסון הנתונים בגיליון אלקטרוני הוא הפעולה הנפוצה ביותר בחברות רבות. ברוב החברות, אנשים אחסונים נתונים כ-CSV (ערכים מופרדים בפסיק), מכיוון שהתהליך קל יותר מיצירת גיליונות אלקטרוניים רגילים. מאוחר יותר, הם יכולים להשתמש בחבילות המובנות של R כדי לקרוא ולנתח את הנתונים.
כשפונקציות הקריאה של R מובנות בחבילות הסטטיסטיקה, R מציעה לקרוא את הנתונים למסגרות מאורגנות data frames מקובץ CSV.
קריאת קובץ CSV למסגרת נתונים
בדוגמה זו הקצרה, נראה איך ניתן לקרוא קובץ CSV לתוך מסגרת נתונים מאורגנת.
הדבר הראשון בתהליך הזה הוא לקבוע ולהגדיר את תיקיית העבודה. עליך לבחור את הנתיב של קובץ ה-CSV.
1. הגדרת תיקיית העבודה
כאן תוכל לבדוק את תיקיית העבודה המוגדרת כבר באמצעות הפונקציה getwd() וכן תוכל לשנות את התיקייה באמצעות הפונקציה setwd().
>getwd() #מראה את תיקיית העבודה המוגדרת כבר
----> "C:/Users/Dell/Documents"
> setwd("C:\Users\Dell\Documents\R-test data") #לקביעת תיקייה חדשה
> getwd() #ניתן לראות את תיקיית העבודה המעודכנת
---> "C:/Users/Dell/Documents/R-test data"
2. יבוא וקריאת קבצי הנתונים / קובץ ה-CSV
לאחר הגדרת נתיב העבודה, עליך לייבא את מערך הנתונים או קובץ ה-CSV כמו שמוצג למטה.
> readfile <- read.csv("testdata.txt")
הרץ את הקוד לעיל ב-R Studio כדי לקבל את מסגרת הנתונים כמופיע למטה.
כדי לבדוק את המחלקה של המשתנה 'readfile', הרץ את הקוד למטה.
> class(readfile)
---> "data.frame"
בתמונה לעיל ניתן לראות את מסגרת הנתונים שכוללת את פרטי התלמידים, מספרי הזיהוי שלהם, המחלקות שלהם, מגדרם וציוניהם.
3. חילוץ מידע על התלמידים מקובץ ה-CSV
לאחר שקיבלת את מסגרת הנתונים, כעת ניתן לנתח את הנתונים. ניתן לחלץ מידע מסוים ממסגרת הנתונים.
כדי לחלץ את הציונים הגבוהים ביותר שנקלטו על ידי התלמידים,
>marks <- max(data$Marks.Scored) # זה יתן לך את הציונים הגבוהים ביותר
# כדי לחלץ את פרטי התלמיד שקיבל את הציונים הגבוהים ביותר,
> data <- read.csv("traindata.csv")
> Marks <- max(data$Marks.Scored)
> retval <- subset(data, Marks.Scored == max(Marks.Scored)) # זה י
extract the details of the student who secured highest marks
> View(retval)
כדי לחלץ את פרטי התלמידים הלומדים במחלקת 'כימיה',
> readfile <- read.csv("traindata.csv")
> retval <- subset( data, Department == "chemistry") # זה יחלץ את פרטי התלמידים הלומדים במחלקת ביוכימיה
> View(retval)
מסקנה
לְיוֹתֵר קלות, ניתן לקרוא את קבצי ה-CSV בְּR באמצעות השימוש בפונקציית `read.csv("")`. המדריך הזה מכסה כיצד לייבא את קובץ ה-CSV, לקרוא אותו ולחלץ ממנו מידע מסוים.
I used R studio for this project. RStudio offers great features like console, editor, and environment as well. Anyhow you are free to use other editors like Thinn-R, Crimson editor, etc. I hope this tutorial will help you in understanding the reading of CSV files in R and extracting some information from the data frame.
למידע נוסף: https://cran.r-project.org/manuals.html
Source:
https://www.digitalocean.com/community/tutorials/r-read-csv-file-into-data-frame