המדריך העברי למשתמש ב-R

Author

דר’ עדי שריד

Published

2024-03-23

הקדמה

R שפה נפלאה, היא התחילה כשפה סטטיסטית, וגם כיום זה השימוש המרכזי שלה. בפועל אפשר לעשות בה כמעט הכל. החל מניתוח נתונים ועד בניית אפליקציות ואוטומציות מורכבות. אצלנו בעסק (מכון שריד) אנחנו משתמשים ב-R לניתוח נתונים, הצגת תוצאות עם דשבורדים בזמן אמת, הפקת דוחות Power Point בלחיצת כפתור, אוטומציות של תהליכים שונים בעסק, ועוד הרבה - היא הפכה לכלי עבודה שימושי והחליפה הרבה מאוד מהדברים שהיינו עושים בעבר עם כלים אחרים.

ללומדים את השפה יש מקורות רבים ומגוונים - ספרים, סרטוני YouTube, בלוגים, ועוד. העניין הוא שרוב המקורות שישנם כתובים באנגלית. זה מה שהביא אותי לכתוב את הספר הזה, ולעזור לקהל הקוראים שיותר נוח לו ללמוד R בעברית.

התוכן שבספר שלפניכם מבוסס על מספר קורסים שלימדתי בשנים האחרונות, כולל הכשרות מקצועיות בחברות סטארטאפ, וקורסי לימוד לתואר ראשון שנתתי באוניברסיטה.

למי מיועד הספר?

אם אתם עובדים היום עם נתונים ומשתמשים ב-Excel או בכל כלי אחר, ומעוניינים לעבור לכלי חזק משמעותית שיגדיל את הגמישות, סל היכולות שלכם, ומהירות העבודה שלכם.

אם אתם סטודנטים שלומדים מקצוע כמותי, כגון מבוא לסטטיסטיקה או קורס מתקדם בסטטיסטיקה.

אם אתם עוברים מכלי סטטיסטי אחר (כגון SAS, SPSS, או אחרים) ומעוניינים למנף את הכלים והיכולות שיש ל-R להציע.

הספר מתאים גם לכאלו שיודעים R ברמה בינונית ורוצים לחזק את הבסיס, או כאלו שרוצים להשתפשף בידיעות שלהם על החבילות שנלמדות בספר (כמו tidyverse).

הספר אינו נועד להחליף ספרי תיאוריה סטטיסטית, הוא אינו מכסה תיאוריה סטטיסטית לעומק, אלא בעיקר מדגים כיצד ניתן לממש כלים סטטיסטיים שונים באמצעות R.

למה R ולא Python?

כמו שמרמזת הכותרת, יש היום שתי שפות שמובילות בתחום ה-Data Science, הן R ו-Python. בנקודה הזו אין שחור ולבן, טוב יותר או פחות. אני עובד בשתי השפות, ולי באופן אישי יש העדפה חזקה לשימוש ב-R, פשוט כי היא מרגישה לי יותר טבעית, זה כנראה נגזרת של העובדה שזה מה שלמדתי בהתחלה, וזה מה שהתמקצעתי בו. בפועל בשתי השפות יש כלים רבים ושימושיים, ובכל הקשור במשימות של ניתוח נתונים, שתי השפות נותנות מענה טוב מאוד.

מבין שתיהן Python יותר נפוצה משום שהיא נפוצה כשפת תכנות (באופן כללי), בעוד ש-R מוכוונת יותר לתחום הסטטיסטיקה. בפועל, שתיהן עושות את העבודה, וכדאי להתאים את השפה לצורך. לדוגמה R הרבה פעמים נוחה יותר לביצוע ניתוח נתונים, אבל ל-Python עשוי להיות יתרון במעבר ל-Production (הטמעה במערכות).

הדיון של בחירה בשפה מסוימת צריך להיגזר מהמשימה הנדרשת, ההקשר העסקי, ועוד הרבה שיקולים אחרים. ככלל למי שמשתלב בתוך ארגון כדאי לדעת שיש ב-R חבילות שמאפשרות להפעיל גם קוד Python מתוך R (חבילת reticulate), שתאפשר להשתלב עם R גם בתוך ארגון שעובד מסורתית עם Python.

מה בספר?

בפרק 1 נראה מבוא קצר לתהליך ניתוח הנתונים ונלמד מהם הכלים הנדרשים על מנת להתקין את R. לאחר מכן נצלול, בפרק 2 לבסיס של R כשפת תכנות. הפרק מתייחס לחלקים ב-R שמגיעים בגרסה ה”ערומה ביותר” מה שמכונה גם Base R.

בפרק 3 נלמד את הבסיס של חבילות tidyverse ואיך הן מרחיבות את Base-R והופכות את הקוד שלנו ליותר קריא, ואת הכתיבה ליותר נוחה. אנחנו נתמקד בעיקר בשלבי הכנת הנתונים לקראת ניתוח, ואז בפרק 4 נלמד על ויז’ואליזציות באמצעות חבילת ggplot2. בפרק 5 נטפל במניפולציות קצת יותר מתקדמות כמו חיבור טבלאות ושינוי מבנה טבלאות.

לעולם הסטטיסטי ניכנס בפרק 6 עם מבחני השערה, ובפרק 7 עם רגרסיה לינארית.

לאחר מכן נצלול קצת יותר לעומק עם מודלים מתקדמים מעולם ה-Data Science תוך שימוש בחבילת tidymodels בפרק 8.

בפרק 9 נחזור מהעולם הסטטיסטי לתכנות, ונתעמק קצת יותר בלולאות מתוכמות. בפרק 10 ניתן טיפים לכל מי שמשתמש ב-R וצריך לשלב את העבודה שלו עם עברית.

הנוסח שלפניכם הוא טיוטה, ולכן חלקים מסוימים עוד חסרים ממנו, וחלקים מסוימים עוד ישתנו. מי שמוצא טעות בספר, מוזמן לפנות אלי בטוויטר @SaridResearch, או להציע עדכונים באמצעות Pull request או לפתוח Issue ב-github.

ספר זה זמין באופן חופשי באינטרנט, ללא עלות, תחת רישיון Creative Commons BY-NC-ND 4.0, מה שאומר שאפשר לשתף את הקישור לספר או לשתף ציטוטים מהספר תוך ציון המקור עם קישור לעמוד זה. לא ניתן להשתמש בתוכן למטרות מסחריות.