מבוא
השאלה האנליטית של הנתונים
- הגדרה ראשונה של השאלה האנליטית של הנתונים
- תיאורי
- מסביר
- מרחיק לכת
- תחזיתי
- גורם-תוצאה
- מנגנוני
- שגיאות נפוצות
הסדרת הנתונים
- הרכיבים של סט נתונים
- נתונים גולמיים
- הנתונים הגולמיים הם יחסיים בהתאם לאדם שמנהל אותם
- נתונים מסודרים
- כלול שורה בראש כל טבלת נתונים/גיליון עבודה שמכילה שמות שורה מלאים.
- אם אתה משתף את הנתונים שלך עם שותף לעבודה ב-Excel, הנתונים המסודרים צריכים להיות בקובץ Excel אחד לכל טבלה.
- הספר של הקוד
- רשימת ההוראות או התסריט חייבים להיות מפורשים
- רשימת ההוראות האידאלית היא תסריט
- אם אין תסריט, צריך להיות מאוד מפורט לגבי הפרמטרים, הגרסאות, וסדר התוכנה
- שגיאות נפוצות
בדיקת הנתונים
- איך לתכנת משתנים
- בספר הקודים אתה צריך להסביר למה ערכים מסוננים חסרים.
- אל תקודד משתנים המכילים נתונים מרובי קטגוריות או סדריים כמספרים.
- תמיד קודד כל חתיכת מידע על התצפיות שלך באמצעות טקסט.
- זהה את מחוון הערך החסר
- בדיקה על שגיאות קידוד ברורות
- בדיקה של החלפת תוויות
- אם יש לך מידע בקבצים מרובים, ודא שמידע שאמור להיות זהה בקבצים הוא אכן זהה
- בדיקת היחידות (או חוסר היחידות)
- שגיאות נפוצות
ניתוח חקרי
- ניתוח אינטראקטיבי הוא הדרך הטובה ביותר לחקור נתונים
- הצג בגרף כמה שיותר מהנתונים האמיתיים שאתה יכול
- גרפים וטבלאות חקריות צריכות להיות מהירות
- גרפים הם טובים מאשר סיכומים
- עבור סטי נתונים גדולים, עשה דגימה לפני הצגה בגרף
- השתמש בצבע ובגודל כדי לבדוק את המבלבל
- עבור גרפים מרובים של אותו סוג נתונים, תקן את הצירים
- לגרפים מרובי חלונות - התאמת ציר ההשוואה
- השתמש בהמרות ל וגריתמיות ל”פיזור” נתונים עם סדרי גודל שונים
- השתמש בהמרות לוגריתמיות למדידות של מנים
- בעת השוואת שני מדידות של אותו דבר - השתמש בגרפים של Bland Altman
- שגיאות נפוצות
מודלינג סטטיסטי והסקה
- כאשר אפשרי, בצעו ניתוח החקרתי ומאשר על קבוצות נתונים נפרדות
- הגדר את האוכלוסייה, הדגימה, האנשים והנתונים
- תייחס סיבות שבגללן הדגימה שלך עשויה לא לייצג את האוכלוסייה
- תייחס גורמי הטרדה פוטנציאליים
- בחן את התפלגות הנתונים החסרים
- בחן את הנתונים החריגים
- וודא שההערכות יש להן סימנים וגדלים הגיוניים
- היזהר מדגימות קטנות מאוד או גדולות מאוד
- כאשר אתה מבצע מספר רב של בדיקות השערה, תקן לבדיקות מרובות
- עשה החלקה בנתונים כאשר יש לך נתונים שנמדדו לאורך מרחק, מרחב או זמן
- הכר את גודל הדגימה האמיתי שלך
- שגיאות נפוצות
תחזית ולמידת מכונה
- חלק את הנתונים לסטים לאימון ולאימות
- זההו סיבות שדגימתכם עשויה לא לייצג את האוכלוסייה
- בדרך כלל, נתונים נוספים משפרים את התוצאות יותר מאשר אלגוריתמים טובים יותר
- התכונות הן חשובות יותר מאשר האלגוריתם
- קבע את מדד השגיאה שלך תחילה
- מניעת ייתר התאמה עם אימות צולב
- אם המטרה היא דיוק בחיזוי, משקלל דגמי חיזוי רבים יחד.
- חזין הוא עניין של מאזן
גורמיות
- ניתוח נתונים גורמי של ניסויים שאינם מרונדומים נוטה להיות קשה להצדיק.
- אפילו מחקרים מרונדומים עשויים להכביר קושי בפרשנותם בצורה גורמית
- עבור מחקרים מרונדומים השתמש בניתוח חוקר לאשר שההינדום “עבד”
- ניתוחים גורמיים של נתונים מחפשים לזהות אפקטים ממוצעים בין משתנים רועשים לעיתים.
- אלא אם כן ביצעת ניסוי מרונדום או שימשתך טכניקות גורמיות, חמוק משפה גורמית
- שגיאות נפוצות
ניתוחים כתובים
- האלמנטים של ניתוח כתוב
- התחל בשאלה שאתה מנסה לענות עליה
- תאר את עיצוב הניסוי
- תאר את סט הנתונים
- כאשר אתה מתאר דגם סטטיסטי השתמש במשוואות או בקוד מדמה
- ציין את התפלגות הבלתי ודאות
- לכל פרמטר שמעניין, דווח על הערכה ופרשנות בסולם המדידה הרלוונטי
- לכל פרמטר, דווח על מדד של בלתי ודאות בסולם המדידה הרלוונטי
- סכם את חשיבות ההערכות שדווחו
- ציין בעיות אפשריות בניתוח
- אין לדווח על כל ניתוח שביצעת
- על כל שיטה סטטיסטית או של למידת מכונה להיות מקושרת
יצירת תרשימים
- מידע צריך להימסר כמה שיותר במיקום, ובסקאלה משותפת.
- צריך להימנע מחוסר צפיפות מידע
- צריך להימנע מקישוטים מיותרים
- ניתן להשתמש בצבע ובגודל להעברת מידע.
- כאשר ישנם הרבה ערכים של משתנה שלישי השתמש בחלוקה למשנות
- תוויות הצירים צריכות להיות גדולות, קריאות, בשפה ברורה
- כלול יחידות בתוויות התרשים והאגדות
- השתמש באגדות של תר שימים
- העדפה למקראים מוטמעים בתוך הדיאגרמה
- כותרות הדיאגרמות צריכות להעביר את המסר של התרשים
- תייגו תרשימים בעלי מספר פאנלים עם מספרים או אותיות
- הוסף טקסט לתרשים עצמו להעברת מסר
- הסברים לדיאגרמות צריכים להיות עצמאיים
- שגיאות נפוצות
מצגת נתונים
- התאם את ההרצאה שלך לקהל שלך
- סדר את ההרצאה שלך בפורמט של סיפור
- השתמש בגופנים גדולים
- כלול מידע ליצירת קשר בתחילת המצגת
- כל הדיאגרמ ות צריכות להכיל תוויות ציר גדולות בעברית ברורה
- תמיד ייחסו מקור לתמונות ולטקסטים שלקחתם
- באופן כללי, השתמשו ברקע אחיד ובגופן בצבע המנוגד
- פחתו את הטקסט בשקופיות
- הסבר כל דיאגרמה בהרצאה שלך בפרטים
- השתמש במשוואות להגביר את הרעיון, אך השתמש בהן בחסכנות
- הסכם לומר “אני לא יודע”
- הבחן את סוג התגובה שלך כאשר אתה עונה על שאלות
- אל תהפוך לאגרסיבי
- סיים במועד
- איפה כדאי לפרסם את ההרצאה שלך
שחזור נתונים
- יש לך סקריפט לניתוח נתונים
- רשום גרסאות של תוכנה ופרמטרים
- ארגן את ניתוח הנתונים שלך
- השתמש בבקרת גרסאות
- הגדרת זרע של מחולל המספרים האקראיים
- לגבי מערכי נתונים גדולים, שמור תוצאות ביניים ובמיוחד איך הגעת אליהן
- תן לאחרים לרוץ את הניתוח שלך
- שגיאות נפוצות
כמה עניינים של צורה
רשימת בדיקה לניתוח נתונים
- ענייה על השאלה
- בדיקת הנתונים
- סידור הנתונים
- ניתוח חוקרני
- הסקה
- חיזוי
- סיבתיות
- ניתוחים כתובים
- דיאגרמות או תרשימים
- הצגות
- רפרודוקטיביות
- חבילות R
משאבים נוספים
- הערות שיעור
- מדריכים
- מדריכים מקבוצת Leek
- ספרים
