מילון מונחים סטטיסטי

מונחים והגדרות סטטיסטיים מרכזיים

general

סטיית תקן (σ / s)

מדד לכמות השונות או הפיזור בקבוצת ערכים. היא השורש הריבועי של השונות ומבוטאת באותן יחידות כמו הנתונים.

שונות (σ² / s²)

ממוצע ריבועי ההפרשים מהממוצע. שונות מכמתת את מידת הפיזור בקבוצת נתונים והיא ריבוע סטיית התקן.

ממוצע (μ / x̄)

הממוצע החשבוני של קבוצת ערכים, המחושב על ידי סיכום כל הערכים וחלוקה בספירה. הוא מייצג את המגמה המרכזית של הנתונים.

חציון

הערך האמצעי בקבוצת נתונים ממוינת. אם יש מספר זוגי של ערכים, החציון הוא ממוצע שני הערכים האמצעיים. הוא עמיד בפני ערכים חריגים.

שכיח

הערך שמופיע בתדירות הגבוהה ביותר בקבוצת נתונים. לקבוצת נתונים יכול להיות שכיח אחד (חד-שכיחי), מספר שכיחים (רב-שכיחי), או ללא שכיח כלל.

טווח

ההפרש בין הערך הגדול ביותר לקטן ביותר בקבוצת נתונים. למרות שפשוט לחישוב, הוא מתייחס רק לשני הערכים הקיצוניים ורגיש לערכים חריגים.

אוכלוסייה

הקבוצה המלאה של כל הפרטים או התצפיות הרלוונטיים למחקר. פרמטרים של אוכלוסייה מסומנים בדרך כלל באותיות יווניות (μ, σ).

מדגם

תת-קבוצה של אוכלוסייה שנבחרה לניתוח. סטטיסטיקות מדגם מסומנות בדרך כלל באותיות לטיניות (x̄, s) ומשמשות לאמידת פרמטרים של האוכלוסייה.

תיקון בסל

השימוש ב-n−1 במקום n במכנה בעת חישוב שונות מדגם. תיקון זה מספק אומדן לא מוטה של שונות האוכלוסייה ממדגם.

התפלגות נורמלית

התפלגות הסתברות סימטרית בצורת פעמון שבה הממוצע, החציון והשכיח כולם שווים. תופעות טבעיות רבות מתפלגות בקירוב נורמלי.

הכלל האמפירי (68-95-99.7)

עבור נתונים המתפלגים נורמלית, כ-68% מהערכים נמצאים בטווח ±1σ, 95% בטווח ±2σ, ו-99.7% בטווח ±3σ מהממוצע.

ציון Z

מספר סטיות התקן שנקודת נתונים נמצאת מהממוצע, מחושב כ-Z = (X − μ) / σ. ציוני Z מאפשרים השוואת ערכים מהתפלגויות שונות.

שגיאה תקנית (SE)

סטיית התקן של התפלגות הדגימה של סטטיסטיקה, בדרך כלל הממוצע. SE = σ/√n, ויורדת ככל שגודל המדגם עולה.

רווח סמך

טווח ערכים שסביר שיכיל את הפרמטר האמיתי של האוכלוסייה ברמת ביטחון מוגדרת (למשל, 95%). רווחים רחבים יותר מעידים על פחות דיוק.

ערך חריג

נקודת נתונים השונה באופן משמעותי מתצפיות אחרות. שיטות זיהוי נפוצות כוללות ערכים מעבר ל-±2 או ±3 סטיות תקן מהממוצע.

מקדם שונות (CV)

היחס בין סטיית התקן לממוצע, מבוטא באחוזים (CV = σ/μ × 100%). הוא מאפשר השוואת שונות בין קבוצות נתונים עם סולמות שונים.

אסימטריה

מדד לחוסר הסימטריה של התפלגות הסתברות. אסימטריה חיובית אומרת שהזנב נמשך ימינה; אסימטריה שלילית אומרת שהזנב נמשך שמאלה.

קורטוזיס

מדד לעובי הזנבות של התפלגות הסתברות. קורטוזיס גבוה מעיד על זנבות כבדים ושיא חד; קורטוזיס נמוך מעיד על זנבות קלים ושיא שטוח.

דרגות חופש (df)

מספר הערכים הבלתי תלויים שיכולים להשתנות בחישוב סטטיסטי. עבור סטיית תקן של מדגם, df = n − 1, המשקף את תיקון בסל.

משפט הגבול המרכזי

קובע שהתפלגות הדגימה של ממוצע המדגם מתקרבת להתפלגות נורמלית ככל שגודל המדגם עולה, ללא קשר להתפלגות האוכלוסייה.

בדיקת השערות

שיטה סטטיסטית לקבלת החלטות על סמך נתונים. היא כוללת השוואת סטטיסטיקת מבחן לערך קריטי או ערך p כדי לקבוע אם לדחות את השערת האפס.

ערך p

ההסתברות לצפות בתוצאה קיצונית כמו סטטיסטיקת המבחן, בהנחה שהשערת האפס נכונה. ערכי p קטנים יותר מספקים ראיות חזקות יותר נגד השערת האפס.

מקדם מתאם (r)

ערך בין −1 ל-1 שמודד את העוצמה והכיוון של הקשר הלינארי בין שני משתנים. ערכים קרובים ל-±1 מעידים על קשר לינארי חזק.

טווח בין-רבעוני (IQR)

ההפרש בין האחוזון ה-75 (Q3) לאחוזון ה-25 (Q1). ה-IQR מודד את פיזור 50% האמצעיים של הנתונים ועמיד בפני ערכים חריגים.

אחוזון

ערך שמתחתיו נמצא אחוז נתון של תצפיות. לדוגמה, האחוזון ה-90 הוא הערך שמתחתיו נמצאים 90% מנקודות הנתונים.