• haamanitveharochel

לא על הממוצע לבדו - חלק א'

אריאל: "איך הלך לך במתמטיקה?"

סטודנט: "בסדר גמור – קיבלתי שמונים."

אריאל: "ואיך בלימודים באופן כללי?"

סטודנט: "הציון הכי טוב שלי הוא מאה."


מה דעתכם על התשובה השנייה לעומת הראשונה? שתיהן נכונות עובדתית. הסטודנט קיבל 80 במתמטיקה ובאחד הקורסים האחרים שלו קיבל 100. אז אם שתי התשובות אינן שקר – מדוע התשובה השנייה מרגישה הרבה פחות נכונה מהראשונה? התשובה היא – סטטיסטים. אז מה הם סטטיסטים, ולמה בכלל צריך אותם?


נתונים, נתונים ועוד קצת נתונים

לפני שנדבר על סטטיסטים, צריך לדבר על נתונים. מה זה בכלל? חשבו על רשימה של מספרים או מילים שעונה על שאלה מצומצמת. כל פריט ברשימה עונה על השאלה עבור אדם מסוים או עבור אותו אדם במקרים או זמנים שונים.


נתוני שכר עונים על השאלה, מהו השכר שלך? גיליון ציונים עונה על השאלה, כמה קיבלת במקצוע X? ככל שהרשימה קצרה יותר – ונתון יחיד הוא הרשימה הקצרה ביותר – קל יותר לתאר אותה. התיאור הטוב ביותר הוא הנתון עצמו ולכן התשובה הראשונה בדוגמה שבתחילת הפוסט מקובלת עלינו. שאלנו שאלה שמתייחסת לרשימת נתונים בגודל 1 – והתשובה הטובה ביותר לה היא הנתון עצמו.


השאלה השנייה מסובכת יותר - היא מתייחסת לרשימת נתונים של כמה קורסים. אם הסטודנט קיבל בינתיים ציון רק במעט קורסים, הוא יוכל פשוט למסור לנו רשימה: 80 במתמטיקה, 70 בשיטות מחקר, 83 בהסתברות ו-90 בתרבות רומא. ככל שהרשימה ארוכה יותר, למסור את כולה נהיה פחות ופחות אפקטיבי. אם הסטודנט לקח 100 קורסים, או שאנחנו מנסים לתאר את השכר של כל העובדים בישראל – זה נידון מראש לכישלון.


סטטיסטים

כאן נכנסים לתמונה סטטיסטים. מה הם סטטיסטים? ההגדרה הרשמית היא "תמצית של תכונה מסוימת של רשימת נתונים". במילים פשוטות, סטטיסטי הוא מספר שנוצר על ידי הנתונים ו(מנסה) לאפיין את הרשימה כולה. בעולם בו נתונים והזמינות שלהם כה נוכחת – אנחנו חושבים בסטטיסטים גם מבלי שנשים לב. את חלקם כולם מכירים – ממוצע, חציון; גם מקסימום ומינימום הם סטטיסטים. אפשר לדבר כאן גם על שונות, המרחק בין המקסימום למינימום (ידוע גם כ"טווח") ועוד אלפי סטטיסטים אחרים – כל נתון או דרך שימוש בו הם, בעצם, סטטיסטים, חלקם הגיוניים יותר או פחות.


כאשר שאלתי את הסטודנט המסכן וההיפותטי איך הלך לו בלימודים, מראש ציפיתי לתשובה של סטטיסטי. אנחנו חשים לא בנוח עם התשובה שלו מפני שהסטטיסטי שהוא בחר למסור הוא "מקסימום", והמקסימום הוא תשובה מצוינת לשאלה כמו "מיהו השחקן היקר ביותר ב-NBA?". הוא לא תשובה טובה לשאלה "איך הלך בלימודים באופן כללי?". תשובה טובה יותר לשאלה הזו תהיה סטטיסטי "ממוצע הציונים". מדוע? כי הממוצע הוא סטטיסטי מסוג "ערך מרכזי" שמטרתו לתאר את הערך הטיפוסי בהתפלגות.


כל סטטיסטי, בין אם מסוג "ערך מרכזי" ובין אם לא, בין אם ממוצע או חציון – "מפספס". כפי שלא ניתן לקחת ספר ארוך ומורכב ולתאר אותו בעמוד או פסקה מבלי "לאבד הרבה" – כך גם סטטיסטי לא יכול לתאר רשימת נתונים ארוכה ומגוונת מבלי לפספס חלק גדול מהמורכבות והמידע.


לפעמים האובדן הוא לא גדול – סטודנט עם ממוצע 85 הוא ככל הנראה סטודנט מצליח יותר מאשר סטודנט עם ממוצע 55 – אבל לפעמים הוא יכול להטעות. שני סטודנטים עם ממוצע 80 יכולים להיות שונים בתכלית – אחד מקבל ציונים ממש סביב ה-80. פעם 78, פעם 82, פעם 80. הסטודנט השני יכול להיום עם אותו ממוצע כאשר בקורסים המתמטיים הוא מקבל מאיות ובקורסים ההומניים הוא עובר בקושי. הראשון הוא סטודנט טוב אך לא בולט, והשני יכול להיות מתמטיקאי מחונן.


טענה סטטיסטית

אחת הבעיות עם סטטיסטים היא שאנחנו משתמשים בהם באופן חופשי, אך לא מדויק. זה מוביל, פעמים רבות, לאי-הבנה, בלבול וכעס. לדוגמה, דנה כתבה: "השכר של גברים גבוה יותר מזה של נשים". יוסי נעלב ומציג את השכר של מנכ"לית בנק לאומי כראיה סותרת. זה נראה מגוחך, אבל זה נובע מכך ששני הצדדים טוענים טענות מסוג שונה. הטענה הראשונה היא טענה סטטיסטית (שנאמרה בחוסר דיוק) והטענה השנייה היא טענה לוגית.


טענות לוגיות עוסקות בעיקר בדברים מוחלטים. למשל: טענת "קיים" וטענת "כל". טענת "כל", כשמה כן היא, מדביקה תיאור מוחלט לכל הקבוצה. לדוגמה: "כל הכלבים חומים". טענת "קיים" היא פשוטה אפילו יותר – היא מתארת פרט בודד. לדוגמה: "קיים כלב שחור". הטענות הללו לא יכולות להתקיים במקביל – אם "קיים כלב שחור" אז "כל הכלבים חומים" היא טעות, ואם "כל הכלבים חומים", לא יכול להיות ש"קיים כלב שחור".



טענות סטטיסטיות עוסקות בסטטיסטים. אנחנו רוצים לטעון משהו על איזה מאפיין של סדרות נתונים. לדוגמה: "השכר הממוצע בישראל הוא 4,000 שקלים", או: "מספר הילדים החציוני במשפחה חרדית גבוה מזה של משפחה חילונית". לרוב, יותר קשה להתווכח ולסתור טענות כאלה לעומת טענות לוגיות. גם אם נמצא מאה אלף ישראלים שהשכר החודשי שלהם הוא 20 אלף שקלים – השכר הממוצע עדיין יכול להיות 4,000 שקלים. גם אם נמצא אלפי משפחות חילוניות עם 6 ילדים ומשפחות חרדיות ללא ילדים – מספר הילדים החציוני למשפחה חרדית עדיין יכול להיות גבוה מזה של משפחה חילונית.


בדיון על הבדלי השכר בין גברים לנשים, יוסי חשב שדנה טענה טענת "כל" – "לכל הגברים שכר גבוה יותר מכל הנשים" ועל מנת להתווכח ולסתור אותה, הוא הציג טענת "קיים" – השכר של מנכ"לית בנק לאומי גבוה יותר מזה של רוב הגברים. אפשר להבין את יוסי, כי דנה לא אמרה "השכר הממוצע של גברים גבוה יותר מזה של נשים", אלא "השכר" בלבד. היא רצתה לטעון טענה סטטיסטית ורובנו היינו מבינים את הטענה שלה כטענה סטטיסטית, אבל גם את אי ההבנה של יוסי אפשר להבין.


ברשומה הבאה בסדרה נכיר קצת יותר לעומק כמה סטטיסטים נפוצים ונפוצים פחות, ונראה גם כמה טענות סטטיסטיות מורכבות יותר מאשר "גדול מ-" או "שווה ל-".

644 צפיות

הרשמו לעדכונים במייל!