חלק גדול, אם לא רוב, מהנתונים הנחוצים לנו לחיי הבריאות, הכלכלה, והטכנולוגיה, מתבסס על סקרים ודירוגים, הקובעים מה יותר טוב, ממה צריך להתרחק. הסטטיסטיקה נתפסת כמו ענף מהמתמטיקה, אז איך זה שהיא לא בדיוק כזו תמימה?
רן לוי כותב:
לכל מקצוע בעולם המדע והטכנולוגיה יש תדמית משלו בעיניי הציבור הרחב. לעתים תדמית זו חיובית, כמו הקפדנות הייקית של המהנדסים או החינניות הפרועה של הפיזיקאים התאורטיים. לעתים, זו תדמית לא מחמיאה כל כך, כמו היבשושיות של המתמטיקאים או הגאוותנות של הרופאים המנתחים והיוהרה שלהם. איך רופא מנתח מחליף נורה? הוא עומד על כיסא עם הנורה ביד, והעולם מסתובב סביבו… סטריאוטיפ, כמובן, הוא רק סטריאוטיפ ולא צריך לקחת אותו ברצינות. לא כל המהנדסים קפדנים, יש מתמטיקאים בעלי אישיות מרתקת ורופאים מנתחים… טוב, אולי לפעמים יש בזה משהו. אבל בפרק זה אני רוצה להתמקד במקצוע מסוים דווקא בגלל התדמית שיצאה לו, תדמית חריגה אפילו ביחס לסטריאוטיפים הלא–מחמיאים של חלק מהתחומים האחרים במדע. לסטטיסטיקאים יצא שם של שקרנים.
התדמית הזו אינה עניין חדש. מארק טווין כתב עוד ב-1906 ש"יש שלושה סוגים של שקרים: שקרים, שקרים מתועבים, וסטטיסטיקה." אמרות כנף נוספות קיימות באותו הסגנון ומקורותיהן אינם ידועות, אבל הן מעידות על האופן שבו נתפסת הסטטיסטיקה בעיניי הציבור הרחב: "אם תענה את המספרים, הם יודו בכל."; "סטטיסטיקה היא כמו ביקיני: מה שהיא מגלה – מעניין, אבל מה שהיא מסתירה הוא שחשוב."
הביולוג ג'ונתן גולדמן הקדיש לכך את מאמרו: 'הבנת הנספר', (תרגום של דפנה לוי אלכסון), להלן חלק מדבריו:
האם סטטיסטיקה היא אמנות השקר, או שהבעיה היא בנו?
מהתבוננות בנתונים סטטיסטיים מעודכנים של חברות תעופה, אפשר לחשוב שיותר מטוסים מאי פעם מגיעים בזמן או מקדימים. אבל השיפור לכאורה הזה מטעה. חברות תעופה התמחו בניהול תדמיות: על ידי רישום של טיסות כאילו הן ארוכות בעשרים עד שלושים אחוזים מכפי שהן באמת, גם טיסות שעומדות בלוח הזמנים הרגיל או מאחרות במעט נחשבות עדיין כאילו הגיעו 'מוקדם' או 'בזמן'. מחקר שמומן על ידי מִנהל התעופה הפדראלי האמריקני מכנה את הטקטיקה הזו של חברות התעופה בשם schedule bufferingg, ויסות של לוח הזמנים.
לא ברור אם חברות תעופה המנהלות לוח זמנים מווסת משתמשות במונח 'בזמן' באותו אופן שבו אנשים מהשורה משתמשים בו. אם טיסה אמורה לארוך שעתיים וחצי, והיא אורכת בממוצע רק שעה וחצי, האם כל טיסה שמגיעה בשעה שנקבעה לה אכן הגיע בזמן? או שחברות התעופה פשוט הגדירו מחדש את המונח 'בזמן', על מנת לשפר את הסטטיסטיקה?
הדוגמה הזו – המצביעה על כך שחברות התעופה מעוותות את משמעות המושגים, וכתוצאה מכך גם את תפישת הציבור – אמנם מרגיזה, אבל זה בהחלט אינו הענף היחיד שבו ניתן למצוא מניפולציות סמנטיות של נתונים סטטיסטיים. דירוג האוניברסיטאות בולט במיוחד: אינספור כתבי עת מדרגים את האוניברסיטאות על פי מגוון אמות מידה, בהסתמך על משתנים כמו שיעור הקבלה של האוניברסיטאות, הציונים הממוצעים של התלמידים והמשרות שמוצעות להם בתום הלימודים.
אבל בשנים האחרונות התחרות בין האוניברסיטאות החריפה כל כך, עד שחלקן הודו בתמרון נכלולי של הנתונים הסטטיסטיים. באוגוסט 2012, אוניברסיטת אמורי באטלנטה הודתה, אחרי חקירה פנימית, שבמשך עשרות שנים, ההנהלה נהגה למסור דיווחים כוזבים של ציוני הסטודנטים שהתקבלו למוסד. ואֶמורי לא הייתה הפושעת היחידה: ב-2013 כתב העת "פורבס" מחק שלושה קולג'ים נחשבים מרשימת המדורגים שלו, מסיבות דומות. הנתונים הכמותיים שנבחנים על ידי כתבי העת הנוהגים לדרג את מוסדות הלימוד קובעים כיצד אנחנו, האנשים הפשוטים, מבינים משפטים כמו "האוניברסיטאות הכי טובות". אבל כיצד יכולה מערכת המתגמלת מניפולציות סמנטיות לטעון כי היא מסבירה איפה מקבלים הסטודנטים את ההשכלה הטובה ביותר?
בעיות דומות קיימות גם במערכת הבריאות בארצות הברית. מושג חשוב בדירוג בתי חולים הוא 'הישרדות', המוגדרת על ידי ה-US News & World Report כ-"30 יום לאחר האשפוז, תוך שקלול החוּמרה". אייברי קומארו (Comaroww), עורכת דירוג הבריאות בעיתון אמרה, במייל, ש"תמותה כעבור שלושים יום לאחר האשפוז היא המדד המשמש חוקרים, חברות ביטוח ואת בתי החולים עצמם להערכת תמותה בבית החולים, משום שמדד כזה מכיר בכל שבתי החולים אחראים לחולים שלהם לא רק במהלך האשפוז אלא גם במשך תקופה סבירה אחרי שחרורם".
אבל מה אם קבוצת חולים שרדה רק 32 יום לאחר האשפוז? אנשים רגילים לא חושבים על "הישרדות" כעל שלושים יום אחרי כל אירוע שהוא. למה שיבטחו בשיטת דירוג שמשתמשת במונח חשוב ובסיסי בצורה שאינה מוכרת להם? ויותר מזה, האם ההגדרה הזו מפלה לטובה בתי חולים הבוחרים שלא לאשפז חולים שנדמה כי לא ישרדו עד לתאריך היעד, שלושים יום לאחר מכן? איזה לחצים המשתמעים מכך מופעלים על בתי חולים כשהחברה נסמכת על ניתוח סטטיסטי של כתבי עת מדרגים כמדריך לאיכות?
במאמר בכתב העת Statistical Science, הסוציולוג ג'ואל בֶּסט טוען כי אנחנו לא צריכים לקרוא לסטטיסטיקה 'שקר', אלא ללמד את עצמנו כך שנוכל להטיל ספק באופן שבו נתונים סטטיסטיים מונפקים, ובמטרתם. לעתים קרובות, הסטטיסטיקה נועדה לתמוך בטענות שאין בהן אמת, אבל אנחנו מעדיפים לתקוף נתונים שסותרים את מה שאנחנו עצמנו מאמינים בו. המספרים עצמם – אלא אם זויפו במתכוון – אינם יכולים לשקר, אבל ניתן להשתמש בהם כדי לעוות דיווחים לציבור ושיטות דירוג שאנחנו מתייחסים אליהם ברצינות. נתונים סטטיסטיים אינם אלה המאפשרים לשקר – לשם כך דרושות מניפולציות סמנטיות: המספרים הם המצע לשימוש הקלוקל במילים. כשמציגים בפניכם עובדה, אתם חייבים לבחון את הגדרת התנאים שעליהם היא מבוססת, ולברר כיצד נאסף המידע. כשאתם קוראים נתונים סטטיסטיים מכל סוג שהוא, הקפידו לשאול כיצד – וחשוב מזה, למה – חושבו הנתונים האלה, מי מרוויח מזה, והאם ניתן להאמין בהם.
ג'ונתן ר. גולדמן הוא חוקר במחלקה לביולוגיה בקווינס קולג' (סיטי יוניברסיטי, ניו יורק). הוא חוקר אבולוציה תרבותית. הוא עורך את האתר Cancer Therapy Advisor.