1

'הארץ' מסקר את 'קרב מדע' – אפשר לסמוך על מחקרים?

מתחילה היתה זו כותרת שזכתה לפרסום בהרבה במות, בין השאר גם בהארץ: "מחקר חדש: אל תאמינו למחקרים".

זו היא יריית הפתיחה המוכרת:

"מחקר חדש קובע כי", נאמר לא אחת במהדורות חדשות, בעיתונים ואף בפרסומות. אלא שמבדיקה מעמיקה שבוצעה לעשרות מסקנות שהתפרסמו בכתבי עת העוסקים במחקר בתחום הפסיכולוגיה, עולה תמונה עגומה בנוגע למצבו של מדע זה. צוות חוקרים בינלאומי, שכלל 270 מדענים בחמש יבשות, וחזר על 100 ניסויים שתוצאותיהם פורסמו בעבר בכתבי עת מובילים בתחום, הצליח לשחזר רק 36% מהתוצאות המקוריות. "ברור שהייתי שמח לו אותן תוצאות היו מתקבלות שוב", אומר בריאן נוסק, מרצה לפסיכולוגיה שהוביל את המחקר באוניברסיטת וירג'יניה, "אני מאוכזב…

ציטוט של הארץ מהגרדיאן.

בכתבה מאוחרת יותר, הממשיכה מאותו ענין מגדיר הארץ את הנושא: קרב-מדע: האם אפשר לסמוך על מחקרים?

במאמר המשך זה בוחר דורון חלוץ להשוות דוקא לאסטרולוגיה:

כמחצית מהאמריקאים חושבים שלאסטרולוגיה יש תוקף מדעי מסוים. מחציתם השנייה חושבים שהאסטרולוגיה היא קשקוש. כך עולה מהסקר האחרון בנושא שערכה הקרן הלאומית למדע בארצות הברית. מי צודק?

לפני 30 שנה התפרסם בכתב העת היוקרתי "Nature" מחקר שבחן את השאלה בכלים מדעיים, תוך שיתוף פעולה בין פסיכולוגים, סטטיסטיקאים ואסטרולוגים מוערכים. כל אסטרולוג קיבל מפת לידה של נבדק רנדומלי והתבקש להכריע בעזרתה איזה משלושה ניתוחי אישיות, המבוססים על מבחן פסיכולוגי סטנדרטי, שייך לבעל המפה. הסיכוי לענות נכונה על סמך ניחוש מקרי: שליש. שיעור ההתאמות המוצלחות במחקר: שליש. המדע קובע: אסטרולוגיה זה חארטה.

בשלהי הקיץ האחרון התפרסם בכתב עת מקביל, "Science", מאמר שסיכם פרויקט מחקר בן ארבע שנים, שבחן בכלים מדעיים את מידת הדיוק של מחקרים מדעיים. התוצאות, אפעס, לא מעודדות.

"פרויקט הרפליקציות", בראשותו של פרופ' בריאן נוסק, פסיכולוג חברתי מאוניברסיטת וירג'יניה, הזמין חוקרים לבחור מאמר, שפורסם באחד משלושה כתבי עת מובילים לפסיכולוגיה ב–2008 ("כך שהם עדיין חדשים יחסית ורלוונטיים", אומרת ד"ר נינה סטרומינג'ר, שהיתה חברה בצוות ההיגוי לצד נוסק, "אבל גם היה למחברים מספיק זמן לעדכן אם הם גילו בעצמם טעויות בינתיים") — ולהריץ מחדש את הניסוי האחרון המתואר בו. 270 החוקרים שהתנדבו למשימה התבקשו להיצמד ככל הניתן למערך המחקר המקורי.

השורה התחתונה: רק כ–40% מהשיחזורים (רפליקציות, בז'רגון) הניבו תוצאות דומות לאלה שדווחו במאמרים המקוריים. השורה שאחרי התחתונה: "משבר הרפליקציה", עם מרכאות ולפעמים גם סימן שאלה, הפך מנושא שחובבי סטטיסטיקה ושיטות מחקר דנים עליו בנימוס באקדמיה לסערה שסחפה גם את האגפים גבוהי המצח של העיתונות הפופולרית, בלי מרכאות ובלי סימני שאלה. כי אם פחות ממחצית מהמחקרים המדווחים בספרות המקצועית — אבני הפינה של מה שנחשב ל"אמת" מדעית — מניבים תוצאות עקביות בהרצות חוזרות, עד כמה ניתן לסמוך עליהם? ואם לא ניתן לסמוך עליהם, מה בכלל שווה כל המדע הזה?

ומהמקרה המוזר של הפסיכולוגיה בשעת לילה, עובר 'הארץ' לרפואה:

בעיית השיחזור של תוצאות מחקרים קיימת לא רק במדעי החברה, אלא גם בתחומים נוספים, כולל ביולוגיה ורפואה, "וגם בתעשיית התרופות, שתוצריה קשורים בחיי אדם", אומר פרופ' יעקב שול מהמחלקה לפסיכולוגיה באוניברסיטה העברית. "ב–2012 חוקר הסרטן גלן ביגלי ניסה לשחזר 53 ממצאים מרכזיים בתחום, והצליח רק בשישה מקרים".

פרסום ממצאי הפרויקט היה השיא של משבר הרפליקציות, ולא תחילתו. כבר ב–2005 התפרסם מאמר מאת ג'ון איונידיס (Ioannidis), פרופסור לרפואה מסטנפורד, שכותרתו "למה רוב ממצאי המחקרים המתפרסמים הם שגויים" מתמצתת היטב את תוכנו. אבל איונידיס הציע בעיקר מודלים סטטיסטיים ותובנות תיאורטיות, וכך גם מרבית נביאי הזעם המתודולוגיים שעסקו בנושא בשנים הבאות. כדרכם של נביאי זעם, הם נותרו בשולי הדיון. ממצאים "מהשטח" על שיעור הרפליקציות המוצלחות כמעט שלא היו עד לפרויקט השאפתני של נוסק.

את קריאת ההשכמה הנחוצה סיפקו כמה מקרי הונאה שנחשפו בתחילת העשור, ועוררו סערה רבתי באקדמיה ומחוצה לה. השם הבולט ביותר בהקשר זה הוא דידריק סטאפל, פסיכולוג חברתי שהיה דיקאן בית הספר למדעי החברה באוניברסיטת טילבורג בהולנד. באביב 2011 דיווח סטאפל ב"סיינס" על תוצאות ניסוי שערך בתחנת הרכבת של אוטרכט, שלפיהן סביבה מלוכלכת מגבירה גזענות. שני סטודנטים שלו חשדו שמדובר בפברוק ודיווחו לממונים. ועדת חקירה שהקימה האוניברסיטה קבעה כי סטאפל אכן זייף נתונים ולא רק במחקר הרכבת. עשרות מאמרים שלו נפסלו בדיעבד על ידי כתבי העת שפירסמו אותם וסטאפל הוכתר כאחד הזייפנים הגדולים בהיסטוריה של הפסיכולוגיה (וגם טרח לכתוב על כך ספר).

לכך הצטרף המקרה המוזר והמעניין של דריל בם, פרופסור ותיק ומהולל לפסיכולוגיה מאוניברסיטת קורנל, שפירסם ב"JPSP" (אחד משלושת כתבי העת מהם נדגמו מחקרים לפרויקט הרפליקציות) באותם חודשים ממש מאמר הטוען כי אנשים ניחנו ביכולות פאראפסיכולוגיות "לחוש את העתיד". בם הציג במאמר תוצאות של תשעה ניסויים שערך, התומכים בכך, לטענתו. אלה היו ניסויים פסיכולוגיים סטנדרטיים, בטוויסט אחד: בם הריץ אותם מהסוף להתחלה. קודם מדד את התוצאה, ורק לאחר מכן הציג למשתתפים בניסוי את הגירוי, שהיה אמור להיות הסיבה שלה.

למשל, ידוע כי שינון משפר זיכרון. בניסוי סטנדרטי מוצגות לנבדקת מילים, היא מתבקשת לשנן אותן או את חלקן, ולאחר מכן בוחנים כמה ואילו מילים היא זוכרת. באחד הניסויים במאמר של בם, הוצגו לכל נבדקת ונבדק 48 מילים, אחת בכל פעם. מיד לאחר מכן נערך מבחן זיכרון, שאחריו המחשב בחר באקראי 24 מהמילים, הציג אותן שוב על המסך במרוכז וערך תרגילי שינון עבורן. כלומר, מבחן הזיכרון נערך לפני תרגילי השינון, וכיוון שהמילים נבחרו באקראי, לכל מילה היה סיכוי שווה להופיע או לא להופיע בסט השינון המאוחר. עם זאת, נמצא כי במבחן הנבדקות והנבדקים זכרו בממוצע יותר מילים שהופיעו בתרגילי השינון (שנערכו אחריו!) לעומת מילים שלא הופיעו בתרגילי השינון הללו.

נשמע הזוי, כמובן, אבל בעבר גם הרעיון שאולקוס נגרם מחיידקים נשמע הזוי, כי האמינו שחיידקים לא יכולים להתקיים בחומציות הקיבה. שמא בם עלה על פריצת דרך ביחס ללינאריות הזמן ויחסי סיבה־תוצאה? רבים מעמיתיו הרימו גבה, כי "זה נראה כמו מדע בדיוני", אומר אחד מהם. "אין הוכחה שבם זייף נתונים, אבל כמה מאמרי תגובה הראו כי ניתוח קפדני וזהיר יותר של הנתונים היה מאתר בעיות מתודולוגיות ומדליק נורות אדומות לפני הפרסום, בטח כשמדובר בטענות כל כך קונטרוברסליות".

"אם מאמר כזה יכול להתפרסם בכתב עת מוביל, סימן שטעינו איפשהו", מוסיפה סטרומינג'ר, שבאותה עת היתה דוקטורנטית לפסיכולוגיה באוניברסיטת מישיגן. "הפרויקט שלנו התחיל בעקבות הסקנדלים של סטאפל ומאמר ניבוי העתיד של בם", היא מספרת. נוסק הפיץ מייל בנושא. היא שוחחה עמו על כך, והצטרפה לצוות המנווט (נוסק שהה בחופשה כשפנינו אליו, והפנה לסטרומינג'ר).

הסאגה לא תמה. שלושה צוותי מחקר שונים ניסו לשחזר את ניסוייו של בם, ונכשלו. לא מפתיע, כנראה. מאמר משותף שבו סיכמו את ממצאיהם נדחה על ידי כל כתבי העת המרכזיים בפסיכולוגיה שאליהם פנו. פרופ' כריס פרנץ', אחד החוקרים, פירט ב"גרדיאן" את התלאות שעברו: עורך ה"JPSP" דחה את המאמר על הסף, "בנימוק שאינו מפרסם רפליקציות". כתב עת אחר שלח את המאמר לשיפוט של מומחים חיצוניים — חלק שגרתי מהליך הקבלה לפרסום בכתבי עת מדעיים, המתנהל באנונימיות כדי למנוע לחצים וניגוד עניינים. אחד השופטים המליץ לפרסם, השני המליץ לדחות. "חשדנו שהשופט הזה הוא בם עצמו", דיווח פרנץ', "חשד שהפרופסור אישר לנו בחביבותו". וכך, מאמר הפרה־קוגניציה מעורר המחלוקת התפרסם והיכה גלים, ואילו לפרנץ' ולעמיתיו כמעט יצאה הנשמה עד שמצאו היכן לחלוק עם הקהילה המדעית את ממצאיהם הסותרים.

רמאות גורפת ומאמרים שנויים במחלוקת במידה כה קיצונית הם יחסית נדירים, אולם העשב השוטה מלמד על תנאי המחיה בערוגה: עד כמה קל לפרסם בכתבי עת, המתהדרים בסינון קפדני, מחקרים מזויפים או פגומים, תוך ניצול האמון והתמימות של העמיתים; ועד כמה קשה לאחר מכן לקרוא תיגר על אותם מחקרים.

תמונת מציאות מעוותת

כדי להבין איך זה קרה, אין ברירה אלא לדבר רגע על סטטיסטיקה. בניסוי סטנדרטי בפסיכולוגיה יוצרים במתכוון הבדל בין שתי קבוצות של נחקרים (למשל, לאחת משמיעים מוזיקת מטאל רועשת ולאחרת להיט פופ קצבי) ומודדים איך הוא משפיע על משתנים אחרים (למשל, ביצוע במשחק מחשב אלים). החוקרת מתעניינת בהשפעה של "כעס" על "הישגים", אבל מודדת ביטויים ספציפיים וחלקיים שלהם, ועושה זאת לרוב בקרב מדגם קטן יחסית של מתנדבים.

ונניח שמאזיני המטאל צברו בממוצע 50 נקודות יותר ממאזיני הפופ. האם הפער גדול דיו כדי להסיק שהמוזיקה השפיעה על הביצועים? ואם כן, מה ואיך אפשר להסיק מהבדל במדגם של כמה עשרות סטודנטים על אוכלוסייה גדולה יותר?

המדד המקובל לבחינת שאלות אלה נקרא "מובהקות סטטיסטית", והוא מבוסס על ההסתברות לקבל תוצאות שונות במדגם, בהנחה שאין קשר בין המשתנים. כלומר, אם כעס לא משפיע על הישגים, מה ההסתברות לקבל פער של 50 נקודות או יותר במדגם כזה? הסתברות זו מכונה p-value, וניתנת לחישוב בלחיצה על כפתור וחצי בכל תוכנה סטטיסטית. אם היא נמוכה מ–5%, מקובל לומר שהתוצאה "מובהקת סטטיסטית", ולהסיק שקיים קשר בין המשתנים.

משמעות השימוש בשיטה זו היא שגם אם לא חל ליקוי בהתנהלות החוקרים, קיימת הסתברות של 5% שהם טועים — כלומר, שהתוצאה מובהקת, אף שכעס לא משפיע על הישגים. זה סיכון שהקהילה המדעית מוכנה לקבל, חלק אינהרנטי משיטת צבירת הידע. ככל שיותר שיחזורים של הניסוי יניבו תוצאות דומות, ניתן יהיה להסיק בביטחון רב יותר שהתוצאות "אמיתיות" ולא מקריות.

למחקר שתוצאותיו אינן מובהקות סטטיסטית, כמעט אין סיכוי להתפרסם. כיוון שטיפוס בסולם הדרגות האקדמי והשגת מענקי מחקר שמנים תלויים בכמות הפרסומים, חלק לא מבוטל מקריירה באוניברסיטה מוקדש למאמץ להשחיל כמה שיותר מאמרים לכתבי עת יוקרתיים. לכן חוקרים יעשו הכל, לפעמים אפילו בלי להיות מודעים לכך, כדי לרדת אל מתחת לסף חמשת האחוזים. "אף אחד לא פועל בכוונה בצורה לא מוסרית, אבל השיטה מאפשרת לך לעבוד על עצמך", אומר ד"ר יואב בר־ענן מהחוג לפסיכולוגיה באוניברסיטת בן־גוריון. "החוקרים רוצים לתרום למדע, אבל גם צריכים להשיג עבודה וקביעות ולקדם את הפרויקטים שלהם. חוץ מזה, גם למדענים יש אגו, והם רוצים שיעריכו אותם. לכן למדענים יש נטייה טבעית להציג את התרומה שלהם כחשובה יותר ממה שהיא באמת, וכך קורה לפעמים שמאמרים מדעיים מתארים ממצאים שחוטאים לאמת. כתוצאה מכך, במקום שהמאמרים יקדמו את המדע, הם מקדמים את המדען".

חוץ מאגו ומרצון למצוא עבודה, גם הטיות קוגניטיביות עשויות לתרום לכך. למשל, הנטייה הרווחת לבחון טיעון באמצעות חיפוש מידע שתומך בו, והתעלמות, לעתים לא מודעת, ממידע סותר (הטיית האישוש). בר־ענן: "לחוקר יש המון סיבות שגורמות לו לחשוב שתיאוריה מסוימת היא נכונה. ולכן p של 0.052 לא ישכנע אותו שהוא טועה". הוא פשוט ימשיך לשחק עם הנתונים, עד שימצא איך לגלח את ה–0.052 אל מתחת לסף המקודש של 0.05.

כך השתרשו פרקטיקות שונות של איסוף וניתוח נתונים ודיווח על תוצאותיהם, שמטרתן להתאים את התוצאות המצויות לתוצאות הרצויות. הפרקטיקות הללו, שזכו לכינוי p-hacking, כוללות בין היתר דיווח חלקי של נתונים, הגדלת המדגם בניסוי עד שהתוצאה נעשית מובהקת סטטיסטית, וניסיון לאתר טעויות לאחר מעשה ולנתח מחדש בלעדיהן.

מרבית החוקרים, כפי שמעידים סקרים ומחקרים שבחנו זאת, אינם מודעים לעיוותים ששימוש בפרקטיקות אלה כופה על ממצאיהם. "הבעיה", מסבירה סטרומינג'ר, "היא שערך המובהקות המקובל של 5% מניח שמנתחים רק פעם אחת את הנתונים. ניתוחים חוזרים ונשנים מגדילים את ההסתברות לקבל תוצאה מובהקת באופן כוזב ליותר מ–5%".

רפליקציות הן כאמור אחת הדרכים שבהן המדע מתקן את עצמו. אולם כיוון שכתבי העת המדעיים מקדשים חדשנות, שיחזורים ישירים של מחקרים שכבר פורסמו מתקשים להתפרסם. אם השיחזורים מניבים תוצאות דומות — למה לחזור על מה שכבר ידוע? ועל אחת כמה וכמה אם התוצאות שונות: הרפליקציות מוצבות בעמדת נחיתות ביחס לניסוי המקורי, שכבר קיבל עם פרסומו חותמת כשרות מדעית. "תחשוב שבודקים יעילות של דיאטה נטולת חלב", אומרת פרופ' נירה ליברמן מבית הספר לפסיכולוגיה באוניברסיטת תל אביב, "עורכים כמה מחקרים בנושא, מדווחים רק על אלה שממצאיהם תומכים בדיאטה — ומתעלמים מהשאר. התוצאה היא שהקוראים מקבלים תמונה מעוותת של המציאות".

"כתבי העת נוטים להעדיף תוצאות מפתיעות, מעניינות או פיקנטיות, והשאלה היא עד כמה אלה תוצאות אמיתיות, או שהן יצאו במקרה והתקבלו לפרסום משום שהן פיקנטיות ומעניינות", מוסיפה ד"ר דנה גנאור־שטרן, ראש המחלקה לפסיכולוגיה במכללה האקדמית אחווה, שמחקר שלה על קוגניציה מספרית דווקא שוחזר בהצלחה בפרויקט. "עד עכשיו הדגש בפרסום היה על חידוש, אבל מבינים שצריך גם מחקרים שמטרתם לשחזר, ולפחות חלק מכתבי העת יותר פתוחים לכך עכשיו".

"כיוון שחוקרים נתונים בלחץ לפרסם כמה שיותר, הפרסומים הפכו ליותר שטחיים", אומר שול. "לפני 30 שנה, מאמרים מדעיים בעיתונים המובילים כללו לרוב סדרת ניסויים, שהכילו רפליקציה של האפקט המרכזי. בעשור האחרון היתה נטייה של עיתונים מובילים לפרסם מאמרים שמתארים רק ניסוי אחד. זה שירת את החוקרים שיכלו לפרסם לפני שחוקרים אחרים יקפצו על אותה עגלה, ובייחוד אם זה ניסוי שמציג תופעה 'סקסית', מפתיעה, מעניינת. זה שירת גם את העיתונים בכך שתוצאות מפתיעות הגבירו את המידה שבה הם מצוטטים בפרסומים אחרים".

מה בעצם המשמעות של 40% שיחזורים מוצלחים? זה מעט או הרבה? לשמוח או להתאכזב?

שול: "ראשית עולה השאלה, מה זה שיחזור? מה מצפים שיקרה כשמריצים ניסוי פעמיים? נשמע טריוויאלי אולי, אבל אנחנו לא בדיוק יודעים איך למדוד שיחזור. בפרויקט של נוסק, הם מדווחים בעצמם שהשתמשו בכמה מדדים. כלומר, אין דרך יחידה וחד־משמעית לקבוע אם שיחזור הצליח או לא".

אחר כך, מוסיפה פרופ' מאיה תמיר, פסיכולוגית חברתית מהאוניברסיטה העברית, "צריך לשאול מה זה אומר אם אפקט לא משתחזר. אפשרות אחת היא שהממצא המקורי שגוי. סביר שבחלק מהמקרים זה אכן המצב. לא מתוך זדון, אלא כי לפעמים חושבים שמצאנו משהו בעל ערך, אבל קיבלנו אותו באופן מקרי. אפשרות אחרת היא שהאפקט קיים במציאות, אך כיוון שגם השיחזור הוא תהליך הסתברותי, לא בהכרח נאתר אותו בכל הרצה מחודשת של הניסוי. איננו יודעים מה ההסתברות שזה יקרה, אך היא אינה 100%".

גבולות האגרסיביות הגרמנית

הגברת המודעות לחשיבות הרפליקציות בפרט, והגברת שקיפות מדעית בכלל, הפכו למפעל חייו של נוסק בשנים האחרונות. עוד לפני פרסום המאמר הנוכחי ערך נוסק גיליון של כתב העת "Social Psychology", שהוקדש כולו לשיחזורים. במיזם אחר שלו, "Many Labs", מספר גדול יותר של מעבדות ניסו לשחזר במקביל מספר קטן יותר של ניסויים פסיכולוגיים קלאסיים (והצליחו בעשרה מ–13 מקרים).

(ההמשך ניתן לקריאה במקור)

לסיום מתאר חלוץ:

 ב–2012 פירסמו בר־ענן ונוסק מאמר משותף, "שהציע שינוי רדיקלי בתחום", תחת הכותרת "אוטופיה מדעית". בשיחת טלפון מניו יורק בר־ענן מפרט: "צריך לשנות את מערך התגמולים, ולתגמל על עבודה מדעית טובה בלי קשר לתוצאותיה, מתוך הבנה שטיבו של מחקר נקבע גם לפי חשיבות השאלה שהוא עוסק בה, ההיגיון שבהשערות ורמת התחכום של המדידה. קריטריונים כאלה יורידו את הלחץ למצוא תוצאות כאלה או אחרות, ויעודדו אנשים לפרסם תוצאות מדויקות ולא רק תוצאות יפות, כפי שהתרגלנו עד כה".

לשם כך, בר־ענן קורא לרפורמה גם בחשיבות המיוחסת לכתבי העת במנגנון האקדמי: "אנשים בהחלט מתלהבים אם מאמר פורסם ב'סיינס' ובדומיו, אבל כיום אין בכלל צורך בכתבי עת כמו 'סיינס', שלפחות בפסיכולוגיה מפרסם שטויות לפעמים, ולא צריך להתנות פרסום בכך ששלושה עמיתים אנונימיים יגידו שהמאמר בסדר. הנורמות האלה מבוססות על תקופה שבה היו צריכים להדפיס מאמרים, אבל כיום ממילא יש דבר כזה שנקרא אינטרנט, שבו אין בעיה של עמודים. עדיף להיפטר מכתבי העת, ולפרסם הכל באינטרנט".

אכן אוטופיה, כי אולי רוצים לפרסם ב"סיינס" ובדומיו דווקא מפני שמספר העמודים מוגבל והסלקציה אכזרית?

בר־ענן: "ההיררכיה של כתבי העת משרתת רק את המו"לים שלהם. חשיבות של מאמר אפשר לבחון לפי מספר הציטוטים שלו, בלי קשר למקום שבו הוא פורסם. כרגע דווקא הגבירו את השיטור בתגובה לבעיות שהתגלו בשיחזור, כדי להקשות עוד יותר לפרסם מאמרים. אבל התקדמות המדע תלויה בשיתוף מידע, ולכן היא תיפגע מכך".

שול: "בהחלט יש עכשיו אווירה חדשה של 'צריך נורא להיזהר' — שלא ירמו אותנו, שלא יעשו מחקרים גרועים. האם זה טוב לפסיכולוגיה? יצירתיות דורשת אווירה של פתיחות, ונפגעת משמרנות ומאווירה של הימנעות מסיכון. נצטרך למצוא את האיזון".

עמדה קצת פילוסופית

ואולי בכלל כל הדרמה מוגזמת ומיותרת? "ממצאי הפרויקט פורסמו באופן שהוציא לתחום מוניטין לא טוב, כאילו אנחנו טוחנים מים", מצרה שנבל. "אבל הטענות המבוססות והמקובלות, המיינסטרים של הדיסציפלינה, נבדקו ואוששו פעמים רבות. לעומת זאת, רעיונות ומודלים שלא מצליחים לשחזר דועכים עם הזמן באופן טבעי, כי מפסיקים לצטט אותם ולהשתמש בהם".

איך אפשר לדעת באילו ממצאים לבטוח ובאילו לא? מותר לצעוק על הילדים שהם לא יקבלו שוקולד אם לא יאכלו חסה בלי לחשוש שיפתחו הפרעות אכילה, או שחייבים לחכות קודם לשיחזור?

סטרומינג'ר: "אין דרך לדעת. כלל אצבע פשוט הוא שעל ממצאים שנמצאים איתנו כבר הרבה זמן אפשר לסמוך ברמה גבוהה יותר של ביטחון. אבל אי אפשר לדעת בוודאות".

אולי נתָנו יותר מדי קרדיט למדע?

סטרומינג'ר: "זו תמימות להתייחס לתוצאות מדעיות כאל 'אמת' לפני שהצטברו כל העדויות הרלוונטיות, ובהחלט צריך להתייחס בחשדנות גם לממצאים שמתפרסמים בכתבי עת מדעיים. וכן, גם כלפי פרויקט הרפליקציה. אבל מה האלטרנטיבה? פשוט לנחש? השיטה המדעית אינה מושלמת, אבל מבין האלטרנטיבות, היא הטובה ביותר".

ליברמן: "אם מאמצים עמדה קצת פילוסופית, אז שום דבר שנאמר במדע אינו נכון. זה תמיד 'נכון לעכשיו' ובחזקת היפותזה. כל הפיזיקה של לפני 100 שנה לא נכונה, וגם דברים רבים בביולוגיה. אבל המשבר אינו על נכונות או אי נכונות הממצאים, אלא על הפרקטיקה. השאלה הרלוונטית היא אם אנחנו עורכים ניסויים ומפרסמים את ממצאיהם בצורה מיטבית".

כשהתפרסמו המחקרים ההם על אסטרולוגיה, האסטרולוגים הגיבו שלא משנה מה, הם יודעים שהם צודקים.

ליברמן: "אסטרולוגיה מעולם לא התעניינה בבדיקת השערות על סמך נתונים, ולכן היא גם לא תחווה משבר. מי שחושב שיש משמעות לבדיקת נתונים, המקום שלו במדעים".