Açık Bilim.Türkiye

Psikoloji Neden Tekrarlama Krizi İçinde?

Yazar: Emine Bilgen

Tekrarlama krizinin (replication crisis) sonuçlarıyla ilgili yazıları web sitemizde derledik ve sunmaya devam edeceğiz. Sonuçları kadar bu krizin nedenlerine bakmak da önemli. Nitekim bu krize sebebiyet veren etmenleri anlamazsak açık bilim yolunda çok yol katedemeyiz. Bu yazıda alanyazında geçen nedenleri derlemeye çalıştım. Elbetteki bütün nedenlere bu yazıda değinmemiş olabilirim. Bunun sebebi, yeni ve henüz üstesinden gelinememiş krizin canlı tartışmalarının takibinin zorluğundan kaynaklanıyor. Bu yazı mevcut tartışmaların uzaktan bir fotoğrafı niteliğindedir diyebiliriz.

Tekrarlama krizini kendi içerisinde neden-sonuç ilişkisi açısından inceleyebiliriz. Daha iyi açıklamak gerekirse araştırmacıların bir sabah kalkıp p-hacklemeye (p-hacking1) veya Sonuçları Öğrenip Hipotez Oluşturmaya (HARKing2) başladığı söylenemez. Dergiler, yayın yanlılığı (publication bias), yani sadece anlamlı sonuçlar bulan araştırmaları yayımlama eğiliminde olmasaydı, Tartışmalı Araştırma Uygulamalarının (TAU) – Questionable Research Practices (QRP3) – kullanımı da muhtemelen bu kadar fazla olmazdı.

İlk olarak akademisyenler için yayın yapmanın neden çok önemli olduğundan bahsetmek yerinde bir başlangıç olacaktır. Akademisyenlerin işlerini koruyabilmek için prestijli ve etki faktörü (impact factor4) yüksek olan dergilerde yayın yapmaları gerekmektedir. Yani çok fazla seçim hakları olmadığı görülmektedir; ya yayımlayacaklar ya da yok olacaklar (publish or perish). Bazı üniversiteler senede belli sayıda çalışma yayımlamış olmayı, bazıları da doktora programlarından mezun olmak için en az üç yayın yapmayı şart koşmaktadır. Bir doktora öğrencisinin, dört sene gibi bir sürede iyi bir çalışma tasarlayıp onu yürütecek, istatistiksel gücü yüksek olacak şekilde veri toplayacak, veriyi analiz edecek ve nitelikli bir makale yazacak kadar alan hakimiyeti olmasının çok gerçekçi bir beklenti olmadığı görülmektedir; üstelik doktora öğrencilerinden beklenen başka yükümlülükler olduğu da göz önünde bulundurulmalıdır. Aynı şekilde akademisyenler zaten birçok işle uğraşırken (ders vermek, konferanslara katılmak, idari görevleri yerine getirmek, vb.), kendilerinden çok sayıda da yayın yapmaları beklenmektedir. Üstelik bu durum kimi ülkelerde çok daha rekabetçi bir hal almıştır ve ne yazık ki dünyada genel olarak üniversitelerin, hem öğrencilerden hem de akademisyenlerden beklediği standartlar daha da yükselmektedir. Böyle bir bağlam içerisinde de bilim insanları doğal olarak niceliği niteliğin önüne koyacak şekilde davranmaktadırlar (Chambers, 2019; Rond ve Miller, 2005).

Yukarıda bahsi geçen hususlardan da anlaşılacağı üzere yayın yapmak akademisyenlerin işlerine devam edebilmeleri için kritik bir önem taşımaktadır. Peki yayın yapabilmeleri için neler gerekiyor biraz da bunlara değinelim. Öncelikle yayın yanlılığı, bilim insanlarının anlamlı sonuçlar bulma motivasyonuyla hareket etmelerinde önemli rol oynamaktadır. Önde gelen psikoloji dergileri, yeni, farklı, kusursuz ve anlamlı sonuçlar bulan araştırmaları basma eğilimindedir. Sadece bu bile kötü niyetli olmayan araştırmacıları, farkında olmadan anlamlı sonuçlar bulacakları yöntemsel seçimler yapmaya itebilmektedir. Örneğin, araştırmacılar kayıp veri (missing data) atama yöntemlerine ve uç değerlere (outliers) ilişkin karar verirken oldukça özgürlerdir. Hiçbir kötü niyetleri olmasa dahi sadece doğrulama yanlılığı5 (confirmation bias) nedeniyle kendi istedikleri sonucu verecek kararları alma eğiliminde olmaları son derece anlaşılır bir durumdur (Chambers, 2019; Wichertsve ark. 2016). Bu gibi durumlar Tip I hata6 oranlarını arttırmaktadır. Nitekim, Simmon, Nelson ve Simonsohn (2011) ismli araştırmacılar bir çalışmalarında veri toplama, analiz etme ve raporlama süreçlerinde araştırmacıların birçok konuda vereceği kararlarda oldukça özgür olmalarının Tip I hata oranını arttırdığını göstermişlerdir. Son olarak, dergilerin yenilik ve farklılık talepleri başlı başına araştırmacıların tekrar çalışmaları (replication studies) yapma konusundaki şevklerini kırmaktadır.

Dergilerin gerçekçi olmayan bu taleplerini karşılamak için araştırmacılar sakıncalarını bilerek ya da bilmeyerek birçok farklı yönteme başvurmaktadır. Bilerek ya da bilmeyerek demeyi tercih ediyorum çünkü bu yöntemlerden bazıları alanda oldukça fazla kullanılmakta ve olağan kabul edilmektedir. Bu noktada TAU’nun ne olduğundan bahsetmek gerekmektedir. Öncelikle birçok araştırmacı TAU ile sahtekarlığı (fraud) ayırmaktadır. Gri alan olarak tanımlayabileceğimiz TAU, araştırmacıların veri toplama ve analizi süreçlerinde aldıkları kararlarla serbestlik derecesini (degrees of freedom) arttırdıkları uygulamaları kapsar (John, Loewenstein ve Prelec, 2012). Bu uygulamalardan birisi olan Sonuçları Öğrenip Hipotez Oluşturma (SÖH) ile başlayalım. Keşif (exploratory) çalışması sonuçlarını, doğrulayıcı (confirmatory) çalışma sonuçları gibi sunmak sıklıkla karşılaşılan, hatta dergilerin de talep ettiği bir uygulamadır (Wagenmakers ve ark., 2012). Bir başka TAU olan p-hackleme’den bahsetmeden önce birçok istatistik kitabının p’nin tanımını yanlış verdiğini göz önünde bulundurarak p’nin gerçekte ne anlama geldiğinden bahsetmenin önemli olduğunu düşünüyorum. p değeri, eğer yokluk hipotezi (null hypothesis) doğruysa, gözlenen değere eşit ya da onun fazlasını şans eseri elde etme olasılığını vermektedir. p değerine ilişkin iki önemli yanlış anlaşılma dikkat çekmektedir. İlki, p değerinin çalışma tekrarlandığında, anlamlı bir sonuç verme olasılığını (1 − p) vereceği düşüncesidir. Diğer yanlış anlaşılmaysa ilişkinin yönüyle alakalıdır: p değeri, gözlenen değere bakarak yokluk hipotezinin ne olasılıkla desteklendiğine ilişkin bilgi vermez; yokluk hipotezi doğruysa gözlenen değerin şans eseri çıkma olasılığına ilişkin bilgi verir. (Maxwell, Delaney ve Kelley, 2018). p değeri her ne kadar yokluk hipotezinin doğru olma olasılığıyla ve elde edilen etkinin büyüklüğü ya da güvenirliğiyle ilgili bir bilgi vermese de, sıkça yanlış anlaşılıp yanlış kullanıldığı için, p değerini .05’ten küçük bulmak çok önem kazanmıştır. Bu yüzden araştırmacılar p-hackleme yöntemine sıklıkla başvurmuşlardır.

Tekrarlama krizindeki önemli nedenlerden biri de psikoloji çalışmalarında istatistiksel gücün (statistical power) düşük olmasıdır. Her ne kadar Cohen 1960’larda psikoloji çalışmalarının düşük istatistiksel güce sahip olduğundan ve istatistiksel gücün etkisinden bahsetse de önemi yeni yeni anlaşılmaktadır. Psikoloji çalışmalarının çoğunlukla istatistiksel güç yönünden yetersiz (underpowered) olduğu göz önünde bulundurulduğunda çoğu çalışmanın neden tekrarlanamadığı aşikardır. Psikoloji çalışmalarının neden güçsüz olduğu sorusunu yanıtlayabilmek için ise öncelikle istatistiksel gücü nelerin belirlediğine bakmak gerekmektedir. İstatistiksel güç bazı faktörlere bağlıdır: α, etki büyüklüğü (effect size) ve örneklem sayısı (s). İlgilendiğimiz değişkenin etki büyüklüğü araştırmacının elinde olmayan bir faktördür (bir değişkenin doğada var olan etki büyüklüğünü manipüle edemeyiz). Bunun yanı sıra birçok araştırmacının α değerini .05 olarak kabul ettiğini göz önünde bulundurduğumuzda, geriye değişkenlik gösterebilecek ve kontrol edebileceğimiz tek bir faktör kalmaktadır: Örneklem sayısı. Sorun tam olarak da buradan kaynaklanmaktadır. Psikoloji araştırmalarının örneklem sayıları oldukça düşüktür dolayısıyla da araştırmalar istatistiksel güç yönünden yetersiz kalmaktadır (Chambers, 2019).

TAU’nun ne kadar yaygın olduğunu anlamak için John, Loewenstein ve Prelec (2012) 2000 psikoloğa anonim bir anket uygulamışlardır. Anket sonuçları durumun ne kadar ciddi olduğunu gözler önüne sermektedir:

● Çalışmadaki bağımlı değişkenlerin tümünü rapor etmeme: %78 Kendi Kabul oranı (Self-Admission Rate) (KKO), %90 Kabul Tahmininden Elde Edilen Yaygınlık Tahmini (Prevalence Estimate Derived From Admission Estimate) (KTEYT).

● Sonuçların anlamlı olup olmadığına baktıktan sonra veri toplamaya devam etmek: %72 KKO, %90 KTEYT

● Tüm koşulları rapor etmeme: %42 KKO, %70 KTEYT

● İstenilen sonuca ulaştıktan sonra veri toplamayı bırakmak: %36 KKO, %50 KTEYT

p değerini aşağı doğru yuvarlama ( örn. .054’ olan bir p değerini .05’ten düşük olarak raporlamak): %39 KKO, %60 KTEYT

● Seçici olarak “işe yarayan” çalışmaları raporlamak: %67 KKO, %90 KTEYT

● Uç değerleri yaptığı etkiye bakarak çıkartmak: %62 KKO, %90 KTEYT

● Beklemediği bulguları en başta yordamış (predict) gibi raporlamak: %54 KKO, %80 KTEYT

● Veri uydurmak: %9 KKO, %30 KTEYT

Her ne kadar oransal olarak araştırmacıların, dergilerin gerçek dışı beklentilerini karşılamak için başvurduğu yöntemlerin çok azını oluştursa da sahtekarlık konusuna da değinmek gerekir; zira yayımla ya da yok ol anlayışı ve yayın yanlılığının insanları getirdiği en uç nokta burası. Bu konuda Diederik Stapel, en çok bilinen vakalardan birisi. Tilburg Üniversitesinde görev yaparken veri uydurmak ve değiştirmekten dolayı araştırmaları geri çekilmiş (retract) ve işine son verilmişti. Her ne kadar kendisi sahtekarlık denilince akla gelen ilk isimlerden olsa da Daniele Fanelli (2009) meta analiz çalışmasında bilim insanlarının %2’sinin sahtekarlık sayılabilecek uygulamalarda bulunduğunu göstermiştir (Chambers, 2019).

Görüldüğü üzere şu an içinde bulunulan kriz kaçınılmazdı ve mevcut koşulları iyileştirmeden krizden çıkabilmemiz çok olası görünmemekte. Aslında pek çok ilerleme katedildi fakat daha çok yol alınması gerekmekte. Vurguyu bağlama yapmayı önemsiyoruz, zira yanlış uygulamaları benimseyen bilim insanlarını suçlamak kolaya kaçmak olacaktır ve durumu çözmeyecektir. Elbette ki amacımız Stapel’i ya da yanlış uygulamalarda bulunan diğer bilim insanlarını aklamak değil. Ancak dikkatimizi bu insanların neden bu tür uygulamalarda bulunduğuna yöneltirsek ve kişileri bu tür uygulamalara iten nedenleri ortadan kaldırmaya çalışırsak, gelecekte böyle vakaların önüne geçilmesi daha kolay olacaktır.

Kaynakça

Kerr, N. L. (1998). HARKing: Hypothesizing after the results are known. Personality and Social Psychology Review, 2(3), 196–217. doi: 10.1207/s15327957pspr0203_4

Chambers, C. (2019). The seven deadly sins of psychology: a manifesto for reforming the culture of scientific practice. Princeton, NJ: Princeton University Press.

Rond, M. D. ve Miller, A. N. (2005). Publish or perish. Journal of Management Inquiry, 14(4), 321–329. doi: 10.1177/1056492605276850

Wicherts, J. M., Veldkamp, C. L. S., Augusteijn, H. E. M., Bakker, M., Aert, R. C. M. V. ve Marcel A. L. M. Van Assen. (2016). Degrees of freedom in planning, running, analyzing, and reporting psychological studies: A checklist to avoid p-hacking. Frontiers in Psychology, 7. doi: 10.3389/fpsyg.2016.01832

Simmons, J. P., Nelson, L. D. ve Simonsohn, U. (2011). False-Positive Psychology. Psychological Science, 22(11), 1359–1366. doi: 10.1177/0956797611417632

John, L. K., Loewenstein, G. ve Prelec, D. (2012). Measuring the prevalence of questionable research practices with incentives for truth telling. Psychological Science, 23(5), 524–532. doi: 10.1177/0956797611430953

Wagenmakers, E.-J., Wetzels, R., Borsboom, D., Han L. J. Van Der Maas, ve Kievit, R. A. (2012). An agenda for purely confirmatory research. Perspectives on Psychological Science, 7(6), 632–638. doi: 10.1177/1745691612463078

Maxwell, S. E., Delaney, H. D. ve Kelley, K. (2018). Designing experiments and analyzing data: a model comparison perspective. New York, NY: Routledge, Taylor & Francis Group.

Fanelli, D. (2009). How many scientists fabricate and falsify research? A systematic review and meta-analysis of survey data. PLoS ONE, 4(5). doi: 10.1371/journal.pone.0005738


  1. p değerini anlamlı bulana kadar veriyle oynamak ve farklı istatistiksel testler denemek. 

  2. Bu terimi 1998’de psikolog Norbert Kerr alanyazına katmıştır. Araştırmanın sonuçları belli olunca baştaki hipotezlerin değiştirilip sonuçlara göre yeniden hipotez üretilmesi anlamına gelmektedir. 

  3. Bilimsel verilerin ve sonuçlarının bir şekilde bozulmasını içeren uygulamalar. 

  4. Bir akademik derginin, yayınladığı güncel makalelerine bulunulan ortalama atıf sayısını yansıtan bir ölçütüdür. 

  5. İnsanlar kendi inandıkları düşünceyi doğrulayan bilgilere daha çok dikkat etme, o bilgileri arama ve daha iyi hatırlama eğilimindedirler. 

  6. Yokluk hipotezinin doğru olmasına rağmen reddedilmesi