Açık Bilim.Türkiye

Burada Olan Şey Rüzgarın Yön Değiştirmesi [Çev.]

Yazar: Deniz Pala

Bu yazı Andrew Gelman’ın kişisel bloğunda yayımladığı “What has happened down here is the winds have changed1” başlıklı yazının çevirisidir. Yazının orijinaline şu bağlantıdan ulaşabilirsiniz: https://statmodeling.stat.columbia.edu/2016/09/21/what-has-happened-down-here-is-the-winds-have-changed/

Gelman bu yazısında psikoloji alanındaki tekrarlama krizine ve yöntemsel tartışmalara dair kapsamlı bir özet yapıyor ve kendi görüşlerini paylaşıyor. Yazı, aynı zamanda şeffaf ve açık bilim aktivistlerine yönelik eleştirilerde bulunan Susan Fiske’e bir yanıt niteliğinde. Bu yazının tekrarlama krizi ve açık bilim tartışmalarına giriş niteliğinde, iyi bir başlangıç okuması olacağını düşünerek Türkçeye çevirdik. Bazı makale isimleri, terimler ve özel isimlerin orijinallerini ya da Türkçe karşılıklarını metinde parantez içinde belirttik. İyi okumalar.


Biri bana Susan Fiske’in şu makalesini gönderdi, Psikolojik Bilimler Derneği’nin (Association for Psychological Science) bir dergisi APS Observer’da yayımlanacakmış. Makale beni biraz üzdü, cevabımı kısa ve tatlı tutasım vardı ama sonra konuyu biraz bağlamına oturtmaya değeceğini düşündüm.

Önce sizinle makaleyi paylaşacağım, sonra da daha önemli gördüğüm meselelerde görüşlerimi sunacağım. Bu paylaşımın üst ve alt başlıkları; tekrarlama krizinin (replication crisis) bilimin, özellikle sosyal psikolojinin, topografyasını değiştirmesi gerçeğine göndermede bulunuyor ve görüyorum ki Fiske gibi arazinin eski biçimine adapte olmuş kişiler için bu değişimler felaket gibi geliyor.

Fiske’in metnini cümle cümle çürütmeyeceğim çünkü yazdıkları çoğunlukla psikoloji alanında neler yaşandığıyla ilgili (kariyerler, kadrolar, çamur atma taktikleri, laboratuvarlarını korumaya çalışan insanlar, konferans sponsorları, kariyer güvencesizlikleri) ve ben bu konuda hiçbir şey bilmiyorum çünkü bu alana yabancıyım ve istatistik ve siyaset biliminde bu tür şeylere nadiren tanık oldum. (Tabii ki bütün akademik bölümlerde kirli işler dönüyor ama aşina olduğum alanlarda yöntem eleştirileri büyük oranda şeffaf ve alanın önde gelen kişileri bir şey yayımladıkları zaman diğerlerinin onları eleştirmeye hakları olduğunu düşünmelerini sanki sorun etmiyorlar.)

Fiske’in makalesinin çoğunda bahsettiği psikoloji akademisinin siyasetini bilmediğim için ben çoğunlukla onun hem içerik hem de ifade açısından nahoş bulduğum tutumunun psikolojinin yakın tarihinin ve tekrarlama krizinin ışığında nasıl anlaşılabileceği hakkında yazacağım.

Fiske’in yazısını buradan okuyabilirsiniz.2

Kısaca, Fiske insanların basılı araştırmalar hakkında olumsuz yorum yapmak için sosyal medyayı kullanmasını sevmiyor. O, örtük bir şekilde benim “araştırma memurluğu” dediğim kuralı takip ediyor: Bir araştırma onaylanmış bir yerde yayımlandıysa o artık gerçek olarak kabul edilmelidir. Başka bir yerde bu tutumla olan sorunum hakkında yazmıştım: Kısaca, (a) yayımlanan birçok makale açıkça hatalı, bu hatalar genellikle yalnızca iddiaların incelenmesiyle açığa çıkabilir, başarısız bir tekrar çalışmasıyla daha da aşikar olur ve (b) yayımlama süreci öyle riskli bir maceradır ki yayımlanan ve yayımlanmayan işler arasına net bir çizgi çizmek istatistiksel bir hatadır.

Kuzeyden bulutlar geldi ve yağmur başladı

Her şeyin ne kadar hızlı değiştiğinin farkına varmak Fiske’in tutumunu anlamamıza yardımcı olacaktır. (Yazının yayımlanmasından) Beş yıl önce (2011) tekrarlama krizi ancak ufuktaki bir buluttu.

Bana göre önemli olayların zaman çizelgesi şöyle:

1960’lar-1970’ler: Paul Meehl deneysel psikolojinin standart paradigmasının doğru işlemediğini öne sürdü: “Aşırı hevesli ve akıllı bir araştırmacı, zayıf nomolojik ağlar arasında yavaşça ilerleyerek o ağın hiçbir parçasını doğrulamadan ya da çürütmeden uzun bir dizi ilişkili deneyler yapabilir; yine de deneyleri eleştirel olmayan bir okura ‘bütüncül bir araştırma programı’ gibi görünebilir.”

Bütün psikologlar Paul Meehl’in kim olduğunu biliyordu, yine de uyarılarını görmezden geldiler. Örneğin Robert Rosenthal “çekmecede kalan çalışmalar sorunu” (file drawer problem) üzerine etkili bir makale yazdı ama galiba bu, dikkatimizi “bir şekilde istatistiksel anlamlılık bul ve zaferini ilan et” paradigmasının daha büyük sorunlarından uzaklaştırdı.

1960’lar: Jacob Cohen istatistiksel güç hakkında çalışır, deneysel desen ve veri toplamanın psikolojide iyi araştırmanın temeli olduğu fikrini yayar, nihayetinde “Statistical Power Analysis for the Behavioral Sciences” (Davranışsal Bilimler için İstatistiksel Güç Analizi) kitabını çıkarır. Araştırmacılar Cohen’in yöntemleri ve terminolojisini benimserler ancak gerçek hayat etki büyüklüklerini aşırı abartarak en önemli konuda yan çizerler.

1971: Tversky ve Kahneman, insan bilişinin yanlılıkları hakkındaki ilk çalışmalarından biri olan “Belief in the law of small numbers“ı (Küçük sayılar yasasına inanç) yazar. Bu eski çalışma, araştırmacıların belirsizlik ve (özellikle p değeri ve istatistiksel anlamlılıkla ilgili ama onunla sınırlı kalmayan) varyasyon hakkındaki yanlış anlayışlarına odaklanır ama sonra meslektaşları ile birlikte daha genel araştırma konularına geçiş yaparlar ve çalışmalarının araştırma pratikleriyle ilgisini tam olarak anlamazlar.

1980’ler-1990’lar: Yokluk hipotezi anlamlılık testi (null hypothesis significance testing) psikoloji dünyasında gittikçe daha tartışmalı hale gelir. Ne yazık ki bu sorun, araştırmadan çok bir yöntem sorunu olarak değerlendirilir. Sanırım araştırma protokollerinde sorun olmadığını, yalnızca analizlerin biraz geliştirilmesi gerektiğini düşünüyorlardı. Basılan birçok araştırmanın manasız olduğunu söyleyen Meehl’inki gibi görüşlere fazla rastlamadım.

2006: Provokatif iddialarda bulunan (“Mühendislerin daha çok erkek çocukları, hemşirelerin daha çok kız çocukları olur” vs.) bir dizi çalışma yayımlayan, daha sonra iddialarının her birinin istatistiksel hatalardan kaynaklandığı ortaya çıkan sosyolog Satoshi Kanazawa’yı ilk kez duyuyorum. Tabii ki istatistiksel hataların var olduğunu biliyordum; ama henüz bir araştırma programının düşük sinyal-gürültü oranı yüzünden tamamen çöpe gidebileceğini kabullenmemiştim.

2008: Edward Vul, Christine Harris, Piotr Winkielman ve Harold Pashler tartışmalı makaleleri “Voodoo correlations in social neuroscience”ı (Sosyal nörobilimde voodoo korelasyonları) yazarlar. Yalnızca bazı yayımlanan makalelerin teknik sorunları olduğunu değil, aynı zamanda bu istatistiksel sorunların araştırma alanını tahrif ettiğini, yayımlanmış birçok ünlü iddianın güvenilmez olduğunu öne sürerler. Meehl’in bölgesine doğru gidiyoruz.

2008 aynı zamanda Neuroskeptic bloğunun doğuşuna tanıklık etti. Blog (dua çalışmaları, aşı karşıtlığı gibi) basit hedeflerle başladı, sonra bilim “hype”ını eleştirmeye başladı (“Makaleyi ya da yazarları eleştirmek için yazmıyorum yanlış anlaşılmasın ama… Bence bu çalışmanın verisi değerli ve ilgi çekici – bir uzman için. Beni endişelendiren şey bu çalışma ve benzerlerinin sunulma biçimi, hatta haber olarak sunulması.”), çok geçmeden alana dair daha kapsamlı eleştirilere geçiş yaptı. Neuroskeptic bloğu kendi başına büyük bir olay mıydı bilmiyorum ama o bilim-görüş blogculuğunun geleneksel politik konulardan içsel eleştiriye doğru kaymasının bir belirtisiydi.

2011: Joseph Simmons, Leif Nelson ve Uri Simonsohn “False-positive psychology” (Yanlış pozitif psikoloji) isimli bir makale yayımlarlar, makalede “araştırmacı serbestlik derecesi” (researcher degrees of freedom) adını verdikleri kullanışlı terimi tanıtırlar. Daha sonra p-hackleme (p-hacking) terimini ortaya atarlar ve Eric Loken ve ben the garden of forking paths‘te (Yolları çatallanan bahçe) araştırmacı serbestlik derecesinin istatistiksel anlamlılığa ulaşmak için kullanılması süreçlerini anlatırız. Simmons ve arkadaşlarının makalesi aynı zamanda kinayeli başlığıyla dikkat çekicidir: Yalnızca pozitif psikoloji alt alanının iddialarını sorgulamaz, aynı zamanda onunla alay eder. (Düzeltme: Uri makalelerinin pozitif psikoloji alt alanıyla bir alakası olmadığı, cinas yapmak gibi bir niyetlerinin de olmadığı konusunda beni bilgilendiren bir e-posta attı.)

Aynı yıl Simohnson bir diğer makalesinde “Dennis adındaki dişçi” (dentist-named-Dennis) makalesini yerden yere vurur. Psikoloji tarihinde çok önemli bir an değil belki ama benim için önemli çünkü bu, sonuçlarını hiç düşünmeden kabul ettiğim bir makaleydi. Ben de empirik araştırmaların temel zayıflıklarından habersizdim o zamanlar.

2011: Daryl Bem, “Feeling the future: Experimental evidence for anomalous retroactive influences on cognition and affect” (Geleceği hissetmek: Bilişte ve duygulanımda anormal retroaktif etkilere dair deneysel kanıt) makalesini psikolojinin üst düzey dergilerinin birinde yayımlar. Çoğu kişi Bem’in duyumötesi algıyı (extrasensory perception) keşfettiğini düşünmedi ama genel izlenim, yaptığı çalışmanın sağlam olduğu yönündeydi. Bu da psikoloji araştırmalarına dair bir endişe oluşturdu. Örneğin, New York Times şöyle yazdı:

Derginin editörü, Colorado Üniversitesinden Charles Judd, makalenin olağan değerlendirme süreçlerinden geçtiğini söyledi. “Dört kişi metne dair değerlendirmede bulundu ve bunlar son derece güvenilir kişiler”.

Geçmişe bakınca, Bem’in makalesinde devasa çoklu karşılaştırma (multiple comparisons) sorunları vardı –editör ve dört hakem neye bakmaları gerektiğini bilmiyorlardı– ama 2011 yılında böyle şeyleri fark etmekte pek iyi değildik.

Bu noktada şunu belirtelim, bazı eski çalışmalar bu açıdan benzeşiyor: Standart pratiklerdeki belirli yöntemsel kusurlar yalnızca tekil hatalardan ibaret değiller, aksine bilimsel süreçlere ciddi zararlar veriyorlar. Konuyla ilişkili bazı metinler şunlar: Jonn Ioannidis’in 2005 makalesi “Why most published research findings are false” (Neden yayımlanmış araştırma bulgularının çoğu yanlıştır) ve Nicholas Christakis ile James Fowler’ın obezitenin bulaşıcı olduğunu iddia ettikleri 2007 makaleleri. Ioannidis’in makalesi artık bir klasik ama ilk çıktığında muhtemel etkilerinin kapsamını çoğumuzun anlayabildiğini sanmıyorum. Christakis ve Fowler’ın makalesi artık ciddiye alınmıyor ama zamanında önemli görülüyordu. Söylemek istediğim: 2005 ve 2007’deki bu olayları hikayemize aldık ancak o dönemde tam olarak kavranmamıştı. Galiba kötü işlerin istisna değil kural olduğunu fark etmemizi sağlayan Bem oldu.

2011 itibariyle bir şeylerin yanlış olduğu hissi var; ancak bir şeylerin ne kadar yanlış olduğu pek açık değil ve (ben de dahil) gözlemciler hala yayımlanan araştırmalardaki felaket karşılaştırma sorunlarının yaygınlığını ve barizliğini fark edemiyor. Ya da şöyle diyeyim: Zayıf teori ve onu destekleyen, neredeyse tamamı istatistiksel olarak anlamlı araştırma sonuçlarının ölümcül kombinasyonu ki o sonuçlar da kontrolsüz araştırmacı serbestlik derecesinin ürünü olarak ortaya çıkıyor.

2011: Bilimsel görevi kötüye kullanımın çeşitli örnekleri bir bir haber olur. Diederik Stapel Tilburg Üniversitesinin psikoloji bölümünden atılır ve Marc Hauser Harvard’ın psikoloji bölümünden ayrılır. Bu ve benzeri örnekler Retraction Watch bloğuna dikkatleri çeker. Bilimsel sahtekarlık, özensizlik ve beceriksizlik arasında bir bağlantı görüyorum: Bütün vakalarda araştırmacılar hipotezlerine öyle inanıyorlar ki hasbelkader onu destekleyebilecek her kanıta atlayacak kadar dikkatsiz oluyorlar. Clarke Kanunu‘nu hatırla (“Yeterince boktan bir araştırma sahtekarlıktan ayırt edilemez.”).

2012: Gregory Francis, “Too good to be true“yu (Doğru olmak için fazla iyi) yayımlar, tekrar eden istatistiksel olarak anlamlı sonuçların (yani yayımlanan psikoloji makalelerinin standart pratiğinin), seçme yanlılığının (selection bias) bir işareti olabileceğini öne süren bir dizi makalenin öncüsü olur. PubPeer başlar.

2013: Katherine Button, John Ioannidis, Claire Mokrysz, Brian Nosek, Jonathan Flint, Emma Robinson ve Marcus Munafo “Power failure: Why small sample size undermines the reliability of neuroscience,” (Güç kesintisi: Küçük örneklem neden nörobilimin güvenilirliğini baltalar) makalesini yayımlar, seçme yanlılığı ve etki büyüklüğünün abartılması arasındaki ilişkiyi kurarak Cohen’in güç analizinden Meehl’in daha genel umutsuzluğuna giden döngüyü tamamlar.

Bu civarlarda insanlar bana kötü veriye dayanan aşırı iddialı makaleleri yollamaya başlar. İlki, ovulasyon ile oy verme hakkında olanı sanırım; sonra da ovulasyon ile giyim, şişman kollar ile politik tutumlar ve diğerlerine geliyoruz. “Psikolojik bilimler tipi araştırma” terimi kelime dağarcığımıza girer.

Ayrıca, tekrar çalışması hareketi hız kazanır ve bir dizi yüksek profilli başarısız tekrar çalışması basılır. Öncelikle Bem’in duyumötesi algı çalışmasının hiç de sürpriz olmayan başarısız tekrar çalışması, (Bem kendisi başarılı tekrar çalışmaları olduğunu iddia ettiği bir makale yazdı ama meta analizi tekrar çalışması olmayan birçok çalışma da içeriyordu) arkasından da bedenleşmiş biliş (embodied cognition), ego tükenmesi ( ego depletion) ve sosyal psikolojinin daha birçok saygın bulgusunun başarısız tekrar çalışmaları geldi.

2015: Araştırma kalitesi ve bilimsel yayımlama sürecine dair birçok kaygı Dana Carney, Amy Cuddy ve Andy Yap’in “güç pozu” ( power pose) araştırmalarında birleşti. Medya, bu çalışmaya bayıldı ama çalışma artık aşina olduğumuz araştırmacı serbestlik derecesi sorunundan fena halde muzdaripti (Uri Simonsohn’un şu tartışmasına bakınız) ve Eva Ranehill, Anna Dreber, Magnus Johannesson, Susanne Leiberg, Sunhae Sul ve Roberto Weber tarafından yapılan tekrar çalışmasında bu etki gözlenmedi.

Bu sırada prestijli dergi Proceedings of the National Academy of Sciences (PPNAS) oyuna dahil olur ve erkek isimli kasırgalar ( himmicanes), uçuş sırasındaki öfke patlamaları ( air rage), ve “İnsanlar kronolojik yaşlarında yeni onyıla yaklaştıklarında anlam arayışına girerler” gibi hakikaten kötü, korkunç derecede hatalı makaleler basar. Bu makalelerin hepsinin altında aynı editörün imzası vardır: “Susan T. Fiske, Princeton Üniversitesi”. Tam da araştırmacı serbestlik derecesi, istatistiksel anlamlılık ve düşük güçteki çalışmaların tehlikeleri konuları haber olmaya başlamışken PPNAS ortaya atlayıveriyor. Kötü zamanlamanın böylesi.

2016: Brian Nosek ve diğerleri büyük bir tekrar çalışması projesi için işbirliği organize ediyor. Birçok ünlü çalışma tekrarlanamıyor. Tekrarlama projesi, bilim insanları arasında ve haberlerde büyük ilgi çekiyor ve psikolojinin, hatta belki de bilimsel araştırmaların, kamusal güvenilirliğini zedeliyor. Başarısız tekrar çalışmalarını küçümseyenler ya da artçı birlik saldırıları olmadı değil ama ikna edici değillerdi.

2016’nın sonları: Artık “kral çıplak” aşamasına geldik. Sosyal psikolojinin görünürde sağlam olan bulgularının tekrarlanamadığı ortaya çıktığında artık şaşırmıyoruz.

Şiddetliydi yağış ve dur durak bilmeden yağdı

Evet, oldukça detaylı bir zaman çizelgesi çıkardık. Ama mesele şu: Uzun süredir hiçbir şey olmuyor ve ilk açığa çıkanlar ile teorik makalelerden sonra bile yalnızca araştırmalarınıza ve diğer sorumluluklarınıza odaklanırsanız krizi görmezden gelebilirsiniz. 2011 yılında hâlâ Daniel Kahneman bile hazırlama (priming) çalışmaları hakkında şöyle diyordu: “İnanmama seçeneğiniz yok. Sonuçlar ne uydurma ne de şans eseri. Bu çalışmaların temel sonuçlarının doğru olduğunu kabul etmekten başka şansınız yok.”

Sonra birden dünya altüst oldu.

Eski dünyaya büyük yatırımlar yapmışsanız değişimi düşünmek oldukça üzücü olmalı. Fiske şu anda batan bir şirkette hissesi olan biri konumunda, bu yüzden onu hevesle savunması da şaşırtıcı değil. Mükemmel bir analoji olmadı gerçi; çünkü hisselerini satacağı kimsesi de yok. Aslında Fiske’in yapması gereken şey zararını kabullenip kendisinin ve meslektaşlarının birçok hata yapmış olduğunu itiraf etmek ve yola devam etmek. Kadrosunu almış, PPNAS’ın anahtarları elinde, yani isterse yapar. Ama herhalde kısa vadede tekrarlama teröristleri hakkında falan atıp tutmak daha konforlu geliyor.

Evangeline Caddesi’nde 2 metre su

Susan Fiske kim ve neden ortalıkta yöntem teröristleri diye birilerinin dolaştığını sanıyor? İkincisinden emin değilim; çünkü kendisi bu teröristlerin kim olduğunu ya da ne tür terör eylemleri gerçekleştirdiklerini belirtmeyi reddediyor. Makalesi tam olarak sıfır kanıt sunuyor, bunun yerine kontrol edilemeyecek yarı anekdotlar veriyor.

Susan Fiske’in adını ilk kez yukarıda bahsettiğim PPNAS makalelerinin (erkek isimli kasırgalar vs.) editörü olarak duydum. Yani en azından bazı örnekler için sosyal bilimler araştırmaları konusunda kötü muhakemesi olduğunu söyleyebiliriz.

Ya da şöyle diyelim: 2016’da yaşıyor ama 2006 dönemi düşüncesine saplanmış. 10 yıl öncesinde belki ben de erkek isimli kasırgalar ya da uçuş öfkeleri makalelerine kanardım. Kanmazdım diye düşünmek istiyorum, ama kim bilir? Simonsohn ve diğerlerinin izinde ben de, yayımlanan araştırmalar konusunda eskiden olduğumdan çok daha şüpheci olmaya başladım. Çoğumuz için Meehl’in elli yıl önce bulunduğu konuma gelmek çok uzun sürdü.

Fiske’in kendi basılı işlerinin de bazı sorunları var. Araştırmaları konusunda genel bir beyanda bulunmayacağım; çünkü makalelerinin çoğunu okumadım. Nick Brown’ın bana gönderdiği kadarını biliyorum:

Çeşitli nedenlerle ben (Brown) kendimi şu makaleyi okurken buldum: This Old Stereotype: The Pervasiveness and Persistence of the Elderly Stereotype (Bu eski stereotip: Yaşlı stereotipinin yaygınlığı ve dayanıklılığı) by Amy J. C. Cuddy, Michael I. Norton, and Susan T. Fiske (Journal of Social Issues, 2005)…

Bu makale hatalarla doluydu. Öncelikle, temel iddiaları 5.03 ve 11.14 t istatistikleriyle destekleniyordu. … Hmmm, tekrar hesaplandığında değerler aslında 1.8 ve 3.3 çıkıyor. Yani iddiaların biri “istatistiksel olarak anlamlı” bile değil (Böylece, kurallara göre, yayımlanabilir değil).

Ama daha kötüsü de vardı. Rapor edilen bazı sayılar doğru olamazdı. Yazarların bazı hesapları yanlış yapmış olması muhtemel, mesela ara değerleri yanlış şekilde yuvarlamak gibi. Yuvarlama hatası büyük bir mesele değil gibi geliyor, ama yazarlara kendileriyle işbirliği yapmayan verilerden istedikleri sonuçları elde edebilmeleri için kullanışlı bir dizi “serbestlik derecesi” sunuyor.

Devamını ilgili bağlantıda bulabilirsiniz. Uzun lafın kısası, Cuddy, Norton ve Fiske veride bir sürü hata yapmışlar –ki bu çok kötü ama böyle şeyler olur– ve bu hatalar kendilerine gösterildiğinde herhangi bir şeyi yeniden değerlendirmeyi reddettiler. Mühim teorileri o kadar açık uçlu ki herhangi bir sonucu, herhangi bir yöndeki herhangi bir etkileşimi açıklayabiliyor.

İşte bu yüzden yazarların hataları düzeltmenin “makalenin çıkarımlarını değiştirmediğini” iddia etmeleri hem çok saçma hem de tamamen doğru. Saçma, çünkü en kritik iddialarından biri tamamen istatistiksel olarak anlamlı bir p değerine dayanıyor ki o p değeri artık yok. Ama iddiaları doğru; çünkü “makalenin asıl çıkarımı” herhangi bir ayrıntıya bağlı değil. Oralarda bir yerlerde p değeri .05’ten küçük bir şeyler olsun yeter; çünkü yayımlayabilecekleri, reklamını yapabilecekleri iddialarını desteklemek için bu yeterli olacak. Konu “yaşlı stereotipinin yaygınlığı ve dayanıklılığı” olabilir ya da artık o gün ne yayımlamak isterlerse.

Yazarlar bu hataların hiçbiri önemli değil diye yırtındığında anlıyorsunuz ki zaten bu projelerde veri filan önemli değil.

Neden bu kadar ayrıntıya giriyorum? Yalnızca çamur mu atıyorum? Fiske bilim reformcularına saldırıyor, bilim reformcuları da Fiske’i yerden yere vuruyor? Hayır, amaç bu değil. Mesele, Fiske’in veri işleme hataları ya da dergi editörü olarak kötü muhakemesi değil, burada önemli olan şey onun ölü bir paradigma içinde çalışması. 1960’larda Meehl bu konularda yazdığında ölmüş olması gereken; ama Simonsohn, Button ve arkadaşları, Nosek ve arkadaşlarının ardından bugün kesinlikle ölü olan paradigma bu. Açık uçlu teorinin, başlıca dergilerde basılıp popüler ve ticari yayınlarda tanıtılmanın, araştırmacı serbestlik derecesiyle elde edilen “p .05’ten küçük” ifadesine dayanmanın paradigması bu. Sosyolog Jeremy Freese’in sözleriyle “empirikten ziyade vampirik” –veriyle öldürülemeyen– teorinin paradigması bu. Başarısız tekrarlama çalışmalarının yanlış tarafında kalan ve bununla başa çıkamayan ünlü sosyal psikologlar Roy Baumeister ve John Bargh‘ın izlediği paradigma bu.

Fiske’in hiçbir çalışması tekrarlanamaz demiyorum, çalışmalarının çoğu ya da üçte biri bile tekrarlanamaz da demiyorum. Hiçbir fikrim yok, incelemedim. Söylediğim şu: Fiske’in çalışmalarına yapılan eleştirilere yaklaşım tarzı on yıl önce psikolojide standarttı ancak artık değil. Yani, modern dünyaya dair rahatsızlığı anlaşılır.

Fiske’in iş arkadaşları ve eski öğrencileri de benzer bir araştırma tarzını benimsemiş görünüyorlar; esnek hipotezler, istatistiksel anlamlılıkla kanıtlama, eleştiriye karşı ciddiyetsiz tavır.

Şunu da vurgulayayım, evet, istatistikçilerin bu tartışmada yararlı bir rolü olabilir. Fiske vs. istatistik ve araştırma yöntemlerinden nefret ediyorlarsa, sorun değil; her seferinde işleyen şeffaf deneyler tasarlayabilirler. Ama, hayır, iddialarını gürültülü (noisy) veriden elde ettikleri p değerleriyle haklı çıkaranlar onlar, PPNAS’a gönderilen çalışmaları yeterince heyecan verici olmadıkları için reddedenler onlar, “p değeri .05’ten küçük” olan herhangi bir şeye (örneğin, kadınların oy tercihlerini ayın hangi gününde olduklarına göre yüzde yirmi oranında değiştirdikleri iddiası) inanıyor gibi görünenler onlar. Eğer oynamak istediğiniz oyun buysa, yöntem eleştirisi de tabii ki uygun.

Nehir tüm gün yükseldi, nehir tüm gece yükseldi

Hatalar kendilerini besler. Araştırmacının bir hatasını bir diğeri izleyebilir. Sayıları bir umursamaya görün, her şey olabilir. İşte çalışması sorgulanan bazı araştırmacılardan hakikaten korkunç bir örnek:

Çalışma 3’ün verisinde 8 kodlama hatasının keşfedilmesine ve çalışmanın makaleden geri çekilmesine rağmen, makalede gösterdiğim gibi, eleştirmenlerin öne sürdüğü argümanlar savunulamaz. … Çalışma 3’te bulunan hatalara gelince, bulgularıma göre hedef kelime kökleri SUPP ve CE bulguları hiçbir şekilde etkilemiyor.

Hahaha, oldukça komik. Sonuçlar 8 kodlama hatasına karşı o kadar dayanıklı ki! Çalışma 3’ü geri çektikleri halde bir türlü boş verememeleri de ayrıca gülünç. Şuna3 da bakın.

Bana bir de Richard Tol’un ünlü “gremlinler” makalesi hatırlatıldı: Sonunda neredeyse veri noktası kadar hata düzeltmesi yapılmış durumdaydı (Şaka değil!) ama bütün bu düzeltmeler kendisinin çıkarımlarını değiştirmesi için yeterli olmadı. Sanki neredeyse çıkarımlarına önceden karar vermiş gibi. Şimdi bir dakika, bütünüyle teorik bir çalışma yapmakta sorun yok ama o zaman veriyle dikkatimizi dağıtmayın.

Bazıları selde kayboldu

Bakın, bunlar kötü insanlardır demiyorum. Bazı baştan savma işler yapmış olabilirler, ya da hatalar yapmışlardır; ama bunlar teknik ayrıntılar –en azından kendilerinin öyle düşündüğünü sanıyorum. Cuddy, Norton ve Fiske için şöyle bir geri çekilip belki de yıllardır yaptıkları her şeyin bir hata olduğunu düşünmek… Çok büyük bir adım olurdu. Doğrusu, muhtemelen böyle bir adım atmayacaklar. Tam tersi teşvik ediliyor.

Bu uzun paylaşımı yazmamın bahanesi olan makalede Fiske arkadaşlarının kariyerleri hakkındaki endişelerini dile getiriyor, araştırma hatalarının kamuya duyurulması sonucu zarar görebilecek kariyerleri. Şunu unutmayın, bu kişilerin her birine karşılık belki de dikkatli, ciddi çalışmalar yürüten; fakat en güzel işleri, terfileri alamayan; çünkü özensiz ama çarpıcı çalışmalar yapıp Psych Science ya da PPNAS’ta yayımlatan diğer adaylarla rekabet edemeyen üç tane genç araştırmacı vardır. Bu işin iki yüzü var.

Bazıları kurtuldu

Burada üzücü olan bir diğer şey de Fiske’in kendi ilkelerinden taviz vermesi gerektiğini hissetmesi. O, “filtresiz trash-talk’u”4, “ölçüsüz saldırıları” ve “düşmanca hırçınlığı” kınıyor ve “editöryal denetim ve hakem değerlendirmesinin (peer review) önemini vurguluyor. Fiske’e göre eleştiriler, “çoğunlukla gizli ve yapıcı (hakem değerlendirmesi), ya da en azından ölçülü diyaloglar (özenli yorumlar ve çürütme yazıları) şeklinde” yapılmalı. Ve “bilimsel standartlar, etik normlar ve karşılıklı saygı”dan bahsediyor.

Ama Fiske, görüşlerini düşüncesiz saldırılarla moderasyonsuz bir forumda hakem değerlendirmesi veya yorum veya çürütme yazısı yazma fırsatı olmadan ifade ediyor; bu sırada isimsiz düşmanlarından “yöntem teröristleri” diye söz ediyor. Bana filtresiz trash-talk gibi geldi. Ama şunu da ekleyeyim, Fiske’i basketbol sahasında görmedim, yani gerçekten trash-talk yaparken nasıl olduğu konusunda hiçbir fikrim yok.

Bunu “yakalandın” havasında gündeme getirmiyorum; aksine, Fiske’in ne kadar zor bir durumda olduğunu vurgulamak istiyorum. Kişisel dünyasının yıkıldığını görüyor (kişisel düzeyde değil, sanıyorum Princeton Üniversitesi’nde Eugene Higgins psikoloji profesörü ve halkla ilişkiler profesörü unvanlarını kendi istediği sürece koruyacaktır) ama kendisinin, arkadaşlarının ve meslektaşlarının çalışmaları on yıl öncesinde kimsenin hayal bile edemeyeceği şekilde sorgulanıyor. Bu korkutucu, ve isimsiz “teröristler”i suçlamak araştırma yöntemlerine dair anlayışındaki eksiklikleri sorgulamaktan daha kolay geliyor olmalı.

Başka şekilde ifade edelim, Fiske, arkadaşları ve öğrencileri kendilerine şöhret, şans ve övgü getiren bir yolu izledi. O yolu sorgularsan o yoldan geçen herkesin meşruiyetini de sorgularsın. Ve bu da hoş olacak değil.

Nehir Plaquemines’e kadar her şeyi dümdüz etti

Fiske sosyal medyadan rahatsız ve bunu anlayabilirim. Kendisi geleneksel medyanın tepesinde oturuyor. APS Observer’da bir makale yayımlayıp hakem değerlendirmesinden geçmesi gerekmeden bütün bu tartışmalara dahil olabilir, prestijli Proceedings of the National Academy of Sciences dergisine makale kabul etme gücü var; kendisinin ve iş arkadaşlarının çalışmaları ulusal gazeteler, TV, radyo ve hatta Ted konuşmalarında yer buluyor, duyduğum kadarıyla. Geleneksel (top-down) medya Susan Fiske’in dostu. Sosyal medya, diğer yandan, kontrol sahibi olmadığı bir alan. Bu durum moral bozucu olmalı ve geleneksel medyanın başarılı bir kullanıcısı olarak ben de (Evet, ben de akademik dergilerde yayın yaptım.) yeni gelenler geleneksel yayın kanallarını gözardı ettiklerinde rahatsız olabiliyorum. Fiske ve ben gibi kişiler profesyonel yaşamlarımızı yayın ve atıf biçimindeki paralardan birer servet oluşturarak harcadık. Şimdi bu paraların değerini kaybettiğini görmek ya da eski usul parayla satın alınamayan şeyleri alabilen yeni bir para biriminin dolaşımda olduğunu düşünmek acı verici.

Fakat bir an kariyerleri unutup bilimi konuşalım.

Sosyal medya, yayımlanan çalışmalardaki hatalara işaret etmek söz konusu olduğunda gerekli. Başka alternatif yok. Evet, bazen dergilerde basılı çalışmaları eleştiren hakem değerlendirmeli mektuplar yayımlamak mümkün ama bu da aşırı miktarda çaba gerektirebiliyor. Dergiler ve yazarlar genellikle eleştirileri gizlemek için büyük bir direnç gösteriyorlar.

Ayrıca şu tartışma da biraz ilişkili:

Dergi makalelerine kıyasla blogların neyini seviyorum? Öncelikle blog alanı sınırsız, dergi alanı sınırlı; özellikle Science, Nature, PPNAS gibi yüksek profilli, çok tanınan dergilerde. İkincisi, bloglarda şüphe ifade etmekte sorun yok; ancak dergilerde kesinlik bir normdur. Ben bloğumda yaş düzeltmesi hakkında birçok fikri tartışabilirken Case ve Deaton’ın sayılarında “45-54 yaş grubunda düzeltme yapılmadığı” dışında söyleyecek bir şeyleri yoktu. Bu kadar! Case ve Deaton’ı bu kadar kısa ve öz konuştukları için suçlamıyorum; derginin şartlarına uyuyorlardı, bu da en az düzeyde açıklama, en az düzeyde keşif yapmak demek. … dergi makalelerinde ya da dergi makalesinin ardından basın ile mülakatlarda tekrar tekrar veriyi keşfetmenin ya da şüphe ifade etmenin caydırıldığını görüyoruz. … PPNAS gibi hakem değerlendirmeli dergilerin normu, çalışmaları bir kesinlik maskesiyle sunmak.

Tekrar edecek olursak, burada amaç iyi bilim yapmak. Hatalar işaretlenmediğinde ve siz her zaman haklıymış gibi, gördüğünüz her veri örüntüsü teorinizle tutarlıymış gibi davrandığınızda iyi bilim yapmak zor. Bu, orijinal çalışmanın sahibi, yıllarca güvenilirliğini çoktan kaybetmiş ipuçlarının peşinden koşan yazarlar için bir sorun; bu, hatalı çalışmaların devamını getiren araştırmacılar için bir sorun; titiz çalışmalar yürütmek isteyen ama çarpıcı, özensiz uygulamalarla “Psychological Science”ta (dergi olan, bilimsel alan değil) gürültü madenciliği5 yapan yazarlarla dolu yayın çevrelerinde rekabet etmekte zorlanan araştırmacılar için bir sorun.

Hata yapmakta sorun yok. Ben de sonradan geri çekmek zorunda kaldığım bir çalışma yayımladım, bu yüzden başkalarını özensiz veri analizi ve mantık hataları yapmakla suçlayacak bir pozisyonda sayılmam. Ve biri hatalarıma işaret ettiğinde onlara teşekkür ederim. Düzeltmeleri “şahsi çamur atma taktikleri” diye etiketlemem; aksine, çalışmalarımı geliştirmek için bu türden davetsiz serbest eleştirilerden faydalanırım. (Burada tam bilgi sahibi olmadan ve biraz da kabaca yapılan ama yine de değerli bir eleştiriye cevaben araştırmamda düzeltme yaptığım bir örneği bulabilirsiniz.) Susan Fiske’e de aynısını yapmasını öneririm.

Evangeline Caddesi’nde 2 metre su

Bana göre Fiske’in notunun en üzücü kısmı şurası: “Psikoloji bilimi işbirliği yoluyla çok şey başardı, ama aynı zamanda yapıcı muhalifliğe yanıt vererek de …”. Fiske, “yapıcı” olmayı vurguluyor, güzel. Neyin yapıcı olduğu konusunda farklı tanımlarımız olabilir ama umarım basılı çalışmalardaki hatalara işaret etmenin ve tekrar çalışmaları yürütmenin yapıcı olduğu konusunda anlaşabiliriz.

Beni üzen şey Fiske’in eleştirileri “muhalefet” olarak nitelemesi. Ben psikoloji bilimine muhalif değilim! Düşük kalitedeki psikoloji bilimine bile muhalif değilim: Sıklıkla hatalarımız sayesinde öğreniriz, hakikaten, önce çeşitli hatalar yapmadan bir şeyleri öğrenemiyoruz gibi görünüyor. Muhalifi olduğum şey ise insanların hatalarını kabul etmemesi ve hataları işaret edildiğinde ısrarla sırtlarını dönmeleri.

Eğer Kanazawa Kanazawa’lığını yaptıysa ve güç pozu tayfası güç pozu şeyini yaptılarsa vesaire vesaire; iyi, derim, bunların denemeye değer olduğunu görebiliyorum. Ama istatistiksel analiz bu araştırmanın imkansız olduğunu gösterirse ya da başarısız tekrar çalışmaları yayımlanmış sonuçların hatalı olduğunu gösterirse, ben de sizden tabii ki yolunuza devam etmenizi bekleyeceğim, aynı şeyi tekrar tekrar yapıp başından beri haklı olduğunuzda ısrar etmenizi değil. Çünkü bu bilim falan değil. Ya da şöyle demeliyim, araştırmacı bireylerin hatalarını kabul etmeyi reddettikleri için kariyerlerini çıkmaz sokaklara adamaları, bilim yapmanın oldukça verimsiz bir yoludur.

Hatalarımızdan öğreniriz; ama yalnızca onların hata olduğunu kabul edersek. Hata ayıklama (debug) işbirliğiyle gerçekleşen bir süreçtir. Eğer bir kod yazarsan ve ben onda bir hata bulursam, bu beni muhalif yapmaz, iş ortağı yapar. Eğer hatalarını düzeltmekten kaçınmak için beni muhalif diye resmedersen, bu senin sorunun.

Bizi yıkıp geçmeye çalışıyorlar, bizi yıkıp geçmeye çalışıyorlar

Fiske ile olan kritik bir anlaşmazlığımızı belirterek kapatayım. O, eleştirinin gizli olarak yapıldığı moderasyonlu forumları tercih ediyor. Ben açık tartışmayı. Kişisel olarak Twitter’ın hayranı sayılmam; alan sınırlaması aceleci, sıklıkla düşmanca diyaloglara teşvik ediyor. Blogları, blog yorumlarını seviyorum, çünkü kendimizi tamamen açıklayabilmek ve tartışmalarımıza yönelik tam atıflar yapabilmek için yeterli alanımız var.

Bu yüzden bunu bloğumda paylaşıyorum, herkesin yanıt verme fırsatı var. Evet doğru, herkesin. Susan Fiske yanıt verebilir, başkaları da. Psikoloji bilimiyle ilgilenen ancak APS Observer’da hakem değerlendirmeli olmayan makaleler yazma şansı olmayanlar, büyük üniversitelerde kadrolu profesör olmayanlar vs. dahil. Bu bir açık tartışma, terörizmin tam tersi. Ve bu kadar bariz bir şeyi söylemek zorunda kalmam bence epey komik.

Not. Dahası burada: Neden bilimsel tekrarlama krizinin merkezinde psikoloji var?

  1. Yazının başlıkları Randy Newman’ın Louisiana 1927 şarkısının dizeleridir. Şarkı, 1927 yılında Mississippi Nehri’nin taşması sonucu yaşanan ABD tarihinin en büyük sel felaketini anlatmaktadır. Şair burada 2011 yılında başlayan tekrarlama krizini psikoloji biliminin büyük sel felaketi olarak niteliyor. 

  2. Bu bağlantıdan Fiske’in makalesinin sonradan gözden geçirilerek üslup ve içerik bakımından oldukça yumuşatılmış versiyonunun çevirisine ulaşabilirsiniz: Gelman’ın yazısı Fiske’in makalesinin ilk versiyonuna yönelik bir cevap niteliğindedir, dolayısıyla Gelman’ın alıntıladığı birçok ifade çevirimizde mevcut değil. 

  3. Paylaşılan bağlantıda söz konusu çalışmanın bir diğer yazarının çalışmadaki hatayı kabul ettiğini ve o çalışmadan çıkarılacak sonuçların güvenilir olmadığını belirttiğini görüyoruz. Hatalarını kabul edebilenler de olduğunu göstermek için not düşmek istedim. 

  4. Trash-talk basketbol sahalarında gerçekleşen, rakibi tahrik etmeye yönelik hakaretamiz üslupla yapılan konuşmalara verilen isimdir. 

  5. Noise mining. Veriyi didik didik ederek varyansın şu ya da bu kadarını açıklayacak faktörler peşinde koşmak anlamında kullanıyor.