[Buku Bahasa Indonesia] Thinking Fast and Slow - Daniel Kahneman

Ilusi Validitas

System 1 dirancang untuk melompat pada kesimpulan dari sedikit bukti—dan tidak dirancang untuk mengetahui seberapa besar lompatan itu. Karena WYSIATI (What You See Is All There Is), hanya bukti yang ada saat itu yang diperhitungkan. Karena keyakinan melalui koherensi (confidence by coherence), keyakinan subjektif yang kita miliki terhadap opini kita mencerminkan koherensi cerita yang dibangun oleh System 1 dan System 2. Jumlah bukti dan kualitasnya tidak terlalu penting, karena bukti yang buruk pun bisa menghasilkan cerita yang sangat baik. Untuk beberapa keyakinan paling penting kita, kita sama sekali tidak memiliki bukti—kecuali bahwa orang-orang yang kita cintai dan percayai memegang keyakinan tersebut. Mengingat betapa sedikit yang kita ketahui, keyakinan kita terhadap keyakinan itu tampak konyol—dan juga esensial.

Ilusi Validitas

Distributor pusat penjualan segala alat listrik tenaga surya. Toko online jual listrik tenaga matahari. Produsen Produk solar sel murah.www.tokosolarcell.net . daftar Paket harga penjualan listrik tenaga matahari

Beberapa dekade lalu, saya menghabiskan waktu yang tampak sangat lama di bawah terik matahari, mengamati sekelompok tentara yang berkeringat saat mereka menyelesaikan sebuah masalah. Saat itu saya sedang menjalani dinas militer di Tentara Israel. Saya telah menyelesaikan gelar sarjana psikologi, dan setelah setahun sebagai perwira infanteri, saya ditugaskan ke Cabang Psikologi Angkatan Darat, di mana salah satu tugas sesekali saya adalah membantu mengevaluasi kandidat untuk pelatihan perwira. Kami menggunakan metode yang dikembangkan oleh Angkatan Darat Inggris pada Perang Dunia II.

Salah satu tes, disebut “leaderless group challenge,” dilakukan di lapangan rintangan. Delapan kandidat, yang saling asing satu sama lain, dengan semua tanda pangkat dihapus dan hanya diberi nomor identifikasi, diminta untuk mengangkat sebatang kayu panjang dari tanah dan membawanya ke dinding setinggi sekitar enam kaki. Seluruh kelompok harus melewati sisi lain dinding tanpa kayu menyentuh tanah atau dinding, dan tanpa ada yang menyentuh dinding. Jika salah satu dari hal ini terjadi, mereka harus menyatakannya dan mulai lagi.

Ada lebih dari satu cara untuk menyelesaikan masalah ini. Solusi umum adalah beberapa anggota tim merangkak di atas kayu yang dipegang pada sudut oleh anggota lainnya, seperti batang pancing raksasa. Atau beberapa tentara naik ke bahu orang lain dan melompat ke sisi lain. Orang terakhir harus naik pada kayu yang dipegang miring oleh anggota lain, merayap sepanjang panjang kayu sambil ditahan, dan melompat dengan aman ke sisi lain. Kegagalan umum terjadi di titik ini, memaksa mereka untuk memulai lagi.

Saat saya dan seorang kolega memantau latihan ini, kami mencatat siapa yang mengambil alih, siapa yang mencoba memimpin tapi ditolak, seberapa kooperatif tiap tentara dalam kontribusi mereka. Kami melihat siapa yang keras kepala, patuh, arogan, sabar, mudah marah, gigih, atau mudah menyerah. Kadang terlihat rasa iri kompetitif ketika ide seseorang ditolak, dia menjadi kurang berusaha. Kami juga melihat reaksi terhadap krisis: siapa yang menegur rekan karena kesalahan yang menyebabkan kegagalan kelompok, siapa yang maju memimpin saat tim kelelahan harus memulai lagi.

Di bawah tekanan ini, kami merasa sifat sejati setiap orang terungkap. Kesan kami tentang karakter tiap kandidat sejelas dan sekuat warna langit. Setelah beberapa kali percobaan, kami harus meringkas kesan tentang kemampuan kepemimpinan tentara dan menentukan dengan skor numerik siapa yang layak untuk pelatihan perwira. Kami berdiskusi dan meninjau kesan. Tugas ini tidak sulit, karena kami merasa telah melihat keterampilan kepemimpinan tiap tentara. Beberapa tampak sebagai pemimpin kuat, yang lain tampak lemah atau arogan, beberapa sedang saja. Beberapa tampak sangat lemah sehingga kami menyingkirkan mereka sebagai kandidat.

Ketika beberapa observasi kami terhadap tiap kandidat menghasilkan cerita koheren, kami sepenuhnya yakin pada penilaian kami dan merasa apa yang kami lihat menunjuk langsung ke masa depan. Tentara yang mengambil alih saat kelompok dalam kesulitan dan memimpin tim melewati dinding adalah pemimpin saat itu. Tebakan terbaik tentang bagaimana dia akan tampil di pelatihan atau di medan perang adalah bahwa dia akan sama efektifnya seperti saat itu. Prediksi lain tampak tidak konsisten dengan bukti yang ada. Karena kesan kami tentang kinerja tiap tentara umumnya koheren dan jelas, prediksi formal kami juga pasti. Biasanya muncul satu skor tunggal, dan kami jarang meragukan atau memiliki kesan bertentangan. Kami siap mengatakan, “Yang ini tidak akan berhasil,” “Orang itu sedang saja, tapi seharusnya baik-baik saja,” atau “Dia akan menjadi bintang.”

Kami tidak merasa perlu mempertanyakan, memoderasi, atau meragukan prediksi kami. Namun, jika ditantang, kami siap mengakui, “Tentu saja, apa pun bisa terjadi.” Kami mau mengakuinya karena, meski memiliki kesan pasti tentang kandidat individu, kami tahu bahwa prediksi kami sebagian besar tidak berguna.

Bukti bahwa kami tidak bisa memprediksi keberhasilan dengan akurat sangat jelas. Setiap beberapa bulan, kami mengadakan sesi umpan balik untuk mengetahui bagaimana cadet berperforma di sekolah pelatihan perwira dan membandingkan penilaian kami dengan pendapat komandan yang telah memantau mereka. Ceritanya selalu sama: kemampuan kami memprediksi kinerja di sekolah hampir tidak ada. Prediksi kami sedikit lebih baik dari tebak acak, tapi tidak banyak.

Kami sempat kecewa setelah menerima kabar mengecewakan ini. Tapi ini adalah militer. Berguna atau tidak, ada rutinitas yang harus diikuti dan perintah yang harus ditaati. Kelompok kandidat berikutnya datang keesokan harinya. Kami membawa mereka ke lapangan rintangan, menghadapkan mereka pada dinding, mereka mengangkat kayu, dan dalam beberapa menit, sifat sejati mereka terungkap, sama jelasnya seperti sebelumnya.

Kebenaran suram tentang kualitas prediksi kami tidak memengaruhi cara kami menilai kandidat dan hampir tidak mengurangi keyakinan kami terhadap penilaian dan prediksi individu. Hal yang terjadi luar biasa: bukti global kegagalan sebelumnya seharusnya mengguncang keyakinan kami terhadap kandidat, tapi tidak. Seharusnya juga memoderasi prediksi kami, tapi tidak. Kami tahu secara umum bahwa prediksi kami sedikit lebih baik dari tebakan acak, tapi kami tetap merasa dan bertindak seolah-olah tiap prediksi spesifik valid. Saya teringat pada ilusi Müller-Lyer, di mana kita tahu garis-garis sama panjang tapi tetap melihatnya berbeda. Analogi ini begitu mengesankan sehingga saya menciptakan istilah untuk pengalaman ini: ilusi validitas.

Inilah ilusi kognitif pertama yang saya temukan.

Ilusi Kemampuan Memilih Saham

Beberapa dekade kemudian, saya dapat melihat banyak tema sentral dari pemikiran saya—dan dari buku ini—dalam cerita lama itu. Ekspektasi kami terhadap kinerja tentara di masa depan jelas merupakan contoh substitusi, khususnya heuristik representatif. Setelah mengamati perilaku seorang tentara selama satu jam dalam situasi buatan, kami merasa tahu seberapa baik dia akan menghadapi tantangan pelatihan perwira dan kepemimpinan dalam pertempuran. Prediksi kami sama sekali tidak regresif—kami tidak ragu untuk memprediksi kegagalan atau keberhasilan luar biasa dari bukti yang lemah. Ini adalah contoh nyata WYSIATI. Kami memiliki kesan yang meyakinkan terhadap perilaku yang kami amati dan tidak ada cara yang baik untuk merepresentasikan ketidaktahuan kami terhadap faktor-faktor yang nantinya akan menentukan seberapa baik kandidat itu tampil sebagai perwira.

Yang paling mencolok dari cerita itu adalah bahwa pengetahuan kami tentang aturan umum—bahwa kami tidak bisa memprediksi—tidak memengaruhi keyakinan kami pada kasus individu. Sekarang saya melihat bahwa reaksi kami mirip dengan mahasiswa Nisbett dan Borgida ketika diberi tahu bahwa sebagian besar orang tidak membantu orang asing yang mengalami kejang. Mereka memang mempercayai statistik yang ditunjukkan, tetapi angka dasar (base rate) itu tidak memengaruhi penilaian mereka apakah individu yang mereka lihat di video akan membantu orang asing atau tidak. Seperti yang ditunjukkan Nisbett dan Borgida, orang sering enggan menyimpulkan yang khusus dari yang umum.

Keyakinan subjektif terhadap suatu penilaian bukanlah evaluasi rasional terhadap probabilitas bahwa penilaian itu benar. Keyakinan adalah perasaan, yang mencerminkan koherensi informasi dan kemudahan kognitif dalam memprosesnya. Bijaksana untuk menanggapi pengakuan ketidakpastian secara serius, tetapi pernyataan keyakinan tinggi terutama memberi tahu bahwa individu telah membangun cerita yang koheren dalam pikirannya, bukan bahwa ceritanya benar.

Pada tahun 1984, Amos, saya, dan teman kami Richard Thaler mengunjungi sebuah firma di Wall Street. Tuan rumah kami, seorang manajer investasi senior, mengundang kami untuk membahas peran bias penilaian dalam investasi. Saya begitu sedikit tahu tentang keuangan sehingga bahkan tidak tahu apa yang harus ditanyakan, tetapi saya ingat satu percakapan.

“Ketika Anda menjual saham,” tanya saya, “siapa yang membelinya?”
Dia menunjuk ke arah jendela, menunjukkan bahwa dia mengharapkan pembeli adalah orang lain yang sangat mirip dengannya. Hal itu aneh: Mengapa seseorang membeli dan yang lain menjual? Apa yang diyakini penjual yang tidak diketahui pembeli?

Sejak itu, pertanyaan saya tentang pasar saham berkembang menjadi teka-teki yang lebih besar: sebuah industri besar tampaknya dibangun sebagian besar di atas ilusi kemampuan. Miliaran saham diperdagangkan setiap hari, banyak orang membeli saham yang sama dan orang lain menjualnya kepada mereka. Tidak jarang lebih dari 100 juta saham dari satu saham berpindah tangan dalam satu hari. Sebagian besar pembeli dan penjual tahu mereka memiliki informasi yang sama; mereka menukar saham terutama karena memiliki opini yang berbeda. Pembeli berpikir harga terlalu rendah dan kemungkinan akan naik, sementara penjual berpikir harga tinggi dan kemungkinan akan turun. Teka-tekinya adalah mengapa pembeli dan penjual sama-sama berpikir harga saat ini salah. Mengapa mereka percaya mengetahui lebih banyak tentang harga yang seharusnya dibanding pasar? Bagi sebagian besar dari mereka, keyakinan itu adalah ilusi.

Secara umum, teori standar tentang cara kerja pasar saham diterima oleh semua pelaku industri. Semua orang di dunia investasi telah membaca buku Burton Malkiel yang luar biasa, A Random Walk Down Wall Street. Ide sentral Malkiel adalah harga saham mencerminkan semua pengetahuan yang tersedia tentang nilai perusahaan dan prediksi terbaik tentang masa depan saham itu. Jika beberapa orang percaya harga saham akan lebih tinggi besok, mereka akan membeli lebih banyak hari ini. Ini akan membuat harga naik. Jika semua aset di pasar dihargai dengan benar, tidak ada yang bisa berharap untung atau rugi dari perdagangan. Harga yang sempurna meninggalkan sedikit ruang untuk kepintaran, tapi juga melindungi orang bodoh dari kesalahan mereka sendiri.

Namun, kita sekarang tahu bahwa teori itu tidak sepenuhnya benar. Banyak investor individu secara konsisten rugi dalam perdagangan—sesuatu yang bahkan tidak bisa dicapai oleh simpanse yang melempar dadu. Demonstrasi pertama dari kesimpulan mengejutkan ini dikumpulkan oleh Terry Odean, profesor keuangan di UC Berkeley yang pernah menjadi murid saya.

Odean meneliti catatan perdagangan 10.000 akun investor individu selama tujuh tahun, hampir 163.000 transaksi. Dari data ini, dia bisa mengidentifikasi setiap kali investor menjual saham dan segera membeli saham lain. Tindakan ini menunjukkan bahwa investor (kebanyakan pria) memiliki gagasan pasti tentang masa depan kedua saham: dia berharap saham yang dibeli akan lebih baik daripada saham yang dijual.

Untuk menilai apakah gagasan itu beralasan, Odean membandingkan imbal hasil saham yang dijual dan saham yang dibeli selama satu tahun setelah transaksi. Hasilnya jelas buruk. Rata-rata, saham yang dijual justru tampil lebih baik daripada yang dibeli, dengan selisih substansial: 3,2 poin persentase per tahun, di atas biaya transaksi.

Ini adalah pernyataan tentang rata-rata: beberapa individu lebih baik, lainnya lebih buruk. Namun, jelas bahwa bagi sebagian besar investor individu, mandi dan tidak melakukan apa-apa akan lebih baik daripada mengikuti ide-ide yang muncul di pikiran mereka. Penelitian berikut oleh Odean dan Brad Barber mendukung kesimpulan ini.

Dalam makalah Trading Is Hazardous to Your Wealth, mereka menunjukkan bahwa trader paling aktif memiliki hasil terburuk, sementara yang paling sedikit berdagang mendapatkan hasil terbaik. Dalam makalah lain, Boys Will Be Boys, mereka menunjukkan pria lebih sering bertindak atas ide yang tidak berguna dibanding wanita, sehingga wanita mencapai hasil investasi lebih baik.

Tentu saja, selalu ada seseorang di sisi lain setiap transaksi—umumnya institusi keuangan dan investor profesional—yang siap memanfaatkan kesalahan investor individu dalam memilih saham untuk dijual atau dibeli. Investor profesional bisa mengekstrak kekayaan dari investor amatir, tetapi sedikit sekali pemilih saham yang memiliki kemampuan untuk mengalahkan pasar secara konsisten.

Bukti selama lebih dari lima puluh tahun menunjukkan: bagi sebagian besar manajer dana, memilih saham lebih mirip melempar dadu daripada bermain poker. Setidaknya dua dari tiga dana biasanya kalah dari pasar pada tahun tertentu. Korelasi dari tahun ke tahun sangat kecil, hampir nol. Dana yang berhasil di tahun tertentu kebanyakan karena beruntung; mereka mendapatkan “lemparan dadu” yang baik. Penelitian menunjukkan bahwa hampir semua pemilih saham—sadar atau tidak—sedang bermain permainan peluang. Pengalaman subjektif mereka adalah membuat tebakan yang masuk akal di situasi ketidakpastian tinggi, tapi tebakan berpendidikan tidak lebih akurat daripada tebak acak di pasar efisien.

Beberapa tahun lalu, saya mendapat kesempatan melihat ilusi kemampuan finansial secara dekat. Saya diundang berbicara kepada sekelompok penasihat investasi di firma yang melayani klien kaya. Saya meminta data untuk persiapan presentasi dan diberikan spreadsheet yang merangkum hasil investasi sekitar 25 penasihat anonim selama delapan tahun berturut-turut. Skor tiap penasihat menentukan bonus akhir tahun mereka.

Saya menghitung koefisien korelasi antar peringkat tiap pasangan tahun: tahun 1 dengan 2, 1 dengan 3, hingga 7 dengan 8, menghasilkan 28 koefisien. Saya siap menemukan bukti lemah adanya kemampuan yang bertahan. Namun rata-rata 28 korelasi adalah 0,01—nyaris nol. Tidak ada korelasi konsisten yang menunjukkan perbedaan kemampuan. Hasilnya lebih mirip kontes melempar dadu, bukan permainan keterampilan.

Tidak ada yang menyadari sifat permainan yang sedang dimainkan pemilih saham mereka. Penasihat merasa kompeten, atasan mereka setuju. Saat makan malam sebelum seminar, saya dan Richard Thaler bersama eksekutif senior membahas perkiraan korelasi peringkat tahunan. Mereka menebak “tidak terlalu tinggi” atau “fluktuasi jelas ada,” tapi tidak ada yang mengira rata-rata korelasi akan nol.

Pesan kami: dalam membangun portofolio, firma itu menghargai keberuntungan seolah-olah itu kemampuan. Ini seharusnya mengejutkan, tapi tidak. Fakta yang menantang asumsi dasar—dan mengancam penghidupan serta harga diri—jarang diserap. Pikiran tidak mencerna fakta statistik yang bertentangan dengan kesan pribadi.

Keesokan paginya, kami melaporkan temuan kepada penasihat. Respons mereka sama datarnya. Pengalaman mereka dalam membuat penilaian kompleks terasa lebih meyakinkan daripada fakta statistik yang samar. Saat selesai, salah satu eksekutif yang saya makan malam dengannya mengantar ke bandara dan berkata dengan nada defensif, “Saya telah berprestasi sangat baik untuk firma dan tidak ada yang bisa mengambil itu dari saya.” Saya tersenyum dan diam. Dalam hati saya berpikir: “Tadi pagi, saya sudah mengambilnya. Jika keberhasilan Anda sebagian besar karena keberuntungan, berapa banyak kredit yang pantas Anda terima?”

Apa yang Mendukung Ilusi Kemampuan dan Validitas??

Ilusi kognitif bisa lebih membandel daripada ilusi visual. Apa yang Anda pelajari tentang ilusi Müller-Lyer tidak mengubah cara Anda melihat garis, tetapi mengubah perilaku Anda. Kini Anda tahu bahwa Anda tidak bisa mempercayai kesan panjang garis yang memiliki sirip tambahan, dan juga tahu bahwa dalam tampilan standar Müller-Lyer, Anda tidak bisa mempercayai apa yang Anda lihat. Ketika ditanya tentang panjang garis, Anda akan melaporkan keyakinan yang terinformasi, bukan ilusi yang masih Anda lihat.

Sebaliknya, ketika rekan-rekan saya dan saya di militer mengetahui bahwa tes penilaian kepemimpinan kami memiliki validitas rendah, kami menerima fakta itu secara intelektual, tetapi hal itu tidak memengaruhi perasaan maupun tindakan kami berikutnya. Respons yang kami temui di firma keuangan bahkan lebih ekstrem. Saya yakin pesan yang Thaler dan saya sampaikan kepada para eksekutif dan manajer portofolio segera disimpan di sudut gelap memori agar tidak menimbulkan kerusakan.

Mengapa investor, baik amatir maupun profesional, bersikeras percaya bahwa mereka bisa mengungguli pasar, bertentangan dengan teori ekonomi yang sebagian besar mereka terima, dan bertentangan dengan apa yang bisa mereka pelajari dari evaluasi pengalaman pribadi mereka? Banyak tema dari bab sebelumnya muncul kembali dalam menjelaskan prevalensi dan ketahanan ilusi kemampuan di dunia finansial.

Penyebab psikologis paling kuat dari ilusi ini jelas adalah bahwa orang yang memilih saham mempraktikkan keterampilan tingkat tinggi. Mereka menelaah data ekonomi dan perkiraan, memeriksa laporan laba dan neraca, menilai kualitas manajemen puncak, serta mengevaluasi persaingan. Semua itu adalah pekerjaan serius yang membutuhkan pelatihan ekstensif, dan mereka memiliki pengalaman langsung (dan valid) dalam menggunakan keterampilan ini. Sayangnya, kemampuan menilai prospek bisnis perusahaan tidak cukup untuk perdagangan saham yang sukses, di mana pertanyaan kuncinya adalah apakah informasi tentang perusahaan tersebut sudah tercermin dalam harga sahamnya. Para trader tampaknya tidak memiliki keterampilan untuk menjawab pertanyaan krusial ini, tetapi mereka tampak tidak sadar akan ketidaktahuan mereka. Seperti yang saya temukan dari mengamati kadet di medan rintangan, keyakinan subjektif trader adalah perasaan, bukan penilaian. Pemahaman kita tentang kemudahan kognitif (cognitive ease) dan koherensi asosiatif menempatkan keyakinan subjektif dengan jelas dalam Sistem 1.

Akhirnya, ilusi validitas dan kemampuan didukung oleh budaya profesional yang kuat. Kita tahu bahwa orang bisa mempertahankan keyakinan yang tak tergoyahkan terhadap proposisi apa pun, seabsurd apa pun, ketika didukung oleh komunitas yang sependapat. Mengingat budaya profesional di dunia finansial, tidak mengejutkan bahwa banyak individu percaya diri mereka termasuk golongan terpilih yang mampu melakukan apa yang mereka yakini orang lain tidak bisa.

Ilusi Pakar

Gagasan bahwa masa depan tidak dapat diprediksi setiap hari dirongrong oleh kemudahan menjelaskan masa lalu. Seperti yang ditunjukkan Nassim Taleb dalam The Black Swan, kecenderungan kita membangun dan mempercayai narasi koheren dari masa lalu membuat kita sulit menerima keterbatasan kemampuan peramalan. Segalanya tampak masuk akal setelah terjadi (hindsight bias), fakta yang dimanfaatkan pakar finansial setiap malam saat mereka menjelaskan peristiwa hari itu. Kita sulit menekan intuisi kuat bahwa apa yang masuk akal hari ini tampak dapat diprediksi kemarin. Ilusi bahwa kita memahami masa lalu mendorong keyakinan berlebihan pada kemampuan memprediksi masa depan.

Gambaran yang sering digunakan, seperti “mars sejarah,” menyiratkan keteraturan dan arah. Mars, berbeda dari jalan santai, tidak acak. Kita merasa seharusnya bisa menjelaskan masa lalu dengan fokus pada gerakan sosial besar, perkembangan budaya dan teknologi, atau niat dan kemampuan beberapa tokoh besar. Ide bahwa peristiwa sejarah besar ditentukan oleh keberuntungan sangat mengejutkan, walau terbukti benar.

Sulit membayangkan sejarah abad ke-20, termasuk gerakan sosial besarnya, tanpa melibatkan Hitler, Stalin, dan Mao Zedong. Namun, ada momen sebelum sel telur dibuahi ketika peluang menjadi Hitler atau perempuan adalah 50:50. Menggabungkan tiga peristiwa ini, probabilitas abad ke-20 tanpa ketiga tokoh jahat itu hanya 1/8, dan tidak bisa dikatakan sejarah akan serupa tanpa mereka. Pembuahan sel telur ini memiliki konsekuensi besar, dan menertawakan gagasan bahwa perkembangan jangka panjang dapat diprediksi. Namun, ilusi prediksi valid tetap ada, dimanfaatkan oleh mereka yang bisnisnya adalah memprediksi—tidak hanya ahli finansial tetapi juga pakar bisnis dan politik. Stasiun TV, radio, dan surat kabar memiliki panel ahli untuk mengomentari masa lalu dan meramalkan masa depan. Penonton merasa menerima informasi istimewa atau sangat tajam. Tidak diragukan lagi, pakar dan promotor mereka sungguh percaya memberikan informasi semacam itu.

Philip Tetlock, psikolog di Universitas Pennsylvania, menjelaskan prediksi “ahli” ini dalam studi landmark dua puluh tahun, yang diterbitkan dalam bukunya Expert Political Judgment: How Good Is It? How Can We Know? pada 2005. Tetlock mewawancarai 284 orang yang bekerja sebagai komentator atau penasihat tren politik dan ekonomi. Ia meminta mereka menilai probabilitas terjadinya peristiwa di masa depan yang dekat, baik di wilayah yang mereka kuasai maupun yang kurang mereka ketahui.

Hasilnya mengejutkan. Para ahli berkinerja lebih buruk daripada jika mereka sekadar memberi probabilitas sama pada tiga kemungkinan. Dengan kata lain, orang yang menghabiskan waktu mempelajari topik tertentu membuat prediksi lebih buruk daripada monyet melempar dadu. Bahkan di wilayah yang mereka kuasai, ahli tidak jauh lebih baik daripada nonspesialis.

Yang tahu lebih banyak hanya sedikit lebih baik dari yang tahu sedikit. Namun yang paling berpengetahuan seringkali kurang dapat diandalkan. Orang yang memperoleh lebih banyak pengetahuan mengembangkan ilusi keterampilan yang lebih kuat dan menjadi terlalu percaya diri. Tetlock menulis: “Kita mencapai titik pengembalian prediktif marginal yang menurun dari pengetahuan dengan cepat.” Dalam era hiperspesialisasi akademik, tidak ada alasan menganggap kontributor jurnal top—ilmuwan politik, spesialis area studi, ekonom, dan sebagainya—lebih baik daripada jurnalis atau pembaca perhatian The New York Times dalam “membaca” situasi yang muncul.

Tetlock juga menemukan ahli menolak mengakui kesalahan, dan bila dipaksa, mereka memiliki banyak alasan: salah hanya soal waktu, peristiwa tak terduga terjadi, atau salah tapi dengan alasan tepat. Ahli pada akhirnya manusia biasa. Mereka terpukau oleh kecerdasan sendiri dan benci salah. Mereka tersesat bukan oleh apa yang mereka yakini, tapi oleh cara mereka berpikir.

Tetlock menggunakan terminologi dari esai Isaiah Berlin tentang Tolstoy, The Hedgehog and the Fox. Hedgehog “tahu satu hal besar” dan memiliki teori dunia; mereka memasukkan peristiwa khusus dalam kerangka koheren, tidak sabar terhadap yang berbeda pendapat, dan percaya diri dalam prediksi. Mereka juga sangat enggan mengakui kesalahan, dan prediksi gagal hampir selalu “hanya salah waktu” atau “hampir benar.” Mereka opinionated dan jelas—persis yang disukai produser TV. Dua hedgehog dari sisi berbeda, saling menyerang ide lawan, membuat pertunjukan menarik.

Fox, sebaliknya, berpikir kompleks. Mereka tidak percaya satu hal besar menggerakkan sejarah. Fox menyadari kenyataan muncul dari interaksi banyak agen dan kekuatan, termasuk keberuntungan acak, yang sering menghasilkan hasil besar dan tak terduga. Fox yang mencatat skor terbaik dalam studi Tetlock, meskipun kinerjanya masih buruk. Mereka jarang diundang debat TV dibanding hedgehog.

Bukan Salah Para Ahli—Dunia Itu Sulit

Pokok bahasan bab ini bukanlah bahwa orang yang mencoba meramalkan masa depan sering membuat kesalahan; hal itu jelas. Pelajaran pertama adalah kesalahan prediksi tidak terelakkan karena dunia tidak dapat diprediksi. Pelajaran kedua adalah keyakinan subjektif yang tinggi tidak bisa dipercaya sebagai indikator akurasi (keyakinan rendah bisa lebih informatif).

Tren jangka pendek bisa diprediksi, dan perilaku serta pencapaian dapat diramalkan dengan cukup akurat dari perilaku dan pencapaian sebelumnya. Tetapi kita tidak boleh berharap bahwa performa dalam pelatihan perwira atau dalam pertempuran dapat diprediksi dari perilaku di medan rintangan—perilaku, baik dalam tes maupun dunia nyata, ditentukan oleh banyak faktor yang spesifik pada situasi tertentu.

Hapus satu anggota yang sangat tegas dari kelompok delapan kandidat, dan kepribadian yang lain akan tampak berubah. Biarkan peluru penembak jitu meleset beberapa sentimeter, dan performa seorang perwira bisa berubah drastis.

Saya tidak menolak validitas semua tes—jika sebuah tes memprediksi hasil penting dengan validitas 0,20 atau 0,30, tes itu harus digunakan. Tetapi jangan berharap lebih dari itu. Jangan terlalu berharap dari pemilih saham di Wall Street yang berharap bisa lebih akurat daripada pasar dalam meramalkan harga saham. Dan jangan terlalu berharap dari pakar yang membuat prediksi jangka panjang—meskipun mereka mungkin memiliki wawasan berharga untuk masa depan dekat.

Garis pemisah antara masa depan yang mungkin dapat diprediksi dan masa depan jauh yang tidak dapat diprediksi belum ditarik.

Tentang Keterampilan Ilusi

  • “Dia tahu bahwa rekam medis menunjukkan perkembangan penyakit ini sebagian besar tidak dapat diprediksi. Bagaimana dia bisa begitu yakin dalam kasus ini? Kedengarannya seperti ilusi validitas.”
  • “Dia memiliki cerita yang koheren yang menjelaskan semua yang dia ketahui, dan koherensi itu membuatnya merasa nyaman.”
  • “Apa yang membuatnya percaya bahwa dia lebih pintar daripada pasar? Apakah ini ilusi keterampilan?”
  • “Dia seorang hedgehog. Dia memiliki teori yang menjelaskan segalanya, dan itu memberinya ilusi bahwa dia memahami dunia.”
  • “Pertanyaannya bukan apakah para ahli ini terlatih dengan baik. Pertanyaannya adalah apakah dunia mereka dapat diprediksi.”
Intuisi vs. Rumus

Paul Meehl adalah sosok yang unik dan luar biasa, sekaligus salah satu psikolog paling serba bisa pada abad kedua puluh. Di Universitas Minnesota, ia pernah menjadi dosen di berbagai departemen: psikologi, hukum, psikiatri, neurologi, dan filsafat. Ia juga menulis tentang agama, ilmu politik, dan pembelajaran pada tikus. Sebagai peneliti yang mahir secara statistik dan pengkritik tajam terhadap klaim-klaim kosong dalam psikologi klinis, Meehl juga merupakan seorang psikoanalis praktik. Ia menulis esai-esai reflektif tentang dasar-dasar filosofis penelitian psikologi yang hampir saya hafalkan saat masih menjadi mahasiswa pascasarjana. Saya tidak pernah bertemu Meehl, tetapi ia menjadi salah satu pahlawan saya sejak saya membaca bukunya Clinical vs. Statistical Prediction: A Theoretical Analysis and a Review of the Evidence.

Dalam buku tipis yang kemudian ia sebut sebagai “buku kecil saya yang mengganggu,” Meehl meninjau hasil 20 studi yang menganalisis apakah prediksi klinis berdasarkan kesan subjektif profesional terlatih lebih akurat daripada prediksi statistik yang dibuat dengan menggabungkan beberapa skor atau penilaian menurut aturan tertentu. Dalam studi tipikal, konselor terlatih memprediksi nilai mahasiswa baru di akhir tahun ajaran. Para konselor mewawancarai setiap mahasiswa selama 45 menit. Mereka juga memiliki akses ke nilai sekolah menengah, beberapa tes bakat, dan pernyataan pribadi sepanjang empat halaman. Algoritma statistik hanya menggunakan sebagian kecil informasi ini: nilai sekolah menengah dan satu tes bakat.

Meskipun demikian, rumus tersebut lebih akurat dibandingkan 11 dari 14 konselor. Meehl melaporkan hasil serupa secara umum di berbagai prediksi lainnya, termasuk pelanggaran masa percobaan, keberhasilan pelatihan pilot, dan residivisme kriminal. Tidak mengherankan, buku Meehl menimbulkan kejutan dan ketidakpercayaan di kalangan psikolog klinis, dan kontroversi yang ditimbulkannya memicu aliran penelitian yang masih berlangsung hingga hari ini, lebih dari lima puluh tahun setelah publikasinya. Jumlah studi yang membandingkan prediksi klinis dan statistik telah meningkat menjadi sekitar dua ratus, tetapi hasil “pertandingan” antara algoritma dan manusia tetap sama: sekitar 60% studi menunjukkan akurasi yang jauh lebih baik untuk algoritma. Perbandingan lain menghasilkan hasil imbang, tetapi imbang sama artinya dengan kemenangan bagi aturan statistik, yang biasanya jauh lebih murah dibandingkan penilaian ahli. Tidak ada pengecualian yang berhasil dibuktikan secara meyakinkan.

Ruang lingkup prediksi telah diperluas meliputi variabel medis seperti umur panjang pasien kanker, lama tinggal di rumah sakit, diagnosis penyakit jantung, dan kerentanan bayi terhadap sindrom kematian bayi mendadak; ukuran ekonomi seperti prospek keberhasilan bisnis baru, evaluasi risiko kredit oleh bank, dan kepuasan karier pekerja di masa depan; pertanyaan yang diminati lembaga pemerintah, termasuk penilaian kesesuaian calon orang tua asuh, kemungkinan residivisme remaja pelaku kriminal, dan kemungkinan bentuk perilaku kekerasan lainnya; serta hasil lain seperti evaluasi presentasi ilmiah, pemenang pertandingan sepak bola, dan harga masa depan anggur Bordeaux. Masing-masing domain ini melibatkan tingkat ketidakpastian dan ketidakprediktabilitas yang signifikan. Kita menyebutnya sebagai “lingkungan validitas rendah.” Dalam setiap kasus, akurasi ahli setara atau bahkan dikalahkan oleh algoritma sederhana.

Seperti yang ditegaskan Meehl dengan bangga tiga puluh tahun setelah publikasi bukunya, “Tidak ada kontroversi dalam ilmu sosial yang menunjukkan begitu banyak studi beragam secara kualitatif yang keluar secara konsisten ke arah yang sama seperti ini.”

Ekonom Princeton sekaligus pecinta anggur, Orley Ashenfelter, memberikan demonstrasi meyakinkan tentang kekuatan statistik sederhana untuk mengungguli para ahli terkenal dunia. Ashenfelter ingin memprediksi nilai masa depan anggur Bordeaux dari informasi yang tersedia pada tahun pembuatannya. Hal ini penting karena anggur berkualitas tinggi membutuhkan waktu bertahun-tahun untuk mencapai puncak kualitas, dan harga anggur matang dari kebun yang sama dapat bervariasi secara dramatis antar vintage; botol yang diisi hanya selisih dua belas bulan bisa berbeda nilainya hingga sepuluh kali lipat atau lebih. Kemampuan memprediksi harga masa depan memiliki nilai substansial, karena investor membeli anggur—seperti seni—dengan harapan nilainya akan meningkat.

Disepakati secara umum bahwa efek vintage hanya dapat disebabkan oleh variasi cuaca selama musim pertumbuhan anggur. Anggur terbaik dihasilkan ketika musim panas hangat dan kering, membuat industri anggur Bordeaux mungkin mendapat manfaat dari pemanasan global. Industri ini juga terbantu oleh musim semi yang basah, yang meningkatkan kuantitas tanpa banyak memengaruhi kualitas. Ashenfelter mengubah pengetahuan konvensional tersebut menjadi rumus statistik yang memprediksi harga anggur—untuk properti tertentu dan pada usia tertentu—berdasarkan tiga faktor cuaca: suhu rata-rata selama musim panas, curah hujan saat panen, dan total curah hujan selama musim dingin sebelumnya. Rumusnya memberikan prediksi harga yang akurat hingga bertahun-tahun, bahkan beberapa dekade ke depan. Bahkan, rumusnya memprediksi harga masa depan jauh lebih akurat dibanding harga anggur muda saat ini.

Contoh baru ini dari “pola Meehl” menantang kemampuan para ahli yang opini mereka membantu membentuk harga awal. Ini juga menantang teori ekonomi, yang menyatakan bahwa harga harus mencerminkan semua informasi yang tersedia, termasuk cuaca. Rumus Ashenfelter sangat akurat—korelasi antara prediksi dan harga aktual melebihi 0,90.

Mengapa para ahli kalah dibanding algoritma? Salah satu alasannya, yang dicurigai Meehl, adalah bahwa ahli mencoba menjadi cerdas, berpikir di luar kotak, dan mempertimbangkan kombinasi fitur kompleks saat membuat prediksi. Kompleksitas mungkin berhasil pada kasus tertentu, tetapi lebih sering justru mengurangi validitas. Kombinasi fitur sederhana lebih baik. Beberapa studi menunjukkan bahwa pengambil keputusan manusia kalah dibanding rumus prediksi bahkan ketika mereka diberikan skor yang disarankan oleh rumus! Mereka merasa bisa menolak rumus karena memiliki informasi tambahan tentang kasus tersebut, tetapi mereka lebih sering salah.

Menurut Meehl, ada sedikit situasi di mana menggantikan rumus dengan penilaian manusia adalah ide yang baik. Dalam eksperimen pemikiran terkenal, ia menggambarkan rumus yang memprediksi apakah seseorang akan pergi menonton film malam itu dan mencatat bahwa wajar untuk mengabaikan rumus jika informasi baru menunjukkan bahwa orang tersebut patah kaki hari ini. Nama “aturan patah kaki” pun melekat. Intinya, patah kaki sangat jarang—dan determinatif.

Alasan lain ketidakunggulan penilaian ahli adalah manusia sangat tidak konsisten dalam membuat ringkasan penilaian informasi kompleks. Saat diminta mengevaluasi informasi yang sama dua kali, mereka sering memberikan jawaban berbeda. Tingkat inkonsistensi ini sering menjadi perhatian serius. Radiolog berpengalaman yang menilai X-ray dada sebagai “normal” atau “abnormal” bertentangan dengan diri mereka sendiri 20% dari waktu ketika melihat gambar yang sama pada kesempatan berbeda. Studi terhadap 101 auditor independen yang diminta mengevaluasi keandalan audit internal perusahaan menunjukkan tingkat inkonsistensi serupa. Tinjauan 41 studi terpisah tentang keandalan penilaian auditor, patolog, psikolog, manajer organisasi, dan profesional lain menunjukkan bahwa tingkat inkonsistensi ini khas, bahkan ketika kasus dievaluasi ulang dalam beberapa menit.

Penilaian yang tidak konsisten tidak bisa menjadi prediktor yang valid.

Inkonsistensi luas ini kemungkinan disebabkan oleh ketergantungan kontekstual ekstrem Sistem 1. Kita tahu dari studi priming bahwa rangsangan yang tidak disadari di lingkungan memengaruhi pikiran dan tindakan secara signifikan, dan pengaruh ini berubah dari saat ke saat. Angin sejuk sesaat di hari panas dapat membuat Anda sedikit lebih positif dan optimistis terhadap apa pun yang sedang dievaluasi. Prospek seorang narapidana mendapatkan masa percobaan bisa berubah signifikan dalam jeda antar waktu makan hakim. Karena Anda sedikit mengetahui apa yang terjadi dalam pikiran sendiri, Anda tidak akan tahu bahwa Anda bisa saja membuat penilaian berbeda atau keputusan berbeda dalam kondisi yang sangat mirip. Rumus tidak memiliki masalah ini. Dengan input yang sama, rumus selalu menghasilkan jawaban yang sama.

Ketika prediktabilitas rendah—yang memang terjadi di sebagian besar studi yang ditinjau Meehl dan pengikutnya—inkonsistensi menghancurkan validitas prediktif.

Penelitian ini menyarankan kesimpulan mengejutkan: untuk memaksimalkan akurasi prediksi, keputusan akhir sebaiknya diserahkan pada rumus, terutama di lingkungan dengan validitas rendah. Misalnya, dalam penerimaan mahasiswa kedokteran, keputusan akhir sering dibuat oleh dosen yang mewawancarai kandidat. Bukti masih fragmentaris, tetapi ada dasar yang kuat untuk dugaan: wawancara cenderung menurunkan akurasi prosedur seleksi, jika pewawancara juga membuat keputusan akhir. Karena pewawancara terlalu percaya pada intuisi mereka, mereka memberi bobot berlebihan pada kesan pribadi dan terlalu sedikit pada sumber informasi lain, sehingga menurunkan validitas.

Demikian juga, ahli yang mengevaluasi kualitas anggur muda untuk memprediksi masa depannya memiliki informasi yang hampir pasti membuat hasil lebih buruk daripada lebih baik: mereka bisa mencicipi anggur. Selain itu, meskipun mereka memahami pengaruh cuaca terhadap kualitas anggur, mereka tidak bisa mempertahankan konsistensi seperti rumus.

Perkembangan Penting Sejak Meehl: Robyn Dawes dan Model Linear Sederhana

Perkembangan paling penting di bidang ini sejak karya asli Meehl adalah artikel terkenal Robyn Dawes, “The Robust Beauty of Improper Linear Models in Decision Making.” Praktik statistik dominan dalam ilmu sosial adalah memberi bobot pada prediktor berbeda menggunakan algoritma yang disebut regresi berganda, yang kini telah tersedia di perangkat lunak konvensional. Logika regresi berganda tidak terbantahkan: algoritma ini menemukan formula optimal untuk menggabungkan kombinasi berbobot dari prediktor.

Namun, Dawes mengamati bahwa algoritma statistik yang kompleks ini menambahkan sedikit atau bahkan tidak ada nilai tambah. Seseorang bisa mendapatkan hasil yang sama baiknya dengan memilih sekumpulan skor yang memiliki validitas untuk memprediksi hasil, lalu menyesuaikan nilainya agar sebanding (misalnya menggunakan skor standar atau peringkat). Rumus yang menggabungkan prediktor dengan bobot sama seringkali sama akuratnya dalam memprediksi kasus baru dibanding formula regresi berganda yang optimal pada sampel asli. Penelitian terbaru bahkan menunjukkan bahwa formula dengan bobot sama untuk semua prediktor sering lebih unggul karena tidak terpengaruh oleh kebetulan sampling.

Keberhasilan mengejutkan dari skema bobot sama ini memiliki implikasi praktis penting: adalah mungkin mengembangkan algoritma berguna tanpa penelitian statistik sebelumnya. Rumus sederhana dengan bobot sama, berbasis statistik yang ada atau akal sehat, seringkali menjadi prediktor yang baik untuk hasil signifikan. Dalam contoh yang mudah diingat, Dawes menunjukkan bahwa stabilitas perkawinan dapat diprediksi dengan rumus sederhana:

frekuensi bercinta – frekuensi bertengkar

Hasilnya tidak diinginkan jika menjadi angka negatif.

Kesimpulan penting dari penelitian ini adalah bahwa algoritma yang dibuat di atas secarik kertas sering cukup baik untuk bersaing dengan formula berbobot optimal, dan tentu lebih baik daripada penilaian ahli. Logika ini bisa diterapkan di banyak domain, mulai dari pemilihan saham oleh manajer portofolio hingga pilihan pengobatan oleh dokter atau pasien.

Salah satu aplikasi klasik dari pendekatan ini adalah algoritma sederhana yang telah menyelamatkan ratusan ribu bayi. Dokter kandungan selalu tahu bahwa bayi yang tidak bernapas normal dalam beberapa menit setelah lahir berisiko tinggi mengalami kerusakan otak atau kematian. Hingga intervensi anestesiolog Virginia Apgar pada tahun 1953, dokter dan bidan menggunakan penilaian klinis mereka untuk menentukan apakah bayi mengalami distress. Praktisi berbeda fokus pada petunjuk berbeda—beberapa memperhatikan masalah pernapasan, yang lain melihat seberapa cepat bayi menangis. Tanpa prosedur standar, tanda bahaya sering terlewat, dan banyak bayi baru lahir meninggal.

Suatu hari, seorang residen menanyakan bagaimana Dr. Apgar akan menilai bayi secara sistematis. Ia menjawab, “Mudah. Begini caranya.” Apgar menuliskan lima variabel: detak jantung, pernapasan, refleks, tonus otot, dan warna kulit; serta tiga skor (0, 1, atau 2) tergantung pada kekuatan masing-masing tanda. Menyadari bahwa ia mungkin telah menemukan terobosan yang dapat diterapkan di semua ruang bersalin, Apgar mulai menilai bayi satu menit setelah lahir.

  • Bayi dengan skor total 8 atau lebih kemungkinan berwarna merah muda, bergerak, menangis, grimacing, dengan denyut ≥100—dalam kondisi baik.
  • Bayi dengan skor 4 atau kurang kemungkinan kebiruan, lemas, pasif, dengan denyut lemah atau lambat—membutuhkan intervensi segera.

Dengan skor Apgar, staf ruang bersalin akhirnya memiliki standar konsisten untuk menentukan bayi yang bermasalah, dan rumus ini berkontribusi signifikan menurunkan mortalitas bayi. Tes Apgar masih digunakan setiap hari di seluruh dunia. Atul Gawande dalam A Checklist Manifesto memberikan banyak contoh lain tentang manfaat checklist dan aturan sederhana.

Permusuhan terhadap Algoritma

Sejak awal, psikolog klinis menanggapi gagasan Meehl dengan permusuhan dan ketidakpercayaan. Jelas mereka berada di bawah ilusi keterampilan terkait kemampuan membuat prediksi jangka panjang.

Secara logis, ini mudah dipahami: bukti statistik tentang inferioritas klinis bertentangan dengan pengalaman sehari-hari para klinisi. Psikolog yang bekerja dengan pasien memiliki banyak firasat selama sesi terapi, menebak bagaimana pasien akan merespons intervensi, atau apa yang akan terjadi selanjutnya. Banyak firasat ini terbukti benar, menunjukkan adanya keterampilan klinis.

Masalahnya, penilaian yang tepat biasanya terkait dengan prediksi jangka pendek selama sesi terapi—keahlian yang mungkin telah diasah bertahun-tahun. Tugas di mana mereka gagal biasanya melibatkan prediksi jangka panjang tentang masa depan pasien—lebih sulit, bahkan formula terbaik hanya cukup baik, dan ini adalah tugas yang klinisi tidak pernah memiliki kesempatan untuk belajar dengan benar karena harus menunggu umpan balik bertahun-tahun, berbeda dengan sesi klinis yang memberikan umpan balik instan.

Garis antara apa yang bisa dilakukan klinisi dengan baik dan apa yang tidak jelas, dan tentu tidak jelas bagi mereka sendiri. Mereka tahu memiliki keterampilan, tetapi tidak selalu mengetahui batasnya. Tidak mengherankan jika gagasan bahwa kombinasi mekanis dari beberapa variabel dapat mengungguli kompleksitas penilaian manusia tampak salah bagi klinisi berpengalaman.

Perdebatan tentang prediksi klinis vs statistik selalu memiliki dimensi moral. Menurut Meehl, metode statistik dikritik oleh klinisi berpengalaman sebagai “mekanis, atomistik, aditif, kaku, buatan, tidak realistis, sewenang-wenang, tidak lengkap, mati, pedantik, terfragmentasi, sepele, dipaksakan, statis, dangkal, kaku, steril, akademik, pseudosaintifik, dan buta.” Sementara metode klinis dipuji sebagai “dinamis, menyeluruh, bermakna, holistik, halus, simpatik, konfiguratif, berpola, terorganisir, kaya, mendalam, asli, sensitif, canggih, nyata, hidup, konkret, alami, sesuai kehidupan, dan penuh pengertian.”

Sikap ini mudah dikenali: saat manusia bersaing dengan mesin—apakah John Henry meninju paku di gunung atau jenius catur Garry Kasparov melawan Deep Blue—kita cenderung bersimpati pada manusia.

Aversi terhadap algoritma yang membuat keputusan yang memengaruhi manusia berakar pada preferensi kuat terhadap yang alami dibanding buatan. Misalnya, ketika ditanya apakah mereka lebih memilih apel organik atau komersial, mayoritas tetap memilih yang organik, meskipun kedua apel sama rasa, nilai gizi, dan kesehatan. Bahkan produsen bir menemukan bahwa mereka bisa meningkatkan penjualan dengan label “All Natural” atau “Tanpa Pengawet.”

Resistensi terhadap demistifikasi keahlian terlihat dari reaksi komunitas anggur Eropa terhadap formula Ashenfelter untuk memprediksi harga Bordeaux. Formula ini “menjawab doa,” tapi reaksi di lingkaran anggur Prancis, menurut The New York Times, berkisar “antara kekerasan dan histeris.” Seorang oenophile menyebut temuan itu “lucu dan absurd,” yang lain mengejek, “Seperti menilai film tanpa menontonnya.”

Prasangka terhadap algoritma semakin kuat ketika keputusan bersifat penting. Meehl menulis, “Saya tidak tahu bagaimana mengurangi kengerian yang dialami beberapa klinisi saat membayangkan kasus yang bisa diobati ditolak karena persamaan ‘buta, mekanis’ salah mengklasifikasikannya.”

Sebaliknya, Meehl dan pendukung algoritma menekankan bahwa tidak etis mengandalkan penilaian intuitif untuk keputusan penting jika ada algoritma yang membuat lebih sedikit kesalahan. Argumen rasional ini kuat, tetapi bertentangan dengan kenyataan psikologis: bagi banyak orang, penyebab kesalahan itu penting. Kisah anak meninggal karena kesalahan algoritma lebih menyentuh daripada karena kesalahan manusia, dan perbedaan emosi ini diterjemahkan ke preferensi moral.

Untungnya, permusuhan terhadap algoritma kemungkinan akan berkurang seiring peran mereka semakin luas. Saat mencari buku atau musik, kita menghargai rekomendasi software. Kita menerima begitu saja keputusan tentang batas kredit tanpa intervensi manusia. Kita semakin sering mengikuti pedoman berbentuk algoritma sederhana, seperti rasio kolesterol baik dan jahat yang harus dicapai.

Publik kini menyadari bahwa formula dapat lebih baik daripada manusia dalam beberapa keputusan penting di dunia olahraga: berapa banyak tim profesional membayar pemain rookie tertentu, atau kapan melakukan punt pada down keempat. Semakin banyak tugas yang dialihkan ke algoritma seiring waktu akan mengurangi ketidaknyamanan saat orang pertama kali menghadapi pola hasil yang Meehl jelaskan dalam bukunya yang mengganggu.

Belajar dari Meehl

Pada tahun 1955, ketika saya berusia dua puluh satu tahun dan menjabat letnan di Angkatan Pertahanan Israel, saya ditugaskan untuk menyusun sistem wawancara bagi seluruh tentara. Jika Anda bertanya-tanya mengapa tanggung jawab sebesar itu diberikan kepada seseorang yang masih muda, ingatlah bahwa negara Israel sendiri saat itu baru berusia tujuh tahun; semua institusinya sedang dibangun, dan seseorang harus membangunnya. Meskipun terdengar aneh sekarang, gelar sarjana psikologi saya mungkin membuat saya menjadi psikolog dengan pelatihan terbaik di seluruh angkatan. Atasan langsung saya, seorang peneliti brilian, memiliki gelar di bidang kimia.

Sebuah rutinitas wawancara sudah ada ketika saya menerima tugas ini. Setiap tentara yang direkrut mengikuti serangkaian tes psikometri, dan setiap orang yang dipertimbangkan untuk tugas tempur diwawancarai untuk menilai kepribadiannya. Tujuannya adalah memberikan skor kecakapan umum untuk tugas tempur dan menemukan kecocokan terbaik kepribadiannya dengan berbagai satuan: infanteri, artileri, lapis baja, dan sebagainya. Pewawancara itu sendiri adalah para rekrutan muda yang dipilih karena kecerdasan mereka dan minat dalam berinteraksi dengan orang lain. Sebagian besar adalah perempuan, yang pada saat itu dibebaskan dari tugas tempur. Mereka dilatih beberapa minggu tentang cara melakukan wawancara selama lima belas hingga dua puluh menit, dengan arahan untuk membahas berbagai topik dan membentuk kesan umum mengenai seberapa baik rekrutan akan tampil di angkatan.

Sayangnya, evaluasi lanjutan telah menunjukkan bahwa prosedur wawancara ini hampir tidak berguna untuk memprediksi keberhasilan rekrutan di masa depan. Saya diperintahkan untuk merancang wawancara yang lebih berguna tanpa memerlukan waktu lebih lama. Saya juga diminta mencoba wawancara baru ini dan mengevaluasi akurasinya. Dari perspektif seorang profesional serius, saya tidak lebih memenuhi syarat untuk tugas ini daripada saya diminta membangun jembatan di atas Sungai Amazon.

Untungnya, saya sudah membaca “buku kecil” Paul Meehl, yang diterbitkan setahun sebelumnya. Saya yakin dengan argumennya bahwa aturan statistik sederhana lebih unggul daripada penilaian klinis intuitif. Saya menyimpulkan bahwa wawancara yang digunakan saat itu gagal setidaknya sebagian karena membiarkan pewawancara melakukan hal yang paling menarik bagi mereka, yaitu mempelajari dinamika kehidupan mental orang yang diwawancarai. Sebaliknya, waktu terbatas yang tersedia sebaiknya digunakan untuk memperoleh informasi spesifik sebanyak mungkin tentang kehidupan orang tersebut di lingkungannya sehari-hari.

Pelajaran lain yang saya pelajari dari Meehl adalah kita sebaiknya meninggalkan prosedur di mana evaluasi global pewawancara menentukan keputusan akhir. Buku Meehl menunjukkan bahwa evaluasi semacam itu tidak dapat dipercaya, dan bahwa ringkasan statistik dari atribut yang dievaluasi secara terpisah akan memberikan validitas yang lebih tinggi.

Saya memutuskan prosedur di mana pewawancara menilai beberapa sifat kepribadian yang relevan dan memberi skor masing-masing secara terpisah. Skor akhir kecakapan untuk tugas tempur dihitung menurut formula standar, tanpa masukan tambahan dari pewawancara. Saya menyusun daftar enam karakteristik yang tampak relevan dengan kinerja di unit tempur, termasuk “tanggung jawab,” “sosialitas,” dan “harga diri maskulin.” Selanjutnya, untuk masing-masing sifat, saya membuat serangkaian pertanyaan faktual tentang kehidupan individu sebelum dinas militer, seperti jumlah pekerjaan yang pernah dijalani, ketepatan dan keteraturan dalam pekerjaan atau studi, frekuensi interaksi dengan teman, serta minat dan partisipasi dalam olahraga, dan sebagainya. Tujuannya adalah menilai seobjektif mungkin seberapa baik rekrutan menjalani tiap dimensi tersebut.

Dengan menekankan pertanyaan faktual yang distandarisasi, saya berharap dapat meminimalkan efek halo, di mana kesan pertama yang menguntungkan memengaruhi penilaian selanjutnya. Sebagai langkah pencegahan tambahan terhadap halo, saya menginstruksikan pewawancara untuk menilai keenam sifat secara berurutan, menilai masing-masing pada skala lima poin sebelum beralih ke sifat berikutnya. Begitulah prosedurnya. Saya memberitahu pewawancara bahwa mereka tidak perlu memikirkan penyesuaian rekrutan di masa depan terhadap kehidupan militer. Tugas mereka hanya menggali fakta relevan dari masa lalu dan menggunakan informasi itu untuk menilai tiap dimensi kepribadian. “Fungsi Anda adalah memberikan pengukuran yang andal,” kata saya, “Serahkan validitas prediktif kepada saya,” yang saya maksudkan adalah formula yang akan saya buat untuk menggabungkan penilaian spesifik mereka.

Pewawancara nyaris memberontak. Orang-orang muda cerdas ini tidak senang diperintahkan, oleh seseorang yang hampir seumuran, untuk menyingkirkan intuisi dan sepenuhnya fokus pada pertanyaan faktual yang membosankan. Salah seorang mengeluh, “Anda menjadikan kami seperti robot!” Maka saya berkompromi. “Laksanakan wawancara persis seperti diperintahkan,” kata saya, “dan ketika selesai, wujudkan keinginan kalian: tutup mata, bayangkan rekrutan sebagai tentara, dan beri skor dari 1 hingga 5.”

Beberapa ratus wawancara dilakukan dengan metode baru ini, dan beberapa bulan kemudian kami mengumpulkan evaluasi kinerja tentara dari para komandan unit tempat mereka ditugaskan. Hasilnya membuat kami senang. Seperti yang disarankan buku Meehl, prosedur wawancara baru ini merupakan peningkatan substansial dibandingkan yang lama. Jumlah dari enam penilaian kami memprediksi kinerja tentara jauh lebih akurat daripada evaluasi global dari metode wawancara sebelumnya, meskipun tidak sempurna. Kami telah berkembang dari “sangat tidak berguna” menjadi “cukup berguna.”

Kejutan besar bagi saya adalah bahwa penilaian intuitif yang dilakukan pewawancara dalam latihan “tutup mata” juga bekerja sangat baik, bahkan sebaik jumlah dari enam penilaian spesifik. Dari temuan ini, saya belajar pelajaran yang tak pernah saya lupakan: intuisi menambah nilai bahkan dalam wawancara seleksi yang sering dikritik, tetapi hanya setelah pengumpulan informasi objektif yang disiplin dan penilaian sifat secara terpisah yang disiplin. Saya membuat formula yang memberi bobot penilaian “tutup mata” sama dengan jumlah enam penilaian sifat. Pelajaran umum lainnya dari episode ini adalah: jangan hanya mengandalkan penilaian intuitif—milik Anda atau orang lain—tetapi juga jangan mengabaikannya.

Sekitar empat puluh lima tahun kemudian, setelah saya memenangkan Hadiah Nobel di bidang ekonomi, saya sempat menjadi selebritas minor di Israel. Pada salah satu kunjungan, seseorang memiliki ide untuk mengantar saya berkeliling basis militer lama, yang masih menampung unit yang mewawancarai rekrutan baru. Saya diperkenalkan kepada komandan Unit Psikologi, dan dia menjelaskan praktik wawancara mereka saat ini, yang tidak banyak berubah dari sistem yang saya rancang; ternyata ada banyak penelitian yang menunjukkan bahwa wawancara tersebut masih efektif. Saat dia hampir menyelesaikan penjelasannya tentang cara wawancara dilakukan, perwira itu menambahkan, “Dan kemudian kami mengatakan kepada mereka, ‘Tutup mata.’”

Lakukan Sendiri
Pesan dari bab ini dapat diterapkan pada tugas lain selain membuat keputusan tenaga kerja untuk sebuah angkatan bersenjata. Menerapkan prosedur wawancara dalam semangat Meehl dan Dawes memerlukan sedikit upaya tetapi disiplin yang substansial. Misalkan Anda perlu merekrut seorang perwakilan penjualan untuk perusahaan Anda. Jika Anda serius ingin mendapatkan orang terbaik untuk posisi itu, inilah yang sebaiknya dilakukan. Pertama, pilih beberapa sifat yang menjadi prasyarat keberhasilan dalam posisi ini (kemahiran teknis, kepribadian menarik, keandalan, dan sebagainya). Jangan berlebihan—enam dimensi adalah jumlah yang tepat. Sifat yang dipilih sebaiknya sebisa mungkin independen satu sama lain, dan Anda harus merasa dapat menilainya secara andal dengan beberapa pertanyaan faktual.

Selanjutnya, buat daftar pertanyaan untuk masing-masing sifat dan pikirkan bagaimana cara menilainya, misalnya pada skala 1–5. Anda sebaiknya memiliki gambaran apa yang termasuk “sangat lemah” atau “sangat kuat.” Persiapan ini sebaiknya memakan waktu sekitar setengah jam, investasi kecil yang dapat membuat perbedaan signifikan dalam kualitas kandidat yang Anda rekrut. Untuk menghindari efek halo, kumpulkan informasi satu sifat pada satu waktu, menilai masing-masing sebelum beralih ke sifat berikutnya. Jangan lompat-lompat. Untuk menilai setiap kandidat, jumlahkan keenam skor. Karena Anda bertanggung jawab atas keputusan akhir, jangan lakukan “tutup mata.” Tetapkan tekad untuk merekrut kandidat dengan skor akhir tertinggi, meskipun ada kandidat lain yang lebih Anda sukai—cobalah menahan keinginan untuk mengubah peringkat. Banyak penelitian menunjukkan janji: Anda jauh lebih mungkin menemukan kandidat terbaik jika mengikuti prosedur ini daripada melakukan seperti yang biasa dilakukan orang, yaitu memasuki wawancara tanpa persiapan dan membuat keputusan berdasarkan penilaian intuitif keseluruhan seperti “Saya menatap matanya dan menyukai apa yang saya lihat.”

Mengenai Penilaian vs. Formula


“Setiap kali kita bisa menggantikan penilaian manusia dengan formula, kita setidaknya harus mempertimbangkannya.”
“Dia mengira penilaiannya kompleks dan halus, tetapi kombinasi skor sederhana mungkin bisa lebih baik.”
“Mari tentukan di awal bobot yang diberikan pada data tentang kinerja masa lalu kandidat. Jika tidak, kita akan memberi bobot terlalu besar pada kesan dari wawancara.”