ChatGPT, atau lebih tepatnya GPT-3, teknologi pembelajaran mesin yang menggerakkan ChatGPT, dapat melakukan banyak hal cerdas.
GPT-3 dapat menampilkan teks yang tampaknya telah diketik oleh manusia, menulis kode komputer, dan melakukan percakapan dengan manusia tentang berbagai topik. Keahliannya juga melampaui bahasa. Dia bisa bermain catur dengan terampil dan bahkan bisa menyelesaikan soal matematika tingkat universitas.
“Pengamatan telah membuat beberapa orang berpendapat bahwa kelas model dasar ini … menunjukkan beberapa bentuk kecerdasan umum,” kata ilmuwan Jerman Marcel Binns dan Eric Schulz. Buku dalam Studi Diposting di Prosiding National Academy of Sciences Amerika Serikat pada 2 Februari.
Namun, yang lain lebih skeptis, menunjukkan bahwa model ini masih jauh dari pemahaman bahasa dan semantik tingkat manusia.Bagaimana kita bisa menilai dengan jujur apakah model ini—setidaknya dalam beberapa situasi—melakukan sesuatu yang cerdas?
Itu terlihat pintar. Tetapi apakah GPT-3 benar-benar pintar, atau hanya sebuah algoritme yang secara pasif memakan banyak teks dan memprediksi kata berikutnya? Binns dan Schulz, peneliti di German Max Planck Institute for Biological Cybernetics, melakukan serangkaian eksperimen pada akhir 2022 untuk mencoba mencari tahu.
Menurut penelitian mereka, GPT-3 mungkin lebih dari sekedar simulasi yang kompleks.
Model linguistik adalah bentuk teknologi kecerdasan buatan yang dilatih untuk memprediksi kata berikutnya dari teks yang diberikan. Ini bukan hal baru. Pemeriksaan ejaan dan koreksi teks secara otomatis dan prediktif adalah semua alat untuk model bahasa.
GPT-3 dan ChatGPT adalah model bahasa yang lebih besar, lebih kompleks – dan berpotensi pintar.
Ensiklopedia Britannica Mendefinisikan kecerdasan manusia “Kualitas pikiran yang terdiri dari kemampuan untuk belajar dari pengalaman, beradaptasi dengan situasi baru, memahami dan memanipulasi konsep abstrak, dan menggunakan pengetahuan untuk memanipulasi lingkungan seseorang.”
Untuk menguji apakah GPT-3 itu cerdas, Binz dan Schulz mengambil pendekatan psikolog dan menjalankannya melalui serangkaian teka-teki yang secara tradisional digunakan untuk menguji kemampuan pengambilan keputusan, pencarian informasi, pertimbangan, dan penalaran kausal manusia.
“Psikolog, bagaimanapun, memiliki pengalaman mencoba memahami algoritma lain yang secara formal tidak dapat diretas: pikiran manusia,” tulis mereka.
Tes GPT-3
Binz dan Schulz mempresentasikan GPT-3 dengan 12 teka-teki “sketsa” yang dirancang untuk menguji berbagai elemen kemampuan kognitif mereka. Teka-teki tersebut mengajukan pertanyaan seperti, “Total kelelawar dan bola berharga $1,10. Harga kelelawar lebih mahal $1 daripada bola. Berapa harga bola?” dan “Apakah Linda, blak-blakan, cerdas, dan aktif secara politik, cenderung menjadi teller bank atau teller bank dan feminis?”
Untuk apa nilainya, jawaban untuk “masalah Linda” adalah bahwa itu lebih mungkin teller bank, karena kemungkinan dua peristiwa terjadi bersamaan selalu kurang dari atau sama dengan kemungkinan salah satu dari mereka terjadi sendiri.
Binz dan Schulz menggunakan respons GPT-3 untuk menganalisis perilakunya, seperti cara psikolog kognitif menganalisis perilaku manusia pada tugas yang sama. Mereka menemukan bahwa dia menjawab semua teka-teki dengan cara yang “mirip manusia”, tetapi hanya menjawab enam dengan benar.
Untuk memperhitungkan kelemahan potensial dalam pendekatan “sketsa”—seperti kemungkinan bahwa GPT-3 telah menemukan beberapa teka-teki yang diketahui dalam pelatihannya—Binz dan Schulz memberi GPT-3 putaran teka-teki lainnya. Kali ini, alih-alih mengajukan pertanyaan dengan satu jawaban yang benar, teka-teki tersebut menguji kemampuan GPT-3 untuk menyelesaikan tugas menggunakan keterampilan pengambilan keputusan, pencarian informasi, pertimbangan, dan penalaran kausal.
GPT-3 berjuang dalam pengambilan keputusan, pencarian informasi terarah, dan penalaran kausal dibandingkan dengan subjek manusia pada umumnya, tetapi Binz dan Schulz menemukan bahwa GPT-3 menyelesaikan banyak tes “secara wajar”.
“Hasil ini dapat menunjukkan bahwa – setidaknya dalam beberapa kasus – GPT-3 bukan hanya burung beo acak dan dapat lolos sebagai subjek yang valid untuk beberapa eksperimen kami,” tulis mereka.
Menurut makalah Maret 2021, “On the Perils of Random Parrots: Can Language Models Be Too Big?” A burung beo acak adalah “sebuah sistem urutan morfem yang menghubungkan secara acak yang dia amati dalam data pelatihan yang luas, menurut informasi probabilistik tentang bagaimana mereka harus digabungkan, tetapi tanpa indikasi makna apa pun”.
tanda-tanda kecerdasan
Baines dan Schulz terkejut menemukan sinyal intelijen di GPT-3. Tapi mereka tidak terkejut dengan kekurangannya.
Mereka menulis: “Manusia belajar dengan berkomunikasi dengan orang lain, mengajukan pertanyaan kepada mereka, dan secara aktif berpartisipasi dalam lingkungan mereka, sementara model bahasa besar belajar dengan memberi makan banyak teks secara pasif dan memprediksi kata mana yang muncul berikutnya.”
Kunci untuk memungkinkan GPT-3 mencapai kecerdasan seperti manusia, kata mereka, adalah membiarkannya terus melakukan sesuatu yang sudah dilakukannya melalui antarmuka yang dibuat oleh pengembang OpenAI: berinteraksi dengan manusia.
“Banyak pengguna sudah berinteraksi dengan model mirip GPT-3, dan jumlah itu hanya bertambah dengan aplikasi baru di cakrawala,” tulis mereka. “Model bahasa masa depan kemungkinan besar akan dilatih berdasarkan data ini, yang mengarah ke lingkaran interaksi alami antara faktor buatan dan alami.”
Dengan kata lain, semakin banyak kita berbicara dengan mereka, semakin pintar mereka.
“Ninja budaya pop. Penggemar media sosial. Tipikal pemecah masalah. Praktisi kopi. Banyak yang jatuh hati. Penggemar perjalanan.”