Tech

“Gato” DeepMind sederhana, jadi mengapa mereka membuatnya?

Chad Miles Mei 14, 2022

Jaringan saraf “Gato” DeepMind unggul dalam banyak tugas termasuk mengendalikan lengan robot yang menumpuk balok, memainkan game Atari 2600, dan membuat anotasi gambar.

pikiran yang dalam

Dunia terbiasa melihat berita utama tentang terobosan terbaru dalam bentuk pembelajaran mendalam dari kecerdasan buatan. Namun, pencapaian terbaru divisi DeepMind Google dapat disimpulkan sebagai “satu program AI yang melakukan banyak hal.”

Jato, demikian sebutan DeepMind, Itu terungkap minggu ini Sebagai program yang disebut Multimedia, ia dapat memainkan video game, mengobrol, menulis komposisi, mengomentari gambar, dan mengontrol blok susun lengan robot. Ini adalah jaringan saraf tunggal yang dapat bekerja dengan beberapa jenis data untuk melakukan berbagai jenis tugas.

“Menggunakan satu set bobot, Gato dapat terlibat dalam dialog, membubuhi keterangan gambar, menumpuk blok dengan lengan robot sungguhan, mengakali manusia dalam memainkan game Atari, menavigasi lingkungan simulasi 3D, mengikuti instruksi, dan banyak lagi,” tulis penulis utama Scott Reed. rekan-rekan mereka dalam makalah mereka “Jaksa Penuntut Umum” Diposting di server pracetak Arxiv.

Salah satu pendiri DeepMind Demis Hassabis berseru kepada tim, berteriak dalam tweet“Agen kami yang paling umum hingga saat ini!! Kerja bagus dari tim!”

juga: Eksperimen baru: Apakah AI benar-benar mengenal kucing atau anjing – atau yang lainnya?

Satu-satunya tangkapan adalah bahwa Gato sebenarnya tidak hebat dalam banyak tugas.

Di sisi lain, perangkat lunak ini mampu melakukan pekerjaan yang lebih baik daripada perangkat lunak pembelajaran mesin khusus dalam mengendalikan lengan robot Sawyer yang menumpuk balok. Di sisi lain, ia menghasilkan keterangan foto yang dalam banyak kasus kualitasnya sangat buruk. Begitu pula dengan kemampuannya dalam dialog obrolan standar dengan lawan bicara manusia yang biasa-biasa saja, terkadang menimbulkan pernyataan yang kontradiktif dan tidak logis.

Selain itu, permainan video Atari 2600-nya lebih rendah daripada sebagian besar program ML khusus yang dirancang untuk bersaing dalam standar lingkungan belajar arcade.

Mengapa membuat program yang melakukan beberapa hal dengan baik dan banyak hal lainnya tidak begitu baik? Anteseden dan antisipasi menurut penulis.

Ada preseden untuk jenis perangkat lunak yang lebih umum menjadi canggih dalam kecerdasan buatan, dan ada harapan bahwa peningkatan jumlah daya komputasi di masa depan akan menutupi kekurangannya.

Generalisme cenderung menang di AI. Seperti yang dicatat oleh penulis, mengutip ilmuwan kecerdasan buatan Richard Sutton, “Secara historis, model umum yang lebih baik dalam menggunakan perhitungan juga cenderung pada akhirnya mengesampingkan metode khusus industri.”

Seperti yang ditulis Sutton Dalam posting blognya“Pelajaran terbesar untuk dibaca dari 70 tahun penelitian AI adalah bahwa metode umum yang memanfaatkan komputasi pada akhirnya adalah yang paling efektif dan dengan margin yang besar.”

Dalam tesis formal, Reed dan timnya menulis: “Di sini kami menguji hipotesis bahwa melatih agen yang secara umum mampu melakukan sejumlah besar tugas adalah mungkin; dan bahwa agen umum semacam itu dapat diadaptasi dengan sedikit data tambahan untuk berhasil dalam skala yang lebih besar. sejumlah tugas.”

juga: LeCun yang brilian di Meta AI mengeksplorasi batas kekuatan pembelajaran yang mendalam

Bentuknya, dalam hal ini, sebenarnya sangat umum. Ini adalah salinan Transformer, jenis model berbasis perhatian yang dominan yang telah menjadi dasar bagi banyak program termasuk GPT-3. Transformator memodelkan probabilitas suatu elemen dengan melihat elemen-elemen yang mengelilinginya seperti kata-kata dalam sebuah kalimat.

Dalam kasus Gato, para ilmuwan DeepMind dapat menggunakan pencarian probabilitas bersyarat yang sama pada banyak jenis data.

Saat Reed dan rekan menjelaskan tugas melatih Gatto,

Selama fase pelatihan Gato, data dari tugas dan metode yang berbeda diurutkan ke dalam urutan simbol yang tetap, dirakit dan diproses oleh adaptor jaringan saraf yang mirip dengan model bahasa besar. Kerugian tersebut ditutupi sehingga Gato hanya memprediksi tujuan bisnis dan teks.

Dengan kata lain, Gato tidak memperlakukan token secara berbeda apakah itu kata-kata dalam percakapan atau vektor gerakan dalam latihan susun balok. Semuanya sama.

Terkubur dalam hipotesis wajar Reed dan timnya, bahwa semakin banyak kekuatan komputasi pada akhirnya akan menang. Saat ini, Gato dibatasi oleh waktu respon dari lengan robot susun blok Sawyer. Pada 1,18 miliar parameter jaringan, Gato jauh lebih kecil daripada model AI yang sangat besar seperti GPT-3. Saat skala model pembelajaran mendalam meningkat, kinerja inferensi mengarah ke latensi yang dapat gagal di dunia bot dunia nyata non-deterministik.

Namun, Reed dan rekan-rekannya berharap batas ini dapat dilampaui karena perangkat AI menjadi lebih cepat dalam pemrosesan.

“Kami memfokuskan pelatihan kami pada model operasi titik-ke-skala yang memungkinkan kontrol real-time robot di dunia nyata, saat ini sekitar 1,2 miliar parameter dalam kasus Gato,” tulis mereka. “Seiring perangkat dan struktur model meningkat, titik operasi ini secara alami akan meningkatkan ukuran model yang mungkin, mendorong model generik ke atas kurva hukum ekspansi.”

Oleh karena itu, Gato benar-benar merupakan model bagaimana Scale Computing terus menjadi vektor utama pengembangan pembelajaran mesin, dengan membuat model generik semakin besar. Dengan kata lain, lebih besar lebih baik.

Gato meningkat seiring ukuran jaringan saraf meningkat dalam parameter.

Reed dkk 2022

Penulis memiliki beberapa bukti untuk ini. Gato tampaknya menjadi lebih baik karena semakin besar. Mereka membandingkan skor rata-rata di semua tugas standar untuk tiga ukuran model dengan kriteria, 79 juta, 364 juta, dan model utama, 1,18 miliar. “Kita dapat melihat bahwa untuk jumlah token yang setara, ada peningkatan kinerja yang signifikan dengan bertambahnya ukuran,” tulis para penulis.

Pertanyaan masa depan yang menarik adalah apakah perangkat lunak khusus lebih berbahaya daripada jenis perangkat lunak AI lainnya. Para penulis menghabiskan banyak waktu penelitian untuk membahas fakta bahwa ada potensi risiko yang belum dipahami dengan baik.

Gagasan tentang program yang menangani banyak tugas untuk rata-rata orang menunjukkan semacam kemampuan beradaptasi manusia, tetapi itu bisa menjadi kesalahpahaman yang berbahaya. “Misalnya, perwujudan fisik dapat menyebabkan pengguna membuat proxy, mengakibatkan kepercayaan yang salah jika terjadi sistem yang rusak, atau dapat dieksploitasi oleh aktor jahat,” tulis Reed dan timnya.

Selain itu, meskipun transfer pengetahuan lintas domain sering menjadi tujuan dalam penelitian ML, hal itu dapat menyebabkan hasil yang tidak diharapkan dan tidak diinginkan jika perilaku tertentu (seperti pertarungan arcade) dialihkan ke konteks yang salah.

Oleh karena itu, mereka menulis, “Etika dan pertimbangan keamanan untuk transfer pengetahuan mungkin memerlukan penelitian baru yang substansial seiring kemajuan sistem publik.”

(Sebagai catatan tambahan yang menarik, makalah Gato menggunakan bagan untuk menggambarkan risiko yang dirancang oleh mantan peneliti AI Google Margaret Michell dan rekan-rekannya, yang disebut Model Cards. Model Cards memberikan ringkasan singkat tentang apa itu program AI, apa fungsinya, dan faktor apa yang mempengaruhi cara kerjanya. Dan tahun lalu Michelle menulis bahwa Dipaksa keluar dari Google Untuk mendukung mantan rekannya, Timnit Gebru, yang kekhawatiran etisnya tentang AI bertentangan dengan kepemimpinan Google di AI.)

Jato sama sekali tidak unik dalam kecenderungan generalisasinya. Ini adalah bagian dari tren umum pengarusutamaan, dan model yang lebih besar menggunakan banyak tenaga. Dunia pertama kali merasakan kecenderungan Google ke arah ini musim panas terakhirdengan jaringan saraf “Perceiver” Google yang menggabungkan tugas transduser teks dengan gambar, audio, dan koordinat spasial LiDAR.

juga: Google Supermodel: DeepMind Perceiver adalah langkah menuju mesin AI yang dapat memproses apa saja

Di antara rekan-rekannya adalah PaLM, Pathways Language Model, Diperkenalkan oleh Google Cendekia tahun inimodel varian 540 miliar menggunakan teknologi baru untuk mengatur ribuan chip, Dikenal sebagai Pathways, juga ditemukan oleh Google. jaringan syaraf Dirilis pada bulan Januari Dengan Meta, yang disebut “data2vec,” konverter menggunakan data gambar, bentuk gelombang suara untuk ucapan, dan representasi bahasa teks semuanya menjadi satu.

Apa yang baru di Gato tampaknya adalah niat untuk menggunakan AI untuk tugas-tugas non-robotik dan mendorongnya ke dunia robotika.

Pencipta Gato mencatat pencapaian Pathways dan metode publik lainnya, dan melihat pencapaian tertinggi dalam AI yang dapat bekerja di dunia nyata, dengan jenis tugas apa pun.

“Pekerjaan di masa depan harus mempertimbangkan bagaimana menyatukan kemampuan skrip ini menjadi agen generik lengkap yang juga dapat beroperasi secara real time di dunia nyata, di lingkungan dan inkarnasi yang beragam.”

Anda kemudian dapat mempertimbangkan Gattu sebagai langkah penting menuju solusi Masalah tersulit dalam kecerdasan buatan, robotika.