Minggu lalu, OpenAI merilis versi terbaru model bahasa besar (LLM) terkemuka: GPT-4o.
LLM bersifat multimodal, dengan kemampuan berpikir secara real time melalui suara, penglihatan, dan teks.
Selama bertahun-tahun, membangun AI yang memahami berbagai pendekatan terbukti sulit. Membuat alur untuk tugas seperti ucapan-ke-teks saja sulit dilakukan karena masalah seperti waktu pemrosesan yang tinggi.
Sekarang, GPT-4o dapat melakukan hal ini hampir secara instan.
Namun, hingga saat ini, penyedia platform AI telah banyak berinvestasi dalam proyek multimedia tersebut, dan memberikan pendanaan Rowan Trollope, CEO Redis Sekarang dianggap sudah ketinggalan jaman.
Melalui X (sebelumnya Twitter), CEO Five9 pernah menyatakan:
Ratusan juta dolar yang dihabiskan untuk penelitian dan pengembangan agen AI pusat kontak menjadi usang seiring dengan perkembangan OpenAI GPT-4o. Perhatian harus tertuju pada otomatisasi back-end
Ini bukan pertama kalinya ChatGPT membuat penelitian dan pengembangan dalam inovasi pusat kontak menjadi ketinggalan jaman.
Bayangkan saja bagaimana versi LLM sebelumnya tertinggal dari pekerjaan banyak penyedia analisis, yang menghabiskan ratusan jam merekayasa model pemrosesan bahasa alami (NLP) untuk mengukur niat, sentimen, dan banyak lagi. LLM dapat mengeluarkan semua ini dari kotaknya.
Contoh lainnya adalah inovasi yang dibantu agen. Meskipun perusahaan telah menghabiskan banyak sumber daya penelitian dan pengembangan untuk membangun kasus penggunaan seperti mengisolasi titik data utama dalam percakapan pelanggan, ChatGPT dan LLM lainnya dapat melakukannya secara instan.
Faktanya, inilah sebabnya banyak perusahaan pertama kali menerapkan LLM di pusat kontak. Kasus penggunaannya sudah ada, namun kini lebih mudah diakses.
Perhatikan grafik berikut dari studi Gartner pada bulan Oktober 2023. Grafik ini menunjukkan bagaimana layanan pelanggan merupakan penerima manfaat utama dari investasi GenAI dalam sebuah organisasi.
Hal ini diperkirakan akan terus berlanjut, dan dengan diperkenalkannya MBA multimedia, kasus penggunaan akan menjadi lebih inovatif. Terjemahan simultan adalah contoh yang bagus.
Terjemahan simultan dan kasus penggunaan multimedia lainnya
Dalam beberapa tahun terakhir, vendor AI percakapan telah menghadirkan banyak model terjemahan real-time ke pasar, dan merek seperti Cognigy bahkan menyediakannya di saluran suara.
Biasanya, aplikasi ini pertama-tama akan menggunakan ucapan-ke-teks untuk menghasilkan teks dari suara pelanggan.
Teks ini kemudian dimasukkan melalui mesin terjemahan – seperti Google Terjemahan – dan agen menerima terjemahan teks di ruang kerja mereka sendiri.
Dari sana, agen mengetik respons mereka, yang – melalui mesin – diterjemahkan kembali ke bahasa asli dan diputar melalui aliran audio text-to-speech.
Masalah mendasar dari pengalaman ini adalah adanya kebuntuan antara agen yang berbicara dan agen yang menulis tanggapan. Itu adalah pembunuh hubungan.
Untungnya, dengan interpretasi “off-the-shelf”, LLM multimedia dapat membantu.
Lihat saja contoh yang dirilis oleh OpenAI untuk GPT-4o, yang menerjemahkan percakapan langsung antara penutur asli bahasa Inggris dan Spanyol.
Selain penerjemahan, pertimbangkan bagaimana AI dapat menyesuaikan aksen agen ke aksen yang lebih familiar bagi pelanggan, sehingga memastikan pemahaman yang lengkap.
Krisp sudah menawarkan kasus penggunaan ini. Namun, dengan GPT-4.0, ketersediaannya mungkin jauh lebih luas. Bagaimanapun, salah satu demo OpenAI menunjukkan pola perubahan suara yang didukung GPT dengan cepat.
Sebagai contoh terakhir, pertimbangkan bagaimana GPT-4o mengubah percakapan antara klien dan agen virtual.
Misalnya, pertimbangkan berapa banyak vendor AI percakapan besar yang telah menyempurnakan solusi mereka dengan pengenalan gambar (IR) untuk mengenali entitas dalam gambar dan memberikan rekomendasi otomatis. Multimedia LLM menyediakan kemampuan ini secara langsung.
Menambahkan kemampuan ini ke agen virtual dapat memungkinkan banyak kasus penggunaan agen virtual di berbagai sektor, termasuk ritel, utilitas, dan sektor publik.
Ambil contoh dewan lokal sebagai contoh. Jika seseorang men-tweet foto perabot yang rusak di jalan dan membagikan lokasinya, GPT-4o dapat menentukan apakah perabot tersebut milik dewan.
Melalui verifikasi ini, LLM dapat memicu respons otomatis dan terpersonalisasi serta memicu alur kerja yang telah direncanakan sebelumnya untuk menyelesaikan masalah tersebut.
Memastikan koordinasi kelembagaan yang tepat untuk kasus-kasus penggunaan ini kemungkinan akan menjadi medan pertempuran berikutnya – seperti yang disarankan Trollope – terutama mengingat kompleksitas fitur-fitur inovatif ini.
GPT-4o: Kisah perusahaan yang lebih luas
Peluncuran GPT-4o memberikan wawasan lebih lanjut tentang masa depan interaksi pelanggan.
Misalnya, mungkin demo dua perangkat GPT-4os yang berinteraksi dan bernyanyi berikut ini akan menjelaskan masa depan ketika klien perangkat keras dan proxy berbicara atas nama rekan manusianya.
Namun, menarik juga untuk memikirkan bagaimana OpenAI memilih untuk menyampaikan semua demonstrasi ini melalui ponsel pintar, bernavigasi di antara modalitas GPT-4o – hampir menjadi perpanjangan dari indra.
Hal ini menunjukkan bahwa OpenAI beralih ke pasar seluler untuk memperluas jangkauan AI generatif, yang mungkin tidak mengejutkan, mengingat laporan baru-baru ini bahwa OpenAI sedang dalam pembicaraan dengan Apple mengenai integrasi lebih dalam teknologinya ke iOS.
Selain itu, contoh ponsel cerdas menyoroti dampak MBA multimedia terhadap alur kerja sehari-hari konsumen.
Namun, mungkin yang paling penting, dengan membuka potensi multimedia kepada seluruh pengguna, OpenAI mendekatkan kita pada AI yang lebih murah dan real-time di perusahaan.
Misalnya, pekerja keuangan mungkin menggunakan formulir ini dalam alur kerja mereka saat mereka membandingkan dokumen, menemukan kesalahan, dan mengirim email.
Sebelumnya, mereka harus mendokumentasikan prosedur ini langkah demi langkah, memprogramnya, dan membuat alur proses yang lambat dan tidak fleksibel. Kini, AI dapat secara dinamis mengadaptasi dan mengotomatiskan alur kerja ini, sehingga meningkatkan efisiensi secara signifikan.
Di tempat lain, pertimbangkan organisasi barang kemasan konsumen (CPG) besar yang menggunakan diagram alur untuk mengelola penempatan produk.
Biasanya, peninjauan penempatan ini melibatkan pengambilan gambar dan analisis manual. Kini, dengan GPT-4.o, perusahaan dapat menganalisis rekaman video secara real-time, mengatasi keterbatasan sebelumnya seperti pencahayaan yang buruk atau keterbatasan ruang.
Ini hanyalah dua dari banyak contoh yang menyoroti bagaimana GPT-4.o mengotomatiskan proses alur kerja yang kompleks dan meningkatkan interaksi real-time di seluruh perusahaan.
Namun, seperti yang disimpulkan Trollope, keberhasilan integrasinya bergantung pada pengembangan proses integrasi back-end, serta penyesuaian model terhadap kebutuhan spesifik dan memastikan respons yang akurat dan sadar konteks.
“Pop culture ninja. Social media enthusiast. Typical problem solver. Coffee practitioner. Fall in love. Travel enthusiast.”