Minggu lalu, seorang amatir bereksperimen dengan model sintesis gambar Flux AI yang baru Itu telah ditemukan Mereka secara tak terduga pandai menyediakan versi font yang dilatih secara khusus. Meskipun ada metode yang lebih efisien dalam merender font komputer selama beberapa dekade, teknologi baru ini berguna bagi para penggemar gambar AI karena Flux mampu merender visualisasi teks yang sangat halus, dan pengguna kini dapat menyisipkan kata-kata yang dirender dengan font khusus langsung ke dalam generasi gambar AI. .
Kami memiliki teknologi untuk menghasilkan garis halus dan presisi yang digambar komputer dalam bentuk khusus sejak tahun 1980an (dan penelitian tahun 1970an), jadi membuat font kloning dengan AI bukanlah hal baru. Namun teknologi baru berarti Anda dapat melihat font tertentu muncul dalam gambar yang dihasilkan AI, misalnya, menu di papan tulis di restoran nyata atau kartu nama tercetak yang dipegang oleh robot rubah.
Tak lama setelah model montase foto AI menjadi populer seperti Difusi Stabil pada tahun 2022, beberapa orang memulainya Bertanya-tanyaBagaimana cara memasukkan produk, item pakaian, kepribadian, atau gaya saya ke dalam gambar yang dihasilkan AI? Salah satu jawaban yang muncul datang dalam bentuk LoRA (low-rank adaptation), sebuah teknik Itu telah ditemukan Pada tahun 2021, model dasar AI diluncurkan yang memungkinkan pengguna menambah pengetahuan dalam model dasar AI dengan ekstensi benchmark yang dilatih secara khusus.
Modul LoRA ini, demikian sebutan modul, memungkinkan model sintesis gambar membuat konsep baru yang awalnya tidak ditemukan (atau kurang terwakili) dalam data pelatihan model yang mendasarinya. Dalam praktiknya, penggemar sintesis gambar menggunakannya untuk merender gaya unik (misalnya, segala sesuatu di… Seni kapur) atau topik (gambar detail Manusia laba-laba(Misalnya). Setiap LoRA harus dilatih secara khusus menggunakan contoh yang disediakan pengguna.
Sebelum Flux, sebagian besar generator gambar AI tidak pandai menampilkan teks akurat dalam sebuah adegan. Jika Anda meminta Stable Diffusion 1.5 untuk menampilkan tag yang bertuliskan “keju”, itu akan menunjukkan kepada Anda omong kosong. DALL-E 3 OpenAI, yang dirilis tahun lalu, adalah model besar pertama yang melakukan pemrosesan teks dengan cukup baik. Flux terkadang masih membuat kesalahan kata dan huruf, namun ini adalah model AI “text-in-world” (sebut saja) paling mumpuni yang pernah kami lihat.
Karena Flux adalah model terbuka yang tersedia untuk diunduh dan konversi mikro, bulan lalu adalah pertama kalinya pelatihan jalur LoRA masuk akal. Inilah yang sebenarnya terjadi Baru-baru ini ditemukan oleh seorang penggila AI bernama Vadim Fedenko (yang belum menanggapi permintaan wawancara hingga berita ini dimuat). “Saya sangat terkesan dengan hasilnya,” tulis Fedenko Bagikan di Reddit“Flux mengenali tampilan huruf dalam gaya/font tertentu, sehingga memungkinkan untuk melatih Loras dengan font, gaya, dll. Saya akan segera melatihnya lebih banyak lagi.”
Untuk percobaan pertamanya, Fedenko memilih minuman bersoda Font gaya “Y2K”. Mengingatkan pada model yang populer pada akhir 1990-an dan awal 2000-an, model yang dihasilkan dipublikasikan di platform Civitai pada 20 Agustus. Dua hari kemudian, pengguna Civitai bernama “AggravatingScree7189” memposting font LoRA kedua yang mereproduksi font yang mirip dengan yang ada di Siberpunk 2077 Permainan video.
“Naskahnya sangat buruk sebelum aku terpikir bahwa kamu bisa melakukan ini.” buku Seorang pengguna Reddit menelepon egg-benedryl ketika menanggapi postingan Fedenko tentang jalur Y2K. Pengguna Reddit lainnya buku“Saya tidak tahu majalah Y2K palsu sampai saya memperbesarnya.”
Apakah itu berlebihan?
Memang benar bahwa menggunakan jaringan saraf yang sangat terlatih untuk mensintesis gambar guna menampilkan garis polos pada latar belakang sederhana mungkin berlebihan. Anda mungkin tidak ingin menggunakan metode ini untuk menggantikan Adobe Illustrator saat mendesain dokumen.
“Kedengarannya bagus, tapi lucu sekali kami menemukan kembali ide font dengan file LoRA 300 MB,” buku Seorang komentator di Reddit di thread tentang Siberpunk 2077 huruf.
AI Generatif sering dikritik karena dampaknya terhadap lingkungan, yang merupakan kekhawatiran sah bagi pusat data cloud yang besar. Namun kami menemukan bahwa Flux dapat memasukkan baris-baris ini ke dalam adegan yang dihasilkan AI saat berjalan secara lokal di RTX 3060 di Terkuantifikasi (Ukuran diperkecil) (Model pengembangan penuh dapat dijalankan pada RTX 3090). Konsumsi listriknya mirip dengan bermain video game di PC yang sama. Hal yang sama berlaku untuk membuat LoRA:Konstruktor Siberpunk 2077 huruf pelatih LoRA dalam tiga jam pada GPU 3090.
Ada juga masalah etika seputar penggunaan generator gambar bertenaga AI, seperti cara mereka dilatih tentang data yang diambil tanpa persetujuan pemilik konten. Meskipun teknologi ini menimbulkan perpecahan di antara beberapa seniman, banyak komunitas yang menggunakannya setiap hari Bagikan hasilnya secara online Melalui platform media sosial seperti Reddit, memunculkan aplikasi baru dari teknologi seperti ini.
Saat tulisan ini dibuat, hanya ada dua baris yang didedikasikan untuk Flux LoRA, namun kami telah mendengar tentang rencana untuk membuat lebih banyak lagi saat kami menulis baris ini. Meskipun teknologi ini masih dalam tahap awal, teknologi ini mungkin menjadi penting jika sintesis gambar AI diterapkan secara lebih luas di masa depan. Adobe, dengan model sintesis gambarnya, kemungkinan besar akan memperhatikan hal ini.
“Pop culture ninja. Social media enthusiast. Typical problem solver. Coffee practitioner. Fall in love. Travel enthusiast.”