Text-to-image AI meledak tahun ini karena kemajuan teknis sangat meningkatkan ketepatan seni yang dapat dibuat oleh sistem AI. Kontroversial karena sistem seperti Stable Diffusion dan DALL-E 2 OpenAI, platform termasuk DeviantArt dan Canva telah mengadopsinya untuk memperkuat alat kreatif, mempersonalisasi branding, dan bahkan menciptakan produk baru.
Tetapi teknologi di jantung sistem ini mampu melakukan lebih dari sekadar menghasilkan karya seni. Disebut difusi, itu digunakan oleh beberapa kelompok penelitian pemberani untuk menghasilkan musik, mensintesis urutan DNA, dan bahkan menemukan obat baru.
Jadi apa itu difusi, tepatnya, dan mengapa ini merupakan lompatan besar dari teknologi sebelumnya? Seiring berlalunya tahun, ada baiknya melihat asal-usul difusi dan bagaimana hal itu berkembang dari waktu ke waktu hingga menjadi kekuatan berpengaruh seperti sekarang ini. Kisah difusi belum berakhir — penyempurnaan teknik tiba setiap bulan — tetapi satu atau dua tahun terakhir secara khusus membawa kemajuan yang luar biasa.
Kelahiran difusi
Anda mungkin ingat tren aplikasi deepfaking beberapa tahun lalu — aplikasi yang menyisipkan potret orang ke dalam gambar dan video yang ada untuk membuat substitusi yang tampak realistis dari subjek asli dalam konten target tersebut. Menggunakan AI, aplikasi akan “memasukkan” wajah seseorang — atau dalam beberapa kasus, seluruh tubuh mereka — ke dalam sebuah adegan, seringkali cukup meyakinkan untuk membodohi seseorang pada pandangan pertama.
Sebagian besar aplikasi ini bergantung pada teknologi AI yang disebut jaringan permusuhan generatif, atau disingkat GAN. GAN terdiri dari dua bagian: a generator yang menghasilkan contoh sintetik (misalnya gambar) dari data acak dan a pembeda yang mencoba membedakan antara contoh sintetik dan contoh nyata dari kumpulan data pelatihan. (Dataset pelatihan GAN tipikal terdiri dari ratusan hingga jutaan contoh hal-hal yang pada akhirnya diharapkan dapat ditangkap oleh GAN.) Baik generator maupun diskriminator meningkatkan kemampuannya masing-masing hingga diskriminator tidak dapat membedakan contoh nyata dari contoh yang disintesis dengan lebih baik dari akurasi 50% yang diharapkan dari kebetulan.
GAN berperforma terbaik dapat membuat, misalnya, cuplikan bangunan apartemen fiktif. StyleGAN, sistem yang dikembangkan Nvidia beberapa tahun lalu, dapat menghasilkan bidikan kepala orang fiksi beresolusi tinggi dengan mempelajari atribut seperti pose wajah, bintik-bintik, dan rambut. Di luar pembuatan gambar, GAN telah diterapkan pada ruang pemodelan 3D dan sketsa vektor, menunjukkan kemampuan untuk mengeluarkan klip video serta ucapan dan bahkan mengulang sampel instrumen dalam lagu.
Namun dalam praktiknya, GAN mengalami sejumlah kekurangan karena arsitekturnya. Pelatihan simultan model generator dan diskriminator pada dasarnya tidak stabil; terkadang generator “runtuh” dan mengeluarkan banyak sampel yang tampak serupa. GAN juga membutuhkan banyak data dan daya komputasi untuk dijalankan dan dilatih, yang membuatnya sulit untuk diskalakan.
Masukkan difusi.
Bagaimana difusi bekerja
Difusi terinspirasi oleh fisika – menjadi proses dalam fisika di mana sesuatu bergerak dari daerah dengan konsentrasi lebih tinggi ke daerah dengan konsentrasi lebih rendah, seperti gula batu yang larut dalam kopi. Butiran gula dalam kopi awalnya terkonsentrasi di bagian atas cairan, tetapi secara bertahap menjadi terdistribusi.
Sistem difusi meminjam dari difusi dalam termodinamika non-kesetimbangan secara khusus, di mana proses meningkatkan entropi — atau keacakan — sistem dari waktu ke waktu. Pertimbangkan sebuah gas — pada akhirnya akan menyebar untuk mengisi seluruh ruang secara merata melalui gerakan acak. Demikian pula, data seperti gambar dapat diubah menjadi distribusi yang seragam dengan menambahkan noise secara acak.
Sistem difusi secara perlahan menghancurkan struktur data dengan menambahkan derau hingga tidak ada lagi yang tersisa selain derau.
Dalam fisika, difusi terjadi secara spontan dan tidak dapat diubah – gula yang terdifusi dalam kopi tidak dapat dikembalikan ke bentuk kubus. Tetapi sistem difusi dalam pembelajaran mesin bertujuan untuk mempelajari semacam proses “difusi terbalik” untuk memulihkan data yang dihancurkan, memperoleh kemampuan untuk memulihkan data dari kebisingan.
Sistem difusi telah ada selama hampir satu dekade. Tetapi inovasi yang relatif baru dari OpenAI yang disebut CLIP (singkatan dari “Contrastive Language-Image Pre-Training”) membuatnya jauh lebih praktis dalam aplikasi sehari-hari. CLIP mengklasifikasikan data – misalnya, gambar – untuk “menilai” setiap langkah proses difusi berdasarkan seberapa besar kemungkinannya untuk diklasifikasikan di bawah prompt teks yang diberikan (misalnya “sketsa anjing di halaman berbunga”).
Pada awalnya, data memiliki skor yang diberikan CLIP sangat rendah, karena sebagian besar berupa noise. Tetapi saat sistem difusi merekonstruksi data dari kebisingan, perlahan-lahan semakin mendekati pencocokan prompt. Sebuah analogi yang berguna adalah marmer yang tidak diukir — seperti seorang pemahat ulung yang memberi tahu seorang pemula di mana harus mengukir, CLIP memandu sistem difusi menuju gambar yang memberikan skor lebih tinggi.
OpenAI memperkenalkan CLIP bersama sistem penghasil gambar DALL-E. Sejak saat itu, ini menjadi penerus DALL-E, DALL-E 2, serta alternatif open source seperti Stable Diffusion.
Apa yang dapat dilakukan difusi?
Jadi, apa yang dapat dilakukan oleh model difusi yang dipandu oleh CLIP? Yah, seperti disinggung sebelumnya, mereka cukup pandai menghasilkan seni – dari seni fotorealistik hingga sketsa, gambar, dan lukisan dengan gaya hampir semua seniman. Faktanya, ada bukti yang menunjukkan bahwa mereka secara bermasalah memuntahkan beberapa data pelatihan mereka.
Tetapi bakat para model – meskipun mungkin kontroversial – tidak berakhir di situ.
Para peneliti juga bereksperimen dengan menggunakan model difusi terpandu untuk menggubah musik baru. Harmonai, sebuah organisasi dengan dukungan finansial dari Stability AI, startup yang berbasis di London di belakang Stable Diffusion, merilis model berbasis difusi yang dapat menghasilkan klip musik dengan melatih ratusan jam lagu yang ada. Baru-baru ini, pengembang Seth Forsgren dan Hayk Martiros membuat proyek hobi yang disebut Riffusion yang menggunakan model difusi yang dilatih dengan cerdik pada spektogram — representasi visual — audio untuk menghasilkan lagu pendek.
Di luar ranah musik, beberapa laboratorium mencoba menerapkan teknologi difusi ke biomedis dengan harapan mengungkap perawatan penyakit baru. Startup Generate Biomedicines dan tim University of Washington melatih model berbasis difusi untuk menghasilkan desain protein dengan sifat dan fungsi tertentu, seperti yang dilaporkan MIT Tech Review awal bulan ini.
Model bekerja dengan cara yang berbeda. Hasilkan Biomedis ‘menambahkan kebisingan dengan mengurai rantai asam amino yang membentuk protein dan kemudian menyatukan rantai acak untuk membentuk protein baru, dipandu oleh batasan yang ditentukan oleh para peneliti. Model University of Washington, di sisi lain, dimulai dengan struktur acak dan menggunakan informasi tentang bagaimana potongan-potongan protein harus cocok satu sama lain yang disediakan oleh sistem AI terpisah yang dilatih untuk memprediksi struktur protein.
Mereka telah mencapai beberapa keberhasilan. Model yang dirancang oleh kelompok University of Washington mampu menemukan protein yang dapat menempel pada hormon paratiroid — hormon yang mengontrol kadar kalsium dalam darah — lebih baik daripada obat-obatan yang ada.
Sementara itu, di OpenBioML, upaya Stabilitas yang didukung AI untuk membawa pendekatan berbasis pembelajaran mesin ke biokimia, para peneliti telah mengembangkan sistem yang disebut Difusi DNA untuk menghasilkan sekuens DNA pengaturan spesifik tipe sel — segmen molekul asam nukleat yang memengaruhi ekspresi gen tertentu dalam suatu organisme. Difusi DNA akan – jika semua berjalan sesuai rencana – menghasilkan urutan DNA pengatur dari instruksi teks seperti “Urutan yang akan mengaktifkan gen ke tingkat ekspresi maksimumnya dalam tipe sel X” dan “Urutan yang mengaktifkan gen di hati dan jantung , tapi tidak di otak.”
Apa yang mungkin terjadi di masa depan untuk model difusi? Langit mungkin menjadi batasnya. Para peneliti telah menerapkannya untuk menghasilkan video, mengompresi gambar, dan mensintesis ucapan. Itu tidak berarti difusi pada akhirnya tidak akan diganti dengan teknik pembelajaran mesin yang lebih efisien dan lebih berkinerja, seperti GAN dengan difusi. Tapi itu arsitektur du jour karena suatu alasan; difusi bukanlah apa-apa jika tidak serbaguna.