Make-A-Video AI dari Meta mencapai seni baru yang mengerikan • gerakanpintar.com

Peneliti Meta telah membuat lompatan signifikan dalam bidang generasi seni AI dengan Make-A-Video, teknik baru yang dinamai secara kreatif untuk — Anda dapat menebaknya — membuat video dari apa pun kecuali prompt teks. Hasilnya mengesankan dan bervariasi, dan semuanya, tanpa pengecualian, sedikit menyeramkan.

Kami telah melihat model teks-ke-video sebelumnya — ini adalah perpanjangan alami dari model teks-ke-gambar seperti DALL-E, yang menampilkan gambar diam dari perintah. Tapi sementara lompatan konseptual dari gambar diam ke gambar bergerak kecil untuk pikiran manusia, itu jauh dari sepele untuk diterapkan dalam model pembelajaran mesin.

Make-A-Video sebenarnya tidak banyak mengubah permainan di bagian belakang — seperti yang dicatat oleh para peneliti di makalah yang menjelaskannya, “model yang hanya melihat teks yang menggambarkan gambar ternyata sangat efektif dalam menghasilkan video pendek.”

AI menggunakan teknik difusi yang ada dan efektif untuk membuat gambar, yang pada dasarnya bekerja mundur dari statis visual murni, “denoising” menuju prompt target. Apa yang ditambahkan di sini adalah bahwa model tersebut juga diberikan pelatihan tanpa pengawasan (artinya, ia memeriksa data itu sendiri tanpa bimbingan yang kuat dari manusia) pada sekumpulan konten video yang tidak berlabel.

Yang diketahui dari pertama adalah bagaimana membuat gambar yang realistis; apa yang diketahui dari yang kedua adalah seperti apa tampilan frame berurutan dari video. Hebatnya, ia mampu menyatukan ini dengan sangat efektif tanpa pelatihan khusus tentang bagaimana mereka harus digabungkan.

“Dalam semua aspek, resolusi spasial dan temporal, kesetiaan pada teks, dan kualitas, Make-A-Video menetapkan yang baru dalam generasi teks-ke-video, sebagaimana ditentukan oleh ukuran kualitatif dan kuantitatif,” tulis para peneliti.

Sulit untuk tidak setuju. Sistem teks-ke-video sebelumnya menggunakan pendekatan yang berbeda dan hasilnya tidak mengesankan tetapi menjanjikan. Sekarang Make-A-Video membuat mereka keluar dari air, mencapai ketepatan yang sejalan dengan gambar dari mungkin 18 bulan yang lalu di DALL-E asli atau sistem generasi sebelumnya lainnya.

Tetapi harus dikatakan: pasti masih ada sesuatu yang aneh tentang mereka. Bukan berarti kita harus mengharapkan fotorealisme atau gerakan alami yang sempurna, tetapi hasilnya semua memiliki semacam… yah, tidak ada kata lain untuk itu: mereka sedikit mengerikanbukan?

Kredit Gambar: Meta

Kredit Gambar: Meta

Hanya ada beberapa kualitas buruk bagi mereka yang seperti mimpi dan mengerikan. Kualitas gerakannya aneh, seperti film stop-motion. Korupsi dan artefak memberi setiap bagian perasaan berbulu dan surealis, seperti benda-benda bocor. Orang-orang berbaur satu sama lain — tidak ada pemahaman tentang batas-batas objek atau apa yang harus diakhiri atau dihubungi.

Kredit Gambar: Meta

Kredit Gambar: Meta

Saya tidak mengatakan semua ini sebagai semacam AI sombong yang hanya menginginkan citra realistis definisi tinggi terbaik. Saya hanya berpikir itu menarik bahwa betapapun realistisnya video-video ini di satu sisi, semuanya sangat aneh dan tidak menyenangkan bagi orang lain. Bahwa mereka dapat dihasilkan dengan cepat dan sewenang-wenang itu luar biasa — dan itu hanya akan menjadi lebih baik. Tetapi bahkan generator gambar terbaik pun masih memiliki kualitas nyata yang sulit untuk Anda gunakan.

Make-A-Video juga memungkinkan untuk mengubah gambar diam dan video lain menjadi varian atau ekstensi daripadanya, seperti halnya generator gambar juga dapat diminta dengan gambar itu sendiri. Hasilnya sedikit kurang mengganggu.

Ini benar-benar merupakan langkah besar dari apa yang ada sebelumnya, dan tim harus diberi selamat. Ini belum tersedia untuk umum, tetapi Anda dapat mendaftar di sini untuk mendapatkan daftar bentuk akses apa pun yang mereka putuskan nanti.