QuickVid menggunakan AI untuk membuat video pendek, lengkap dengan sulih suara • gerakanpintar.com

AI generatif akan datang untuk video. Situs web baru, QuickVid, menggabungkan beberapa sistem AI generatif menjadi satu alat untuk secara otomatis membuat video pendek YouTube, Instagram, TikTok, dan Snapchat.

Diberikan sesedikit satu kata, QuickVid memilih video latar belakang dari perpustakaan, menulis skrip dan kata kunci, melapisi gambar yang dihasilkan oleh DALL-E 2 dan menambahkan sulih suara sintetis dan musik latar dari perpustakaan musik bebas royalti YouTube. Pembuat QuickVid, Daniel Habib, mengatakan bahwa dia sedang membangun layanan untuk membantu pembuat konten memenuhi permintaan yang “terus berkembang” dari penggemar mereka.

“Dengan menyediakan pembuat alat untuk menghasilkan konten berkualitas dengan cepat dan mudah, QuickVid membantu pembuat konten meningkatkan hasil konten mereka, mengurangi risiko kelelahan,” kata Habib kepada gerakanpintar.com dalam wawancara email. “Tujuan kami adalah memberdayakan kreator favorit Anda untuk memenuhi tuntutan audiens mereka dengan memanfaatkan kemajuan AI.”

Tetapi tergantung pada bagaimana mereka digunakan, alat seperti QuickVid mengancam untuk membanjiri saluran yang sudah ramai dengan konten spam dan duplikasi. Mereka juga menghadapi potensi serangan balik dari pembuat yang memilih untuk tidak menggunakan alat tersebut, baik karena biaya ($10 per bulan) atau karena prinsip, namun mungkin harus bersaing dengan rakit video baru yang dihasilkan AI.

Mengejar video

QuickVid, yang dibangun Habib, pengembang otodidak yang sebelumnya bekerja di Meta di Facebook Live dan video, dalam hitungan minggu, diluncurkan pada 27 Desember. Januari — tetapi QuickVid dapat mengombinasikan komponen-komponen yang membentuk video YouTube Short atau TikTok yang informatif, termasuk teks dan bahkan avatar.

Mudah digunakan. Pertama, pengguna memasukkan prompt yang menjelaskan pokok bahasan video yang ingin mereka buat. QuickVid menggunakan prompt untuk membuat skrip, memanfaatkan kekuatan teks generatif GPT-3. Dari kata kunci yang diekstraksi dari skrip secara otomatis atau dimasukkan secara manual, QuickVid memilih video latar belakang dari pustaka media stok bebas royalti Pexels dan menghasilkan gambar overlay menggunakan DALL-E 2. Kemudian menghasilkan sulih suara melalui API text-to-speech Google Cloud — Habib mengatakan bahwa pengguna akan segera dapat mengkloning suara mereka — sebelum menggabungkan semua elemen ini ke dalam video.

QuickVid

Kredit Gambar: QuickVid

Lihat video ini dibuat dengan prompt “Cats”:

Atau yang ini:

QuickVid jelas tidak mendorong batas dari apa yang mungkin dilakukan dengan AI generatif. Baik Meta dan Google telah memamerkan sistem AI yang dapat menghasilkan klip yang benar-benar orisinal dengan prompt teks. Tetapi QuickVid menggabungkan AI yang sudah ada untuk mengeksploitasi format video bentuk pendek berat B-roll yang berulang dan templated, mengatasi masalah keharusan membuat rekaman itu sendiri.

“Kreator yang sukses memiliki standar kualitas yang sangat tinggi dan tidak tertarik untuk menampilkan konten yang menurut mereka tidak mewakili suara mereka sendiri,” kata Habib. “Ini adalah kasus penggunaan yang menjadi fokus kami.”

Konon, dalam hal kualitas, video QuickVid umumnya beragam. Video latar belakang cenderung agak acak atau hanya terkait secara tangensial dengan topik, yang tidak mengherankan mengingat QuickVids saat ini terbatas pada katalog Pexels. Gambar yang dihasilkan DALL-E 2, sementara itu, menunjukkan keterbatasan teknologi teks-ke-gambar saat ini, seperti teks yang kacau dan proporsi yang salah.

Menanggapi umpan balik saya, Habib mengatakan bahwa QuickVid “sedang diuji dan diutak-atik setiap hari”.

Isu hak cipta

Menurut Habib, pengguna QuickVid memiliki hak untuk menggunakan konten yang mereka buat secara komersial dan memiliki izin untuk memonetisasinya di platform seperti YouTube. Tapi status hak cipta seputar konten yang dihasilkan AI … samar-samar, setidaknya untuk saat ini. Kantor Paten dan Merek Dagang AS (USPTO) baru-baru ini bergerak untuk mencabut perlindungan hak cipta untuk komik buatan AI, misalnya, dengan mengatakan bahwa karya berhak cipta memerlukan kepenulisan manusia.

Ketika ditanya tentang bagaimana keputusan USPTO dapat memengaruhi QuickVid, Habib mengatakan dia percaya bahwa itu hanya berkaitan dengan “paten” produk yang dihasilkan AI dan bukan hak pembuat konten untuk menggunakan dan memonetisasi konten mereka. Kreator, jelasnya, jarang mengirimkan paten untuk video dan biasanya bersandar pada ekonomi kreator, membiarkan kreator lain menggunakan kembali klip mereka untuk meningkatkan jangkauan mereka sendiri.

“Kreator sangat peduli untuk menampilkan konten berkualitas tinggi dalam suara mereka yang akan membantu mengembangkan saluran mereka,” kata Habib.

Tantangan hukum lain di cakrawala mungkin memengaruhi integrasi DALL-E 2 QuickVid — dan, selanjutnya, kemampuan situs untuk menghasilkan overlay gambar. Microsoft, GitHub, dan OpenAI dituntut dalam gugatan class action yang menuduh mereka melanggar undang-undang hak cipta dengan mengizinkan Copilot, sistem penghasil kode, untuk memuntahkan bagian kode berlisensi tanpa memberikan kredit. (Copilot dikembangkan bersama oleh OpenAI dan GitHub, yang dimiliki Microsoft.) Kasus ini berimplikasi pada AI seni generatif seperti DALL-E 2, yang juga ditemukan menyalin dan menempel dari kumpulan data tempat mereka dilatih (yaitu, gambar-gambar).

Habib tidak peduli, dengan alasan jin AI generatif sudah keluar dari botol. “Jika gugatan lain muncul dan OpenAI menghilang besok, ada beberapa alternatif yang dapat mendukung QuickVid,” katanya, mengacu pada sistem Stable Diffusion mirip DALL-E 2 open source. QuickVid sudah menguji Stable Diffusion untuk menghasilkan gambar avatar.

Moderasi dan spam

Selain dilema hukum, QuickVid mungkin akan segera menghadapi masalah moderasi. Sementara OpenAI telah menerapkan filter dan teknik untuk mencegahnya, AI generatif memiliki masalah toksisitas dan akurasi faktual yang terkenal. GPT-3 menyebarkan informasi yang salah, terutama tentang peristiwa terkini, yang berada di luar batas basis pengetahuannya. Dan ChatGPT, keturunan GPT-3 yang disetel dengan baik, telah terbukti menggunakan bahasa seksis dan rasis.

Itu mengkhawatirkan, terutama bagi orang yang menggunakan QuickVid untuk membuat video informasi. Dalam tes cepat, saya meminta pasangan saya — yang jauh lebih kreatif daripada saya, terutama di bidang ini — memasukkan beberapa petunjuk ofensif untuk melihat apa yang akan dihasilkan QuickVid. Untuk pujian QuickVid, petunjuk yang jelas bermasalah seperti “tatanan dunia baru Yahudi” dan “teori konspirasi 9/11” tidak menghasilkan skrip beracun. Tetapi untuk “Teori ras kritis yang mengindoktrinasi siswa”, QuickVid membuat video yang menyiratkan bahwa teori ras kritis dapat digunakan untuk mencuci otak anak sekolah.

Melihat:

QuickVid

Habib mengatakan bahwa dia mengandalkan filter OpenAI untuk melakukan sebagian besar pekerjaan moderasi dan menegaskan bahwa pengguna berkewajiban untuk meninjau secara manual setiap video yang dibuat oleh QuickVid untuk memastikan “semuanya berada dalam batas-batas hukum.”

“Sebagai aturan umum, saya percaya orang harus bisa mengekspresikan diri dan membuat konten apapun yang mereka inginkan,” kata Habib.

Itu ternyata termasuk konten spam. Habib menyatakan bahwa algoritme platform video, bukan QuickVid, berada pada posisi terbaik untuk menentukan kualitas video, dan bahwa orang yang menghasilkan konten berkualitas rendah “hanya merusak reputasi mereka sendiri”. Kerusakan reputasi secara alami akan membuat orang enggan membuat kampanye spam massal dengan QuickVid, katanya.

“Jika orang tidak mau menonton video Anda, maka Anda tidak akan menerima distribusi di platform seperti YouTube,” tambahnya. “Memproduksi konten berkualitas rendah juga akan membuat orang memandang saluran Anda secara negatif.”

Tetapi sangat bermanfaat untuk melihat biro iklan seperti Fractl, yang pada tahun 2019 menggunakan sistem AI yang disebut Grover untuk menghasilkan seluruh situs materi pemasaran — terkutuklah reputasinya. Dalam sebuah wawancara dengan The Verge, mitra Fractl Kristin Tynski mengatakan bahwa dia meramalkan AI generatif memungkinkan “tsunami besar konten yang dihasilkan komputer di setiap ceruk yang bisa dibayangkan.”

Bagaimanapun, platform berbagi video seperti TikTok dan YouTube tidak harus bersaing dengan memoderasi konten buatan AI dalam skala besar. Deepfakes — video sintetik yang menggantikan orang yang ada dengan kemiripan orang lain — mulai mengisi platform seperti YouTube beberapa tahun lalu, didorong oleh alat yang membuat rekaman deepfake lebih mudah diproduksi. Tetapi tidak seperti deepfake yang paling meyakinkan saat ini, jenis video yang dibuat QuickVid jelas tidak dihasilkan oleh AI sama sekali.

Kebijakan Google Penelusuran tentang teks yang dihasilkan AI mungkin merupakan pratinjau dari apa yang akan hadir di domain video. Google tidak memperlakukan teks sintetik secara berbeda dari teks tulisan manusia terkait dengan peringkat pencarian, tetapi mengambil tindakan pada konten yang “dimaksudkan untuk memanipulasi peringkat pencarian dan tidak membantu pengguna”. Itu termasuk konten yang digabungkan atau digabungkan dari halaman web berbeda yang “[doesn’t] tambahkan nilai yang memadai” serta konten yang dihasilkan melalui proses otomatis murni, yang keduanya mungkin berlaku untuk QuickVid.

Dengan kata lain, video yang dihasilkan oleh AI mungkin tidak langsung dilarang dari platform jika mereka diluncurkan secara besar-besaran, tetapi hanya menjadi biaya untuk melakukan bisnis. Itu tidak mungkin menghilangkan ketakutan para ahli yang percaya bahwa platform seperti TikTok menjadi rumah baru untuk video yang menyesatkan, tetapi – seperti yang dikatakan Habib selama wawancara – “tidak ada yang menghentikan revolusi AI generatif.”

By Sudiati

Related Post