OpenAI Kenalkan Sora, AI Pembuat Video Berdasar Teks

Kompas.com - 16/02/2024, 08:00 WIB

Mikhaangelo Fabialdi Nurhapy,

Reska K. Nistanto

Tim Redaksi

Mikhaangelo Fabialdi Nurhapy

Penulis

Reska K. Nistanto

Editor

Lihat Foto

Tampilan video yang dibuat oleh model AI terbaru OpenAI, Sora.(OpenAI)

Sumber The Verge,OpenAI

KOMPAS.com - OpenAI, perusahaan pembuat chatbot ChatGPT, meluncurkan model kecerdasan buatan (artificial intelligence/AI) generatif terbarunya yang diberi nama "Sora", Jumat (16/2/2024).

Sora merupakan model AI generatif teks ke video (text-to-video AI). Jadi, Sora memiliki kegunaan yang sama seperti model AI Runway, Pika, Google Lumiere, serta Make-A-Video dari Meta.

Perbedaannya, Sora disebut bisa membuat video AI berdurasi hingga satu menit, sambil mempertahankan kualitas video dan mematuhi instruksi pengguna.

Sebagai perbandingan, Runway punya durasi video 18 detik, Pika berdurasi 14 detik, Google Lumiere berdurasi 5 detik, dan Make-A-Video Meta berdurasi 5 detik.

Secara konten, OpenAI mengeklaim Sora dapat menciptakan video yang kompleks dengan sejumlah karakter, jenis gerakan tertentu, gaya tertentu (animasi, video photorealistic, black and white, dll), serta detail subjek dan latar belakang yang akurat.

Sora juga memahami bahasa dengan baik, sehingga bisa menafsirkan objek dengan akurat dan menghasilkan karakter yang terasa hidup.

Model AI ini tidak hanya mengerti apa yang diminta pengguna, tetapi juga mengetahui bagaimana objek atau subjek dalam instruksi pengguna hadir dalam kehidupan nyata.

Kegunaan lainnya, Sora dapat memperpanjang klip video secara cerdas.

Adapun contoh video AI Sora bisa dilihat di posting media sosial X (dahulu Twitter) di bawah ini.

Introducing Sora, our text-to-video model.
Sora can create videos of up to 60 seconds featuring highly detailed scenes, complex camera motion, and multiple characters with vibrant emotions. https://t.co/7j2JN27M3W
Prompt: “Beautiful, snowy… pic.twitter.com/ruTEWn87vf
— OpenAI (@OpenAI) February 15, 2024

Perintah (prompt) dari pengguna meminta Sora untuk membuat video keramaian di kota Tokyo, Jepang, yang sedang diselimuti salju. Pengguna juga secara spesifik meminta pergerakan kamera yang mengikuti orang-orang di kota itu.

Hasilnya bisa dibilang cukup baik. Sora bisa menciptakan video yang terlihat nyata dan terasa hidup, dilengkapi dengan detail lainnya seperti mobil yang melewati jalan serta berbagai orang yang sedang melalui kota Tokyo.

Namun, jika diperhatikan lebih saksama, pengguna bisa melihat kejanggalan video AI tersebut. Contohnya pada detik 0:03 yang mana seorang pejalan kaki tampak menembus pagar, dan pada detik 0:13 ketika seseorang jatuh dan menghilang dari video.

Hal ini sejalan dengan pernyataan OpenAI seputar kelemahan Sora. Menurutnya, model AI ini kemungkinkan kesulitan untuk menyimulasikan hukum fisika dari adegan kompleks secara akurat. Sora juga mungkin tidak memahami hubungan sebab dan akibat.

Sora disebut kadang tidak dapat membedakan antara kiri dan kanan, dan mungkin kesulitan dengan deskripsi yang mendetail terkait adegan yang terjadi seiring waktu, contohnya mengikuti lintasan kamera bak video Tokyo di atas.

"Misalnya, seseorang mungkin menggigit kue, tetapi setelah itu, kue tersebut mungkin tidak memiliki bekas gigitan," tulis perusahaan yang didirikan oleh Sam Altman itu lewat blog resminya.