[มากกว่าลิปซิงค์] จากตัวอักษรสู่ภาพนิ่ง จากภาพนิ่งสู่ภาพเคลื่อน และอีกสารพัดที่เป็นไปได้ด้วย AI ล่าสุดมาใหม่ สามารถสร้างคลิปวิดีโอด้วยการนำภาพนิ่งบุคคลและไฟล์เสียงรวมกัน จนสร้างเป็นคลิป MV หรือคนกำลังร้องเพลง ไม่ก็พูดเป็นภาษาอื่นตามไฟล์เสียงที่มีได้
Microsoft เปิดตัว VASA-1 เครื่องมือ AI ใหม่ สร้างคลิปจากภาพนิ่งและไฟล์เสียงได้อย่างง่าย ๆ โดยสามารถนำภาพใบหน้าของบุคคล มาแปลงให้เป็นภาพเคลื่อน และพูดหรือร้องเพลงตามไฟล์เสียงที่ใช้ และยังปรับริมฝีปากให้เข้ากับคำพูดหรือเพลงที่ใช่ได้อีกด้วย
เช่น นำภาพ ‘โมนาลิซ่า’ มาใส่กับเพลงแร็พ แต่ใช้เสียงของ Anne Hathaway ก็ได้เป็นภาพโมนาลิซ่ากำลังแร็ปแบบใส่อารมณ์เต็มที่ โดยขยับปากได้ตรงกับเสียงเป๊ะ ๆ
อย่างไรก็ตาม ตัว AI ยังอยู่ระหว่างพัฒนาและดูเรื่องมาตรการควบคุมผู้ใช้ สืบเนื่องจากเครื่องมือนี้ สามารถนำไปใช้ในทางที่ผิด สร้างเป็นคลิปวิดีโอ Deepfake ได้ง่ายมาก จึงยังไม่มีแม้แต่ API ออกมา จนกว่าจะแน่ใจว่าเทคโนโลยีนี้ จะถูกใช้อย่างมีความรับผิดชอบและเหมาะสม
สำหรับจุดประสงค์หลักของ VASA-1 นั้น ก็เพื่อเป็นเครื่องมือช่วยเหลือผู้ที่มีปัญหาด้านการสื่อสารได้ โดยอาจสร้างเป็น Avatar ช่วยสื่อสารแทนได้ หรือบอกเป็นนัย ๆ ด้วยว่า สามารถใช้สร้างตัวละคร AI ที่พูดคุยด้วยได้เหมือนมนุษย์ในอนาคต
ที่มา : Engadget