NVIDIA เตรียมโชว์เทคโนโลยี Perfusion หรือ AI สำหรับ text-to-image ตัวใหม่ในงาน SIGGRAPH 2023
NIVIDIA ให้ข้อมูลเบื้องต้นว่า Perfusion จะใช้หลักการที่เรียก Key-Locking เป็นเสมือนแมปนำทางให้ AI สร้างสรรค์ภาพต่าง ๆ ได้ตรงใจผู้ใช้ง่ายขึ้น
ถ้าให้อธิบาย Key-Locking ง่าย ๆ คือ มันจะใช้ลักษณะการ “ล็อค Text” ที่เป็นคีย์หลักของภาพตัวอย่างที่เราอัปโหลดให้ AI เรียนรู้ ยกตัวอย่างเช่น หากเรามีภาพตัวอย่างที่มีภาพ “หมี” อยู่ในนั้น แล้ว AI หรือ เรากำหนดว่ามันคือ “หมี Teddy” เราสามารถเอาคำว่า Teddy มา collabs กับสิ่งอื่น ๆ ได้ง่าย ทั้ง “A Teddy dressed like a Wizard” หรือ “A teddy sitting by the fire with a teapot”
ซึ่ง Perfusion จะล็อคคำว่า Teddy ไว้ พร้อมกับเอา “หมี Teddy” ที่มีในภาพตัวอย่างไปในใส่ภาพที่ Generate ขึ้นเท่านั้น ไม่ได้ไปเอา Teddy หมีพี้กัญชาในเรื่อง “Ted” หรือหมีอื่น ๆ มาใช้ประกอบในภาพ เหมือนกับ AI ตัวที่มีอยู่ในปัจจุบันครับ ซึ่งจะทำให้เราได้ภาพตามคอนเซ็ปต์ในใจเราได้ง่ายขึ้น
นอกจากนี้ ยังสามารถกำหนดคีย์เวิร์ด และภาพตัวอย่างได้มากกว่า 1 ภาพนะ ยกตัวอย่างเช่น เรามีภาพหมี Teddy 1 ภาพ และภาพ Sunglasses (แว่นกันแดด) 1 ภาพ อัปโหลดให้ AI เรียนรู้ และกำหนดคีย์หลักคือ Teddy และ Sunglasses
จากนั้น เราสามารถใส่คำว่า “A Teddy is wearing the Sunglasses” เพื่อให้ AI Generate ภาพของหมีที่กำลังใส่แว่นกันแดดจากตัวอย่างภาพที่เราส่งไปได้ และนั่นก็ทำให้เราได้ภาพตามตรงตามคอนเซ็ปต์ของเราเช่นกัน
ทั้งนี้ รอดูของจริงกันได้ในงาน SIGGRAPH 2023 โดยจะจัดขึ้นระหว่างวันที่ 6 – 10 สิงหาคมนี้ที่ Los Angeles Convention Center ซึ่งน่าจะมีวีดีโอตัวอย่างหลุดมาให้ดูกันบ้างครับ
ที่มาข้อมูล
https://decrypt.co/150861/nvidia-ai-image-generator-floppy-disk-4-minutes