เปิดตัว AI ใหม่จาก Nvidia สังเคราะห์เสียงที่ไม่เคยมีมาก่อนได้

[เสียงสังเคราะห์] อาจเป็นเครื่องมือชั้นเยี่ยมสำหรับนักแต่งเพลง หลัง Nvidia ได้เปิดตัว “Fugatto” โมเดล AI ตัวใหม่ เผยสามารถสังเคราะห์เสียงพูด เสียงร้อง เสียงเครื่องดนตรี หรือทำนองเพลงในแบบต่าง ๆ ได้อย่างเป็นธรรมชาติมากที่สุด

จากเดิมที่ใช้ข้อความ (Prompt) เพียงอย่างเดียวในการสร้างเสียงต่าง ๆ ตามที่เคยใช้ในหลาย ๆ บริการ AI ทางด้าน Nvidia ได้ก้าวไปอีกขั้น ด้วยการเปิดตัว Fugatto สามารถใช้ Prompt สร้างเสียงสังเคราะห์ได้เหมือนกัน แต่เบื้องหลังต่างกัน และได้ผลลัพธ์ที่ดีกว่าด้วย

นักวิจัยของ Nvidia เผยตัวโมเดลใช้เทคนิคการฝึกแบบสังเคราะห์ใหม่ โดยมีการผสมผสานข้อมูลต่าง ๆ ในระดับอนุมาน จนสามารถสังเคราะห์เสียงที่ไม่เคยมีมาก่อนได้ อย่างไรก็ตาม ตัวโมเดลมีความยากลำบากในการสร้างชุดข้อมูลเพื่อ ‘ฝึก’ หรือเทรนตัวโมเดลดังกล่าวมาก

โดยขั้นแรก ทางนักวิจัยได้ใช้ LLM เพื่อสร้างสคริปต์ Python ที่สามารถสร้างคำสั่งตามเทมเพลต และรูปแบบต่าง ๆ ที่อธิบายบุคลิกของเสียงต่าง ๆ ได้เลย จากนั้นก็สร้างงชุดคำสั่งทั้งแบบสัมบูรณ์และแบบสัมพันธ์กัน เช่น “synthesize a happy voice” สั่งให้สร้างเสียงพูดสังเคราะห์ที่พูดด้วยอารมณ์ที่มีความสุข และ “increase the happiness of this voice” สั่งให้เพิ่มอารมณ์ให้มากยิ่งขึ้นอีกก็ยังได้

เรียกได้ว่า Fugatto จะเน้นที่ความเข้าใจในข้อมูลเสียงที่มี และเข้าใจคำอธิบายภาษาที่วัดลักษณะเสียงเฉพาะต่าง ๆ ได้เลย เช่น อารมณ์ และคุณภาพของการพูดได้โดยอัตโนมัติ ต่างจากการดึงชุดข้อมูลเสียงแบบเดิม อีกทั้งตัวโมเดลจะเริ่มเรียนรู้เลยว่า ลักษณะเสียงแบบใดที่มักจะปรากฏในคำพูดที่ “มีความสุข” มากกว่า

ดูข้อมูลเบื้องหลังเพิ่มเติมได้ที่ FUGATTO.pdf

ด้วยเบื้องหลังดังกล่าว ก็ส่งผลให้ Fugatto สามารถสร้างเสียงสังเคราะห์ได้เป็นธรรมชาติ และแม่นยำว่าโมเดล AI ทั่ว ๆ ไป ถึงขั้นที่แยกเสียงแซกโซโฟนกับขลุ่ยออกจากกันได้ หรือนำไฟล์เสียงเปียโนสั้น ๆ มาแปลงให้เป็นเสียงผู้หญิงร้องเพลงแนวโอเปร่าได้เหมือนจริงมาก ๆ ก็ยังได้

ท้ายนี้ตัว Fugatto ยังไม่เปิดให้ทดสอบสาธารณะ แต่ก็มีเว็บไซต์แสดงตัวอย่างการใช้ไว้มากมายแทน ใครอยากรู้ว่าโมเดลดังกล่าวมันสร้างเสียงได้เป็นธรรมชาติมากแค่ไหน ลองดูเพิ่มเติมได้ที่ https://fugatto.github.io/

ที่มา : Arstechnica