ข่าว
อาลีบาบาเปิดตัว Wan2.2-S2V โมเดลสร้างวิดีโอดิจิทัลฮิวแมน จากภาพนิ่งและไฟล์เสียง
สำนักข่าวบริคอินโฟ – อาลีบาบา (Alibaba) ประกาศเปิดตัวโมเดลโอเพนซอร์สล่าสุด Wan2.2-S2V ซึ่งเป็นโมเดลที่พัฒนาขึ้นเพื่อสร้างวิดีโอดิจิทัลฮิวแมน (digital human video) โดยเฉพาะ โดยโมเดลนี้สามารถเปลี่ยนภาพถ่ายบุคคลให้กลายเป็นอวาตาร์เสมือนจริงที่สามารถพูด, ร้องเพลง และแสดงท่าทางได้ โมเดล Wan2.2-S2V เป็นส่วนหนึ่งของชุดโมเดลสร้างวิดีโอ Wan2.2 ของอาลีบาบา ที่สามารถสร้างวิดีโอแอนิเมชันคุณภาพสูงได้จากเพียงภาพถ่ายและคลิปเสียงเดียว
โมเดล Wan2.2-S2V มีความสามารถในการสร้างแอนิเมชันตัวละครที่หลากหลาย รองรับการสร้างวิดีโอได้หลายมุมมอง ไม่ว่าจะเป็นแบบพอร์ตเทรต, ครึ่งตัว หรือเต็มตัว อีกทั้งยังสามารถสร้างการเคลื่อนไหวของตัวละครและองค์ประกอบแวดล้อมได้ตามคำสั่งที่กำหนดไว้ ทำให้ผู้สร้างคอนเทนต์สามารถสร้างวิดีโอที่แม่นยำและตรงตามเรื่องราวที่ต้องการ
นอกจากนี้ โมเดลยังสามารถสร้างตัวละครที่แสดงได้อย่างสมจริง ตั้งแต่บทสนทนาที่เป็นธรรมชาติไปจนถึงการแสดงดนตรี ซึ่งอาศัยเทคโนโลยีแอนิเมชันที่ขับเคลื่อนด้วยเสียงที่มีประสิทธิภาพสูง อีกทั้งยังสามารถจัดการตัวละครหลายตัวภายในฉากได้อย่างราบรื่น และรองรับอวาตาร์ที่หลากหลาย ตั้งแต่การ์ตูน, สัตว์ ไปจนถึงตัวละครที่มีสไตล์เฉพาะตัว
สำหรับรายละเอียดเชิงเทคนิค Wan2.2-S2V มีประสิทธิภาพเหนือกว่าแอนิเมชันแบบ talking-head ทั่วไป ด้วยการผสมผสานการควบคุมการเคลื่อนไหวหลักด้วยข้อความ และการเคลื่อนไหวเฉพาะจุดที่ละเอียดด้วยข้อมูลจากเสียง ทำให้ตัวละครเคลื่อนไหวได้อย่างเป็นธรรมชาติและสื่ออารมณ์ได้ลึกซึ้ง ทีมวิจัยของอาลีบาบาได้สร้างชุดข้อมูลภาพและเสียงขนาดใหญ่เพื่อฝึกฝนโมเดลนี้โดยเฉพาะ ซึ่งครอบคลุมการใช้งานสำหรับภาพยนตร์และรายการโทรทัศน์ และสามารถรองรับการสร้างวิดีโอได้หลายรูปแบบ ไม่ว่าจะเป็นวิดีโอสั้นแนวตั้ง หรือวิดีโอแนวนอนสำหรับงานโปรดักชันขนาดใหญ่
ปัจจุบันโมเดล Wan2.2-S2V พร้อมให้ดาวน์โหลดแล้วบน Hugging Face, GitHub และ ModelScope ซึ่งเป็นคอมมูนิตี้โอเพนซอร์สของอาลีบาบา คลาวด์ ทั้งนี้ อาลิบาบาได้เปิดโอเพนซอร์สโมเดล Wan2.1 ไปเมื่อเดือนกุมภาพันธ์ 2568 และโมเดล Wan2.2 ในเดือนกรกฎาคมที่ผ่านมา ซึ่งโมเดลในซีรีส์ Wan มียอดดาวน์โหลดรวมกว่า 6.9 ล้านครั้งแล้วบนแพลตฟอร์มต่าง ๆ
