Connect with us

ข่าว

อาลีบาบาเปิดตัว Wan2.2 โมเดลสร้างวิดีโอแบบโอเพนซอร์ส ชูจุดเด่นสถาปัตยกรรม MoE ยกระดับคุณภาพระดับภาพยนตร์

Published

on

Alibaba Cloud, อาลีบาบา คลาวด์

สำนักข่าวบริคอินโฟ – อาลีบาบา (Alibaba) ประกาศเปิดตัว Wan2.2 โมเดลสร้างวิดีโอแบบโอเพนซอร์ส (open-source) รุ่นใหม่ ซึ่งถือเป็นโมเดลแรกในอุตสาหกรรมที่ใช้สถาปัตยกรรม MoE (Mixture-of-Experts) โดยมีเป้าหมายเพื่อช่วยให้ครีเอเตอร์และนักพัฒนาสามารถสร้างสรรค์วิดีโอคุณภาพสูงระดับภาพยนตร์ได้ง่ายขึ้นด้วยการคลิกเพียงครั้งเดียว โมเดลใหม่นี้ได้รับการฝึกฝนด้วยชุดข้อมูลที่ใหญ่ขึ้นอย่างมาก ทำให้มีความสามารถในการสร้างฉากและการเคลื่อนไหวที่ซับซ้อนได้อย่างโดดเด่น

Wan2.2 เป็นไฮบริดโมเดลที่รองรับการสร้างวิดีโอทั้งจากข้อความ (text-to-video) และจากภาพ (image-to-video) ภายใต้เฟรมเวิร์กเดียวกัน ประกอบด้วยโมเดลย่อยสามตัว ได้แก่ Wan2.2-T2V-A14B สำหรับแปลงข้อความเป็นวิดีโอ และ Wan2.2-I2V-A14B รวมถึง Wan2.2-TI2V-5B สำหรับแปลงภาพเป็นวิดีโอ โดยเฉพาะ Wan2.2-T2V-A14B และ Wan2.2-I2V-A14B ที่สร้างขึ้นบนสถาปัตยกรรม MoE (Mixture-of-Experts) ได้รับการฝึกฝนด้วยข้อมูลภาพที่คัดสรรมาอย่างพิถีพิถัน ทำให้สามารถผลิตวิดีโอที่มีคุณภาพระดับภาพยนตร์ได้ และยังช่วยให้ผู้ใช้งานสามารถควบคุมองค์ประกอบสำคัญ เช่น แสง สี มุมกล้อง และองค์ประกอบอื่น ๆ ได้อย่างละเอียด

สถาปัตยกรรม MoE ที่ใช้ในโมเดลนี้ยังช่วยแก้ปัญหาด้านการใช้ทรัพยากรการประมวลผลสูง โดยใช้การออกแบบแบบ two-expert ในกระบวนการลดเสียงรบกวน (diffusion model) ประกอบด้วย high-noise expert ที่เน้นโครงสร้างภาพรวมของฉาก และ low-noise expert ที่เน้นการปรับแต่งรายละเอียดและพื้นผิว แม้ว่าโมเดลจะมีพารามิเตอร์รวม 27 พันล้านพารามิเตอร์ แต่ในแต่ละขั้นตอนจะมีการเปิดใช้งานเพียง 14 พันล้านพารามิเตอร์เท่านั้น ทำให้สามารถลดการใช้ทรัพยากรการประมวลผลลงได้ถึง 50% นอกจากนี้ Wan2.2 ยังรองรับการปรับแต่งผ่านระบบพรอมต์ (prompt) ที่ได้รับแรงบันดาลใจจากงานภาพยนตร์ ซึ่งช่วยให้โมเดลสามารถตีความและสร้างสรรค์ผลงานตามความต้องการของผู้ใช้งานได้อย่างแม่นยำ

Wan2.2 ยังมาพร้อมกับ Wan2.2-TI2V-5B ซึ่งเป็นโมเดลขนาดกะทัดรัด (dense model) ที่ใช้สถาปัตยกรรม 3D VAE เพื่อเพิ่มประสิทธิภาพในการบีบอัดข้อมูล ทำให้สามารถสร้างวิดีโอความยาว 5 วินาที ที่ความละเอียด 720P ได้ในเวลาไม่กี่นาทีบน GPU ระดับผู้ใช้งานทั่วไปเพียงตัวเดียว เป็นการเปิดโอกาสให้ครีเอเตอร์และนักพัฒนาสามารถสร้างสรรค์วิดีโอได้อย่างมีประสิทธิภาพและสามารถปรับขนาดได้ตามความต้องการ

Advertisement

ปัจจุบัน โมเดล Wan2.2 พร้อมให้ดาวน์โหลดแล้วบน Hugging Face และ GitHub รวมถึงบน ModelScope ซึ่งเป็นแพลตฟอร์มโอเพนซอร์สของ Alibaba Cloud (อาลีบาบา คลาวด์) ทั้งนี้ อาลีบาบาเป็นหนึ่งในผู้มีส่วนร่วมสำคัญในชุมชนโอเพนซอร์สระดับโลก โดยก่อนหน้านี้ได้มีการเปิดตัวโมเดล Wan2.1 และ Wan 2.1-VACE ไปแล้ว ซึ่งมียอดดาวน์โหลดรวมกันมากกว่า 5.4 ล้านครั้ง

Continue Reading
Advertisement