ข่าว

อาลีบาบา คลาวด์ เปิดตัว Qwen2.5-Omni-7B โมเดล AI มัลติโมดอล รองรับข้อมูลหลากหลายรูปแบบ

Published

1 ปี ago

1 เมษายน 2025

อาลีบาบา คลาวด์ เปิดตัว Qwen2.5-Omni-7B โมเดล AI มัลติโมดอล รุ่นใหม่ล่าสุด ประมวลผลข้อมูลได้หลากหลายรูปแบบ ทั้งข้อความ รูปภาพ เสียง และวิดีโอ ตอบสนองแบบเรียลไทม์ เหมาะสำหรับอุปกรณ์พกพา

สำนักข่าวบริคอินโฟ – อาลีบาบา คลาวด์ (Alibaba Cloud) ได้เปิดตัวโมเดลปัญญาประดิษฐ์ (AI) รุ่นล่าสุด Qwen2.5-Omni-7B ซึ่งเป็นโมเดลแบบมัลติโมดอล (multimodal model) ที่สามารถประมวลผลข้อมูลได้หลากหลายรูปแบบ ไม่ว่าจะเป็นข้อความ รูปภาพ เสียง และวิดีโอ โดยสามารถสร้างการตอบสนองได้ทั้งในรูปแบบข้อความและเสียงพูดแบบเรียลไทม์

โมเดล Qwen2.5-Omni-7B มีขนาดพารามิเตอร์ 7 พันล้านพารามิเตอร์ และได้รับการออกแบบมาให้สามารถใช้งานได้อย่างมีประสิทธิภาพบนอุปกรณ์ปลายทาง (edge devices) เช่น โทรศัพท์มือถือและแล็ปท็อป ทำให้สามารถนำไปประยุกต์ใช้ในแอปพลิเคชันที่หลากหลาย เช่น การช่วยเหลือผู้พิการทางสายตาด้วยการอธิบายสภาพแวดล้อมด้วยเสียงแบบเรียลไทม์ การให้คำแนะนำการทำอาหารโดยวิเคราะห์ส่วนผสมจากวิดีโอ หรือการให้บริการลูกค้าอัจฉริยะที่สามารถเข้าใจความต้องการของลูกค้าได้

อาลีบาบา คลาวด์ ได้เปิดให้ใช้งานโมเดล Qwen2.5-Omni-7B ในรูปแบบโอเพนซอร์สบนแพลตฟอร์ม Hugging Face และ GitHub รวมถึงผ่าน Qwen Chat และ ModelScope ซึ่งเป็นชุมชนโอเพนซอร์สของอาลีบาบา คลาวด์ โดยทางบริษัทได้เปิดตัวโมเดล Generative AI มากกว่า 200 โมเดลในรูปแบบโอเพนซอร์สในช่วงไม่กี่ปีที่ผ่านมา

โมเดล Qwen2.5-Omni-7B มีประสิทธิภาพที่โดดเด่นในทุกรูปแบบข้อมูล โดยมีประสิทธิภาพเทียบเท่ากับโมเดลแบบโหมดเดียว (single-modality models) ที่มีขนาดใกล้เคียงกัน โดยเฉพาะอย่างยิ่งในด้านการโต้ตอบด้วยเสียงแบบเรียลไทม์ การสร้างเสียงพูดที่เป็นธรรมชาติ และการทำตามคำสั่งเสียงแบบครบวงจร

ประสิทธิภาพของโมเดลนี้มาจากสถาปัตยกรรมที่ล้ำสมัย ซึ่งรวมถึง Thinker-Talker Architecture ที่แยกการสร้างข้อความและการสังเคราะห์เสียงออกจากกัน TMRoPE (Time-aligned Multimodal RoPE) ซึ่งเป็นเทคนิคการฝังตำแหน่งเพื่อซิงโครไนซ์อินพุตวิดีโอด้วยเสียง และ Block-wise Streaming Processing ที่ช่วยให้การตอบสนองด้วยเสียงมีความรวดเร็วและหน่วงต่ำ

โมเดล Qwen2.5-Omni-7B ได้รับการฝึกฝนล่วงหน้าด้วยชุดข้อมูลที่หลากหลายเพื่อให้สามารถทำงานกับข้อมูลทุกรูปแบบได้อย่างมีประสิทธิภาพ โดยมีประสิทธิภาพเทียบเท่ากับการป้อนข้อมูลเป็นข้อความล้วน ๆ ในงานที่เกี่ยวข้องกับข้อมูลหลายรูปแบบ

นอกจากนี้ โมเดล Qwen2.5-Omni-7B ยังมีความสามารถในการสร้างคำพูดที่ยอดเยี่ยม และสามารถสร้างคำพูดผ่านการเรียนรู้เชิงบริบท (in-context learning: ICL) ได้อย่างมีประสิทธิภาพ หลังจากได้รับการเสริมประสิทธิภาพด้วยการเรียนรู้แบบเสริมกำลัง (reinforcement learning: RL) โมเดลนี้แสดงให้เห็นถึงความเสถียรในการสร้างคำพูดที่เพิ่มขึ้นอย่างมาก

อาลีบาบา คลาวด์ ได้เปิดตัวโมเดล Qwen2.5 ในเดือนกันยายน พ.ศ. 2567 และ Qwen2.5-Max ในเดือนมกราคม พ.ศ. 2568 และได้รับการจัดอันดับที่ 7 บน Chatbot Arena นอกจากนี้ บริษัทยังได้เปิดตัว Qwen2.5-VL และ Qwen2.5-1M เพื่อรองรับการทำความเข้าใจภาพและจัดการกับข้อมูลบริบทที่ยาวขึ้น