ข่าว

เร้ดแฮทเปิดตัว Red Hat AI Inference Server หนุน Generative AI บน Hybrid Cloud

Published

1 ปี ago

5 มิถุนายน 2025

Red Hat AI Inference Server เปิดตัวแล้ว เพื่อปลดล็อกการใช้งาน Generative AI บน Hybrid Cloud ด้วย vLLM และเทคโนโลยี Neural Magic มอบการอนุมาน AI ที่เร็วขึ้น ประสิทธิภาพสูง และคุ้มค่า เหมาะสำหรับองค์กรที่ต้องการใช้ AI อย่างมีประสิทธิภาพ

สำนักข่าวบริคอินโฟ – เร้ดแฮท (Red Hat) ผู้ให้บริการโซลูชันโอเพนซอร์สชั้นนำ ได้ประกาศเปิดตัว Red Hat AI Inference Server ซึ่งเป็นก้าวสำคัญในการทำให้เทคโนโลยี Generative AI (Gen AI) สามารถใช้งานได้บนสภาพแวดล้อม ไฮบริดคลาวด์ (Hybrid Cloud) ได้อย่างกว้างขวาง โดยโซลูชันใหม่นี้เป็นส่วนหนึ่งของ Red Hat AI ที่พัฒนาขึ้นจากโปรเจกต์ vLLM community และได้รับการปรับปรุงประสิทธิภาพด้วยเทคโนโลยีของ Neural Magic เพื่อการอนุมาน AI ที่รวดเร็ว มีประสิทธิภาพ และคุ้มค่า

การอนุมาน (inference) ถือเป็นหัวใจสำคัญของการทำงานในระบบ AI ที่แปลงข้อมูลที่ผ่านการฝึกฝนแล้วให้กลายเป็นแอปพลิเคชันที่จับต้องได้ ซึ่งจำเป็นต้องมีการตอบสนองที่รวดเร็วและแม่นยำ อย่างไรก็ตาม การเติบโตอย่างรวดเร็วของโมเดล Gen AI ทั้งในด้านขนาดและความซับซ้อน อาจทำให้การอนุมานกลายเป็นอุปสรรคที่สิ้นเปลืองทรัพยากรฮาร์ดแวร์ ส่งผลให้ประสิทธิภาพการตอบสนองลดลงและค่าใช้จ่ายในการดำเนินงานสูงขึ้น ด้วยเหตุนี้ การมีเซิร์ฟเวอร์สำหรับการอนุมานที่มีประสิทธิภาพจึงเป็นสิ่งจำเป็นอย่างยิ่งในการปลดล็อกศักยภาพของ AI อย่างแท้จริงและลดความซับซ้อนในการใช้งาน

Red Hat AI Inference Server ถูกพัฒนาขึ้นเพื่อตอบโจทย์ความท้าทายเหล่านี้ ด้วยการเป็นโซลูชันการอนุมานแบบโอเพนซอร์สที่เน้นประสิทธิภาพสูง พร้อมด้วยเครื่องมือบีบอัดและเพิ่มประสิทธิภาพโมเดลที่มีประสิทธิภาพสูง นวัตกรรมนี้ช่วยให้องค์กรต่าง ๆ สามารถใช้ประโยชน์จาก Gen AI ได้อย่างเต็มที่ มอบประสบการณ์การตอบสนองที่ดีขึ้นอย่างมากแก่ผู้ใช้งาน และให้อิสระในการเลือกใช้ AI accelerators โมเดล และสภาพแวดล้อมไอทีได้ตามความต้องการ

vLLM: นวัตกรรมการอนุมานสำหรับอนาคต

Red Hat AI Inference Server สร้างขึ้นจากโปรเจกต์ vLLM ซึ่งเป็นโปรเจกต์โอเพนซอร์สชั้นนำที่พัฒนาโดย University of California, Berkeley ตั้งแต่กลางปี 2566 โปรเจกต์นี้โดดเด่นในการมอบการอนุมาน Gen AI ที่มีปริมาณงานสูง รองรับอินพุตขนาดใหญ่ การเร่งความเร็วโมเดลด้วย multi-GPU และการแบทช์ต่อเนื่อง vLLM ได้รับการยอมรับอย่างกว้างขวางและรองรับโมเดลสาธารณะมากมาย เช่น DeepSeek, Gemma, Llama, Llama Nemotron, Mistral, Phi รวมถึงโมเดลการให้เหตุผลระดับองค์กรอย่าง Llama Nemotron ทำให้เป็นมาตรฐานที่ได้รับการยอมรับและใช้งานกันโดยทั่วไปสำหรับนวัตกรรมการอนุมาน AI ในอนาคต

การเปิดตัว Red Hat AI Inference Server

Red Hat AI Inference Server ผสานนวัตกรรมของ vLLM เข้ากับความสามารถระดับองค์กรของ Red Hat AI Inference Server โดยพร้อมใช้งานในรูปแบบคอนเทนเนอร์แบบสแตนด์อโลน หรือเป็นส่วนหนึ่งของ Red Hat Enterprise Linux AI (RHEL AI) และ Red Hat OpenShift AI

Red Hat AI Inference Server มอบการกระจาย vLLM ที่แข็งแกร่งและสามารถใช้งานได้กับทุกสภาพแวดล้อม โดยมีคุณสมบัติดังนี้:

Intelligent LLM compression tools เพื่อลดขนาดโครงสร้างพื้นฐานและปรับแต่งโมเดล AI อย่างละเอียด ลดการใช้การประมวลผลให้เหลือน้อยที่สุด โดยยังคงรักษาและเพิ่มความแม่นยำของโมเดลได้
พื้นที่เก็บข้อมูลโมเดลที่ปรับให้เหมาะสม ซึ่งโฮสต์อยู่ใน Red Hat AI organization บน Hugging Face ทำให้เข้าถึงคอลเลกชันของโมเดล AI ชั้นนำที่ผ่านการตรวจสอบและปรับให้เหมาะสม พร้อมใช้งานสำหรับการอนุมานได้ทันที ช่วยเร่งประสิทธิภาพความเร็วได้ 2-4 เท่า โดยไม่กระทบต่อความแม่นยำของโมเดล
การสนับสนุนระดับองค์กร จากเร้ดแฮท ด้วยความเชี่ยวชาญในการนำโปรเจกต์จากคอมมิวนิตี้ไปสู่การใช้งานจริง
การสนับสนุนจากบุคคลภายนอก (third-party) เพื่อความยืดหยุ่นในการใช้ Red Hat AI Inference Server บน non-Red Hat Linux และแพลตฟอร์ม Kubernetes ต่าง ๆ

วิสัยทัศน์ของเร้ดแฮท: โมเดลใดก็ได้, Accelerator ใดก็ได้, คลาวด์ใดก็ได้

เร้ดแฮทมีวิสัยทัศน์ว่าอนาคตของ AI ควรไร้ขีดจำกัดจากโครงสร้างพื้นฐานแบบไซโล โดยองค์กรสามารถใช้โมเดลใดก็ได้ กับ accelerator ใดก็ได้ บนคลาวด์ใดก็ได้ เพื่อมอบประสบการณ์ที่ยอดเยี่ยมและสม่ำเสมอให้กับผู้ใช้งานด้วยค่าใช้จ่ายที่เหมาะสม องค์กรต่างต้องการแพลตฟอร์มการอนุมานที่เป็นสากล เพื่อเป็นมาตรฐานสำหรับนวัตกรรม AI ประสิทธิภาพสูงทั้งในปัจจุบันและอนาคต เพื่อปลดล็อกศักยภาพที่แท้จริงจากการลงทุนใน Gen AI

Joe Fernandes, vice president and general manager, AI Business Unit, Red Hat กล่าวว่า “การอนุมานคือการใช้ประโยชน์อย่างแท้จริงจาก Gen AI โดยการโต้ตอบของผู้ใช้จะได้รับการตอบสนองที่รวดเร็วและแม่นยำจากโมเดลที่กำหนด ซึ่งจะต้องส่งมอบด้วยวิธีการที่มีประสิทธิภาพและคุ้มค่า วัตถุประสงค์ของ Red Hat AI Inference Server คือการตอบสนองความต้องการด้านการอนุมานที่มีประสิทธิภาพสูงและมีการโต้ตอบได้ตามต้องการ ขณะเดียวกันก็รักษาการใช้ทรัพยากรให้อยู่ในระดับต่ำ และจัดให้มีเลเยอร์การอนุมานทั่วไปที่รองรับโมเดลใดก็ได้ รันบน accelerator ใดก็ได้ บนทุกสภาพแวดล้อม”

ด้าน Ramine Roane, corporate vice president, AI Product Management, AMD กล่าวเสริมว่า “ความร่วมมือกับเร้ดแฮทช่วยให้ AMD นำเสนอโซลูชันล้ำสมัยเพื่อขับเคลื่อนให้องค์กรใช้ Generative AI ได้อย่างมีประสิทธิภาพ Red Hat AI Inference Server ที่ใช้ขุมพลังกราฟิกการ์ด AMD Instinct™ ช่วยให้องค์กรต่าง ๆ มีขีดความสามารถในการอนุมานด้าน AI ที่ขับเคลื่อนโดยคอมมิวนิตี้ระดับองค์กร ซึ่งได้รับการสนับสนุนด้วย hardware accelerators ที่ผ่านการตรวจสอบอย่างครบถ้วน”

นอกจากนี้ Jeremy Foster, senior vice president and general manager, Cisco ให้ความเห็นว่า ” AI workloads ต้องการความเร็ว ความสม่ำเสมอ และความยืดหยุ่น ซึ่งเป็นสิ่งที่ Red Hat AI Inference Server มี นวัตกรรมนี้เปิดแนวทางความร่วมมือใหม่ ๆ ระหว่างซิสโก้ (Cisco) และเร้ดแฮท เพื่อทำให้การใช้ AI เข้าถึงได้มากขึ้น มีประสิทธิภาพและปรับขนาดได้ ซึ่งเป็นการช่วยให้องค์กรเตรียมพร้อมรับสิ่งที่จะเกิดขึ้นในอนาคต”

และ Bill Pearson, vice president, Data Center & AI Software Solutions and Ecosystem, Intel กล่าวว่า “อินเทล (Intel) รู้สึกตื่นเต้นที่ได้ร่วมมือกับเร้ดแฮท เพื่อใช้ Red Hat AI Inference Server กับ Intel® Gaudi® accelerators การบูรณาการนี้จะช่วยให้ลูกค้าของเรามีโซลูชันที่ได้รับการปรับให้เหมาะสม เพื่อเพิ่มประสิทธิภาพและปรับขนาดการอนุมาน AI และมอบสมรรถนะและประสิทธิภาพล้ำหน้าให้กับแอปพลิเคชัน AI ระดับองค์กรในวงกว้าง”

ท้ายที่สุด John Fanelli, vice president, Enterprise Software, NVIDIA ระบุว่า “การอนุมานประสิทธิภาพสูงไม่เพียงแต่ช่วยให้โมเดลและ AI agents ต่าง ๆ สามารถตอบคำถามได้เท่านั้น แต่ยังสามารถให้หรือใช้เหตุผลและปรับตัวได้แบบเรียลไทม์ โดย NVIDIA accelerated computing และ Red Hat AI Inference Server แบบฟูลสแตก (full-stack) และเป็นแบบเปิด จะช่วยให้นักพัฒนาสามารถเรียกใช้งานการทำงานเชิงให้เหตุผลบน ไฮบริดคลาวด์ ได้อย่างมีประสิทธิภาพในวงกว้างและปรับใช้ได้อย่างมั่นใจ โดยใช้ Red Hat Inference Server กับการออกแบบที่ผ่านการตรวจสอบใหม่ของ NVIDIA Enterprise AI“