ข่าว
OpenAI เผยโมเดล AI ใหม่ล่าสุด ‘o3’ และ ‘o4-mini’ พบมีแนวโน้มสร้างข้อมูลเท็จ-หลอนมากขึ้น

สำนักข่าวบริคอินโฟ – บริษัท OpenAI ผู้พัฒนาเทคโนโลยีปัญญาประดิษฐ์ (AI) ชั้นนำ ได้เปิดเผยว่า โมเดล AI รุ่นใหม่ล่าสุดของบริษัท ได้แก่ o3 และ o4-mini ซึ่งได้รับการออกแบบให้มีความสามารถในการให้เหตุผลที่ซับซ้อน กลับมีแนวโน้มที่จะสร้างข้อมูลที่ไม่ถูกต้อง หรือที่เรียกว่า “การหลอน” (hallucination) มากกว่าโมเดลรุ่นก่อนหน้าของบริษัทเสียอีก
รายงานทางเทคนิคของ OpenAI ระบุว่า แม้ว่าโมเดล o3 และ o4-mini จะมีประสิทธิภาพที่เหนือกว่าในบางด้าน เช่น การเขียนโค้ดและการแก้ปัญหาทางคณิตศาสตร์ แต่เนื่องจากโมเดลเหล่านี้ “สร้างข้อความโดยรวมมากขึ้น” จึงนำไปสู่การสร้าง “ทั้งข้อความที่ถูกต้องและไม่ถูกต้อง/สร้างขึ้นเองมากขึ้น” ตามไปด้วย
แต่ OpenAI พบว่า o3 สร้างข้อมูลที่ไม่ถูกต้องถึง 33% ในการตอบคำถามบน PersonQA ซึ่งเป็นเกณฑ์มาตรฐานภายในของบริษัทสำหรับการวัดความถูกต้องของความรู้เกี่ยวกับบุคคล ซึ่งสูงกว่าโมเดลให้เหตุผลรุ่นก่อนอย่าง o1 (16%) และ o3-mini (14.8%) อย่างมีนัยสำคัญ และ o4-mini มีผลการทดสอบที่แย่กว่า โดยมีอัตราการหลอนสูงถึง 48%
การทดสอบโดย Transluce ซึ่งเป็นห้องปฏิบัติการวิจัย AI ที่ไม่แสวงหาผลกำไร ยังพบหลักฐานว่า o3 มีแนวโน้มที่จะสร้างเรื่องราวเกี่ยวกับการดำเนินการที่เกิดขึ้นในกระบวนการให้คำตอบ ตัวอย่างเช่น o3 อ้างว่าได้รันโค้ดบน MacBook Pro ปี 2021 “ภายนอก ChatGPT” แล้วคัดลอกตัวเลขเข้าไปในคำตอบ ซึ่งเป็นสิ่งที่โมเดลไม่สามารถทำได้จริง
Sarah Schwettmann ผู้ร่วมก่อตั้ง Transluce ระบุว่าอัตราการหลอนของ o3 อาจทำให้โมเดลนี้มีประโยชน์น้อยกว่าที่ควรจะเป็น ส่วน Kian Katanforoosh ศาสตราจารย์สมทบแห่ง Stanford และ CEO ของสตาร์ทอัพด้านการเพิ่มทักษะ Workera กล่าวว่า o3 มีแนวโน้มที่จะสร้างลิงก์เว็บไซต์ที่เสีย เมื่อคลิกแล้วจะไม่สามารถใช้งานได้
แม้ว่าการหลอนอาจช่วยให้โมเดลสร้างแนวคิดที่น่าสนใจและมีความคิดสร้างสรรค์ในการ “คิด” แต่ก็ทำให้โมเดลบางตัวขายยากสำหรับธุรกิจในตลาดที่ความถูกต้องเป็นสิ่งสำคัญยิ่ง ตัวอย่างเช่น บริษัทกฎหมายคงไม่พอใจกับโมเดลที่แทรกข้อผิดพลาดทางข้อเท็จจริงจำนวนมากในสัญญาลูกค้า
แนวทางที่มีแนวโน้มในการเพิ่มความแม่นยำของโมเดลคือการให้ความสามารถในการค้นหาเว็บแก่โมเดล GPT-4o ของ OpenAI ที่มีความสามารถในการค้นหาเว็บสามารถทำคะแนนความแม่นยำได้ถึง 90% บน SimpleQA ซึ่งเป็นอีกหนึ่งเกณฑ์มาตรฐานความแม่นยำของ OpenAI มีศักยภาพที่การค้นหาจะสามารถปรับปรุงอัตราการหลอนของโมเดลให้เหตุผลได้เช่นกัน อย่างน้อยก็ในกรณีที่ผู้ใช้ยินดีที่จะเปิดเผยคำสั่งให้กับผู้ให้บริการค้นหาบุคคลที่สาม
หากการขยายขนาดโมเดลให้เหตุผลยังคงทำให้การหลอนแย่ลง ก็จะทำให้การค้นหาวิธีแก้ปัญหาเร่งด่วนยิ่งขึ้น Niko Felix โฆษกของ OpenAI กล่าวในอีเมลถึง TechCrunch ว่า “การจัดการกับการหลอนในทุกรุ่นของเราเป็นงานวิจัยที่กำลังดำเนินอยู่ และเรากำลังทำงานอย่างต่อเนื่องเพื่อปรับปรุงความถูกต้องและความน่าเชื่อถือของโมเดลเหล่านั้น”
ในช่วงปีที่ผ่านมา อุตสาหกรรม AI ในวงกว้างได้หันมาให้ความสำคัญกับโมเดลให้เหตุผล หลังจากเทคนิคการปรับปรุงโมเดล AI แบบเดิมเริ่มแสดงผลตอบแทนที่ลดลง การให้เหตุผลช่วยปรับปรุงประสิทธิภาพของโมเดลในงานที่หลากหลายโดยไม่จำเป็นต้องใช้พลังการประมวลผลและข้อมูลจำนวนมากในการฝึกอบรม อย่างไรก็ตาม ดูเหมือนว่าการให้เหตุผลอาจนำไปสู่การหลอนที่มากขึ้น ซึ่งถือเป็นความท้าทาย