จากปัญหาสตรอเบอร์รี่สู่โมเดล o1: OpenAI แก้ปัญหาข้อจำกัดการสร้างโทเค็นได้อย่างไร (บางส่วน)
ในช่วงฤดูร้อนปี 2024 มีมีมไวรัลบนอินเทอร์เน็ตที่ทำให้โมเดลภาษาที่ก้าวหน้าที่สุดในโลกต้องตกตะลึง: "คำว่า 'strawberry' มีตัว 'r' กี่ตัว?" คำตอบที่ถูกต้องคือสาม แต่ GPT-4o ตอบอย่างดื้อรั้นว่า "สอง" ข้อผิดพลาดที่ดูเหมือนเล็กน้อยนี้เผยให้เห็นข้อจำกัดพื้นฐานของโมเดลภาษา นั่นคือการไม่สามารถแยกวิเคราะห์ตัวอักษรแต่ละตัวภายในคำได้
ในวันที่ 12 กันยายน 2024 OpenAI ได้เปิดตัว o1 ซึ่งมีชื่อรหัสภายในว่า "Strawberry" ซึ่งเป็นแบบจำลองแรกในชุด "reasoning models" ชุดใหม่ที่ออกแบบมาเพื่อเอาชนะข้อจำกัดเหล่านี้โดยเฉพาะ และใช่แล้ว ชื่อนี้ไม่ใช่เรื่องบังเอิญ ดังที่นักวิจัยของ OpenAI ยืนยัน ในที่สุด o1 ก็สามารถนับตัว 'r' ในคำว่า "strawberry" ได้อย่างถูกต้อง
แต่วิธีแก้ปัญหากลับไม่เป็นไปตามที่บทความต้นฉบับคาดการณ์ไว้ OpenAI ไม่ได้ "สอน" ให้โมเดลวิเคราะห์คำทีละตัวอักษร แต่กลับพัฒนาวิธีการที่แตกต่างออกไปโดยสิ้นเชิง นั่นคือ สอนให้โมเดล "คิด" ก่อนตอบสนอง
ปัญหายังคงมีรากฐานมาจากการแปลงเป็นโทเค็น ซึ่งเป็นกระบวนการพื้นฐานที่โมเดลภาษาใช้ประมวลผลข้อความ ดังที่อธิบายไว้ในบทความทางเทคนิคที่ตีพิมพ์บน arXiv ในเดือนพฤษภาคม 2568 (“ปัญหาสตรอว์เบอร์รี: การเกิดขึ้นของความเข้าใจระดับอักขระในโมเดลภาษาที่แปลงเป็นโทเค็น”) โมเดลเหล่านี้มองคำไม่ใช่ลำดับตัวอักษร แต่เป็น “โทเค็น” หรือหน่วยความหมายที่แปลงเป็นตัวเลข
เมื่อ GPT-4 ประมวลผลคำว่า "strawberry" ตัวแบ่งโทเค็นจะแยกคำออกเป็นสามส่วน ได้แก่ [str][aw][berry] ซึ่งแต่ละส่วนจะมีรหัสตัวเลขเฉพาะ (496, 675, 15717) สำหรับโมเดลนี้ "strawberry" ไม่ใช่ลำดับตัวอักษร 10 ตัว แต่เป็นลำดับของโทเค็นตัวเลข 3 ตัว เหมือนกับว่ามันกำลังอ่านหนังสือที่แต่ละคำถูกแทนที่ด้วยรหัส แล้วมีคนสั่งให้มันนับตัวอักษรในรหัสที่ไม่เคยเห็นมาก่อน
ปัญหาจะยิ่งแย่ลงเมื่อคำประสมถูกแยกออกเป็นโทเค็น ทำให้แบบจำลองไม่สามารถระบุตำแหน่งที่แน่นอนของตัวอักษรได้หากไม่มีการให้เหตุผลที่ชัดเจน การแยกส่วนนี้ไม่เพียงแต่ส่งผลต่อการนับตัวอักษรเท่านั้น แต่ยังส่งผลต่อความเข้าใจโครงสร้างภายในของคำอีกด้วย
OpenAI o1 แก้ไขปัญหาด้วยวิธีที่คาดไม่ถึง นั่นคือ แทนที่จะปรับเปลี่ยนการสร้างโทเค็น ซึ่งเป็นเรื่องยากในทางเทคนิคและจะกระทบต่อประสิทธิภาพของโมเดล แต่กลับสอนระบบให้ "คิดก่อนพูด" โดยใช้เทคนิคที่เรียกว่า "การใช้เหตุผลแบบห่วงโซ่แห่งความคิด"
เมื่อคุณถาม o1 ว่ามีตัว r กี่ตัวในคำว่า "strawberry" โมเดลจะไม่ตอบกลับทันที มันใช้เวลาหลายวินาที หรือบางครั้งอาจเป็นนาทีสำหรับคำถามที่ซับซ้อน ในการพัฒนา "ห่วงโซ่เหตุผล" ที่ซ่อนอยู่ภายในจากผู้ใช้ กระบวนการนี้ช่วยให้โมเดลสามารถ:
ดังที่นักวิจัย OpenAI Noam Brown อธิบายไว้ในชุดบทความเกี่ยวกับ X: "o1 ได้รับการฝึกฝนด้วยการเรียนรู้แบบเสริมแรงเพื่อ 'คิด' ก่อนที่จะตอบสนองผ่านห่วงโซ่ความคิดส่วนตัว" โมเดลจะได้รับรางวัลระหว่างการฝึกสำหรับแต่ละขั้นตอนที่ถูกต้องในกระบวนการคิด ไม่ใช่เฉพาะคำตอบที่ถูกต้องขั้นสุดท้ายเท่านั้น
ผลลัพธ์น่าประทับใจแต่มีค่าใช้จ่ายสูง ในการสอบคัดเลือกสำหรับการแข่งขันคณิตศาสตร์โอลิมปิกระหว่างประเทศ o1 แก้โจทย์ได้ถูกต้องถึง 83% เมื่อเทียบกับ 13% ของ GPT-4o สำหรับโจทย์วิทยาศาสตร์ระดับปริญญาเอก o1 มีความแม่นยำถึง 78% เมื่อเทียบกับ 56% ของ GPT-4o แต่ประสิทธิภาพนี้มาพร้อมกับราคาที่ต้องจ่าย: o1 ใช้เวลามากกว่า 30 วินาทีในการตอบคำถามที่ GPT-4o แก้ได้ใน 3 วินาที และมีค่าใช้จ่าย 15 ดอลลาร์สหรัฐต่อหนึ่งล้านโทเค็นอินพุต เมื่อเทียบกับ 5 ดอลลาร์สหรัฐสำหรับ GPT-4o
เทคนิคนี้ไม่ได้วิเศษอะไร แต่เป็นระบบระเบียบ เมื่อได้รับคำสั่ง o1 จะสร้างลำดับ "ความคิด" ยาวๆ ขึ้นมาภายใน ซึ่งจะไม่แสดงให้ผู้ใช้เห็น สำหรับปัญหา 'r' ใน "strawberry" กระบวนการภายในอาจเป็นดังนี้:
ก่อนอื่นฉันต้องเข้าใจโครงสร้างของคำก่อน คำว่า Strawberry อาจถูกแปลงเป็นโทเค็นได้เป็น [str][aw][berry] ในการนับตัว 'r' ฉันต้องสร้างคำที่สมบูรณ์ขึ้นใหม่ในระดับตัวอักษร Str ประกอบด้วย: str (1 ตัว 'r') Aw ประกอบด้วย: aw (0 ตัว 'r') Berry ประกอบด้วย: berry (2 ตัว 'r') รวม: 1+0+2 = 3 ตัว ฉันตรวจสอบแล้ว: strawberry = strawberry ฉันนับตัว 'r' ได้: ตำแหน่งที่ 3, ตำแหน่งที่ 8, ตำแหน่งที่ 9 ยืนยันแล้ว: 3 ตัว 'r'
เหตุผลภายในนี้ถูกซ่อนไว้โดยการออกแบบ OpenAI ห้ามผู้ใช้อย่างชัดแจ้งไม่ให้พยายามเปิดเผยแนวคิดของ o1 ด้วยการตรวจสอบการแจ้งเตือน และอาจเพิกถอนสิทธิ์การเข้าถึงของผู้ที่ละเมิดกฎนี้ บริษัทอ้างถึงความปลอดภัยของ AI และความได้เปรียบในการแข่งขัน แต่การตัดสินใจนี้ถูกวิพากษ์วิจารณ์ว่าเป็นการสูญเสียความโปร่งใสโดยนักพัฒนาที่ทำงานกับโมเดลภาษา
แม้จะมีความก้าวหน้า แต่ o1 ก็ยังไม่สามารถแก้ปัญหาได้อย่างสมบูรณ์ งานวิจัยที่ตีพิมพ์ใน Language Log ในเดือนมกราคม 2025 ได้ทดสอบแบบจำลองต่างๆ ในโจทย์ที่ซับซ้อนยิ่งขึ้น: "เขียนย่อหน้าหนึ่งย่อหน้าโดยให้ตัวอักษรตัวที่สองของแต่ละประโยคสะกดเป็นคำว่า 'CODE'"
o1 standard (20 ดอลลาร์/เดือน) ล้มเหลวเนื่องจากนับตัวอักษรตัวแรกของคำแรกทุกคำเป็น "ตัวอักษรตัวที่สอง" อย่างไม่ถูกต้อง o1-pro (200 ดอลลาร์/เดือน) แก้ไขปัญหานี้ได้... หลังจาก "คิด" นาน 4 นาที 10 วินาที DeepSeek R1 ซึ่งเป็นโมเดลจีนที่เขย่าตลาดในเดือนมกราคม 2025 ได้ทำผิดพลาดแบบเดียวกับ o1 standard
ปัญหาพื้นฐานยังคงอยู่: โมเดลยังคงมองเห็นข้อความผ่านโทเค็น ไม่ใช่ตัวอักษร o1 ได้เรียนรู้ที่จะ "แก้ไข" ข้อจำกัดนี้ด้วยการใช้เหตุผล แต่ก็ยังไม่สามารถขจัดมันได้ ดังที่นักวิจัยคนหนึ่งระบุไว้ในบันทึกภาษา (Language Log) ว่า "การสร้างโทเค็นเป็นส่วนหนึ่งของแก่นแท้ของโมเดลภาษา สำหรับคำตอบที่ไม่ถูกต้อง คำอธิบายก็คือ 'เอ่อ การสร้างโทเค็น' นั่นเอง"
บทความสำคัญที่ตีพิมพ์ใน arXiv ในเดือนพฤษภาคม 2568 (“ปัญหาสตรอว์เบอร์รี: การเกิดขึ้นของความเข้าใจระดับอักขระในแบบจำลองภาษาโทเค็น”) ได้วิเคราะห์ปรากฏการณ์นี้จากมุมมองเชิงทฤษฎี นักวิจัยได้สร้างงานสังเคราะห์ 19 ชิ้นที่แยกการใช้เหตุผลระดับอักขระในบริบทที่ควบคุม ซึ่งแสดงให้เห็นว่าความสามารถเหล่านี้เกิดขึ้นอย่างกะทันหันและเกิดขึ้นเฉพาะในช่วงท้ายของการฝึกอบรมเท่านั้น
การศึกษานี้เสนอว่าการเรียนรู้องค์ประกอบของตัวละครนั้นไม่แตกต่างไปจากการเรียนรู้ความรู้สามัญสำนึกโดยพื้นฐาน แต่จะปรากฎขึ้นผ่านกระบวนการของ "การซึมผ่านของแนวคิด" เมื่อแบบจำลองเข้าถึงมวลวิกฤตของตัวอย่างและการเชื่อมโยง
นักวิจัยเสนอแนะการดัดแปลงสถาปัตยกรรมแบบเบาบางที่ช่วยปรับปรุงการใช้เหตุผลในระดับอักขระอย่างมีนัยสำคัญ ขณะเดียวกันก็ยังคงรักษาข้อดีเชิงอุปนัยของแบบจำลองที่ใช้คำย่อยไว้ อย่างไรก็ตาม การดัดแปลงเหล่านี้ยังคงอยู่ในขั้นทดลองและยังไม่ได้นำไปใช้ในแบบจำลองเชิงพาณิชย์
กรณี "สตรอว์เบอร์รี" สอนบทเรียนสำคัญเกี่ยวกับความน่าเชื่อถือของแบบจำลองภาษา นั่นคือ แบบจำลองภาษาเป็นเครื่องมือเชิงความน่าจะเป็น ไม่ใช่เครื่องคิดเลขแบบกำหนดตายตัว ดังที่มาร์ค ลิเบอร์แมน ระบุไว้ในบันทึกภาษา (Language Log) ว่า "คุณควรระมัดระวังในการเชื่อถือการตอบสนองของระบบ AI ใดๆ ในปัจจุบันในงานที่เกี่ยวข้องกับการนับสิ่งต่างๆ"
นี่ไม่ได้หมายความว่าโมเดลจะไร้ประโยชน์ ดังที่ผู้แสดงความคิดเห็นรายหนึ่งกล่าวไว้ว่า "แค่แมวทำผิดพลาดโง่ๆ อย่างกลัวแตงกวา ไม่ได้หมายความว่าเราไม่ควรไว้ใจแมวให้ทำหน้าที่ที่ยากกว่ามากในการไล่หนูออกจากอาคาร" โมเดลภาษาไม่ใช่เครื่องมือที่เหมาะสมหากคุณต้องการนับตัวอักษรอย่างเป็นระบบ แต่มันยอดเยี่ยมมากสำหรับการประมวลผลบทถอดเสียงพอดแคสต์หลายพันรายการโดยอัตโนมัติ และดึงชื่อแขกและพิธีกรออกมา
สำหรับภารกิจที่ต้องการความแม่นยำสูงอย่างยิ่งยวด เช่น การนำยานอวกาศลงจอดบนดาวอังคาร การคำนวณปริมาณยา และการตรวจสอบการปฏิบัติตามกฎระเบียบ แบบจำลองภาษาในปัจจุบันยังคงไม่เพียงพอหากปราศจากการควบคุมดูแลโดยมนุษย์หรือการตรวจสอบจากภายนอก ลักษณะความน่าจะเป็นของแบบจำลองเหล่านี้ทำให้แบบจำลองเหล่านี้มีประสิทธิภาพในการจับคู่รูปแบบและการสร้างสรรค์ผลงาน แต่ไม่น่าเชื่อถือสำหรับงานที่ความผิดพลาดไม่สามารถยอมรับได้
OpenAI ได้ระบุว่าตั้งใจที่จะทดลองใช้โมเดล o1 ที่ "ให้เหตุผลเป็นชั่วโมง เป็นวัน หรือแม้กระทั่งเป็นสัปดาห์" เพื่อปรับปรุงความสามารถในการให้เหตุผลให้ดียิ่งขึ้น o3 ได้รับการประกาศเมื่อเดือนธันวาคม 2024 (ชื่อ o2 ถูกยกเลิกเพื่อหลีกเลี่ยงความขัดแย้งด้านเครื่องหมายการค้ากับผู้ให้บริการมือถือ O2) และในเดือนมีนาคม 2025 API สำหรับ o1-pro ก็ได้เปิดตัว ซึ่งเป็นโมเดล AI ที่มีราคาแพงที่สุดของ OpenAI จนถึงปัจจุบัน โดยมีราคาอยู่ที่ 150 ดอลลาร์สหรัฐต่อโทเค็นอินพุตหนึ่งล้าน และ 600 ดอลลาร์สหรัฐต่อโทเค็นเอาต์พุตหนึ่งล้าน
ทิศทางที่ชัดเจนคือ แทนที่จะสร้างแบบจำลองให้มีขนาดใหญ่ขึ้นเรื่อยๆ (ปรับขนาดได้) OpenAI กำลังลงทุนเพื่อทำให้แบบจำลอง "คิด" ได้นานขึ้น (คำนวณเวลาทดสอบ) แนวทางนี้อาจใช้พลังงานและมีความยั่งยืนในการคำนวณมากกว่าการฝึกแบบจำลองที่มีขนาดใหญ่ขึ้นเรื่อยๆ
แต่ยังคงมีคำถามปลายเปิดอยู่ว่า แบบจำลองเหล่านี้ "ใช้เหตุผล" อย่างแท้จริง หรือเป็นเพียงการจำลองการใช้เหตุผลผ่านรูปแบบทางสถิติที่ซับซ้อนกว่า งานวิจัยของ Apple ที่เผยแพร่ในเดือนตุลาคม 2024 รายงานว่าแบบจำลองอย่าง o1 สามารถจำลองขั้นตอนการให้เหตุผลจากข้อมูลการฝึกได้ การเปลี่ยนตัวเลขและชื่อในโจทย์คณิตศาสตร์ หรือเพียงแค่รันโจทย์เดิมซ้ำๆ ทำให้ประสิทธิภาพของแบบจำลองแย่ลงอย่างมาก การเพิ่มข้อมูลที่ไม่เกี่ยวข้องแต่ไม่เกี่ยวข้องทางตรรกะ ส่งผลให้ประสิทธิภาพลดลงถึง 65% สำหรับบางแบบจำลอง
ปัญหา "สตรอว์เบอร์รี" และวิธีแก้ปัญหาแบบ o1 เผยให้เห็นทั้งศักยภาพและข้อจำกัดโดยธรรมชาติของแบบจำลองภาษาในปัจจุบัน OpenAI ได้แสดงให้เห็นว่าด้วยการฝึกแบบเจาะจงเป้าหมายและระยะเวลาการประมวลผลที่เพิ่มขึ้น แบบจำลองสามารถเอาชนะข้อจำกัดเชิงโครงสร้างบางประการของการสร้างโทเค็นได้ แต่พวกเขาไม่ได้ขจัดข้อจำกัดนี้ออกไป พวกเขาได้หลีกเลี่ยงข้อจำกัดนี้
สำหรับผู้ใช้และนักพัฒนา บทเรียนเชิงปฏิบัตินั้นชัดเจน: การทำความเข้าใจวิธีการทำงานของระบบเหล่านี้ ทั้งสิ่งที่ทำได้ดีและจุดบกพร่อง เป็นสิ่งสำคัญอย่างยิ่งต่อการใช้งานอย่างมีประสิทธิภาพ แบบจำลองภาษาเป็นเครื่องมือที่ยอดเยี่ยมสำหรับงานเชิงความน่าจะเป็น การจับคู่รูปแบบ การสร้างความคิดสร้างสรรค์ และการสังเคราะห์ข้อมูล แต่สำหรับงานที่ต้องการความแม่นยำแบบกำหนดตายตัว เช่น การนับ การคำนวณ และการตรวจสอบข้อเท็จจริงเฉพาะเจาะจง แบบจำลองภาษายังคงไม่น่าเชื่อถือหากปราศจากการควบคุมดูแลจากภายนอกหรือเครื่องมือเสริม
ชื่อ "สตรอว์เบอร์รี" จะยังคงเป็นเครื่องเตือนใจถึงข้อจำกัดพื้นฐานนี้อย่างน่าขัน นั่นคือ แม้แต่ระบบ AI ที่ก้าวหน้าที่สุดในโลกก็ยังสามารถตอบคำถามที่เด็กหกขวบตอบได้ทันที ไม่ใช่เพราะพวกมันโง่ แต่เพราะมัน "คิด" แตกต่างจากเราอย่างมาก และบางทีเราควรเลิกคาดหวังให้พวกมันคิดเหมือนมนุษย์ได้แล้ว
ที่มา: