การประกาศเปิดตัว " Strawberry " ของ OpenAI ได้เน้นย้ำถึงข้อจำกัดพื้นฐานของโมเดลภาษา นั่นคือการไม่สามารถวิเคราะห์ตัวอักษรแต่ละตัวภายในคำ จุดอ่อนนี้เผยให้เห็นแง่มุมเชิงลึกของการทำงานของโมเดลเหล่านี้
ปัญหาการนับ
เมื่อ ChatGPT ถูกขอให้นับตัว 'r' ในคำว่า 'strawberry' โมเดลมักจะล้มเหลว ข้อผิดพลาดนี้ไม่ได้เกิดจากการขาดความชาญฉลาด แต่เกิดจากวิธีที่โมเดลภาษาวิเคราะห์ข้อความ เพื่อทำความเข้าใจสาเหตุ คุณจำเป็นต้องเข้าใจแนวคิดของ การสร้างโทเค็น
โลกที่มองเห็นผ่านโทเค็น
แบบจำลองภาษาไม่ได้มองคำเป็นลำดับตัวอักษร แต่เป็นโทเค็น หรือหน่วยความหมายที่แปลงเป็นตัวเลข เหมือนกับว่าพวกเขากำลังอ่านหนังสือที่แต่ละคำถูกแทนที่ด้วยรหัสตัวเลข ตัวอย่างเช่น คำว่า "schoolbooks" ถูกแบ่งออกเป็นโทเค็นสองแบบที่แตกต่างกัน คือ "school" และ "books" นี่เป็นเหตุผลที่แบบจำลองนี้มีปัญหาในการนับตัว "o" ในคำนี้อย่างถูกต้อง แบบจำลองไม่ได้มองว่าคำนี้เป็นคำ
ตัวอย่างที่ให้ความกระจ่าง
ลองนึกภาพการเรียนภาษาที่คำว่า "school" มักจะเขียนแทนด้วยตัวเลข "412" หากมีคนถามว่า "412" มีตัว o กี่ตัว คุณจะตอบไม่ถูกเลยถ้าไม่ได้เห็นตัว o เขียนไว้ แบบจำลองทางภาษาก็อยู่ในสถานการณ์ที่คล้ายคลึงกัน คือประมวลผลความหมายผ่านตัวเลข โดยที่ไม่เข้าใจองค์ประกอบของคำที่แท้จริง
ความท้าทายของคำประสม
ปัญหาจะยิ่งแย่ลงไปอีกเมื่อคำประสม คำว่า 'Timekeeper' ถูกแยกออกเป็นโทเค็นแยกกัน ทำให้แบบจำลองระบุตำแหน่งที่แน่นอนของตัวอักษร 'e' ได้ยาก การแยกส่วนนี้ไม่เพียงแต่ส่งผลต่อการนับตัวอักษรเท่านั้น แต่ยังส่งผลต่อความเข้าใจโครงสร้างภายในของคำอีกด้วย
ทางออกของปัญหาสตรอเบอร์รี่ (อาจจะ)
คาดว่าโมเดล Strawberry ของ OpenAI ที่จะออกมาเร็วๆ นี้จะสามารถเอาชนะข้อจำกัดนี้ได้ด้วยการนำเสนอแนวทางการประมวลผลข้อความที่เป็นนวัตกรรมใหม่ แทนที่จะพึ่งพาการแปลงโทเค็นแบบเดิมๆ เพียงอย่างเดียว โมเดลนี้ควรจะสามารถวิเคราะห์คำได้ลึกถึงระดับตัวอักษรแต่ละตัว ซึ่งช่วยให้การนับและการวิเคราะห์แม่นยำยิ่งขึ้น
ผลกระทบในอนาคต
ความสำคัญของปัญหานี้ไม่ได้จำกัดอยู่แค่การนับตัวอักษรเพียงอย่างเดียว ความสามารถในการวิเคราะห์แบบละเอียดนี้จะช่วยปรับปรุงความเข้าใจทางภาษาของโมเดล AI ได้อย่างมีนัยสำคัญ ช่วยให้โมเดลสามารถจัดการกับปัญหาที่ต้องใช้การวิเคราะห์ข้อความในระดับอักขระอย่างละเอียด
การบูรณาการเทคโนโลยีที่วางแผนไว้จะถือเป็นความก้าวหน้าครั้งสำคัญในทิศทางของโมเดลภาษาที่มีความสามารถในการ "ใช้เหตุผล" เกี่ยวกับรายละเอียดพื้นฐานของภาษา ไม่ใช่แค่รูปแบบทางสถิติเพียงอย่างเดียว


