Newsletter

ปัญหาสตรอเบอร์รี่

"มีตัว r กี่ตัวในสตรอว์เบอร์รี?" — GPT-4o ตอบว่า "สอง" เด็กอายุหกขวบรู้สามตัว ปัญหาคือการสร้างโทเค็น: โมเดลมองเห็น [str][aw][berry] ไม่ใช่ตัวอักษร OpenAI ไม่ได้แก้ปัญหานี้ด้วย o1 แต่หลีกเลี่ยงปัญหานี้โดยสอนโมเดลให้ "คิดก่อนพูด" ผลลัพธ์: 83% เทียบกับ 13% ในคณิตศาสตร์โอลิมปิก แต่ใช้เวลา 30 วินาทีแทนที่จะเป็น 3 วินาที และต้นทุนเพิ่มขึ้นสามเท่า โมเดลภาษาเป็นเครื่องมือวัดความน่าจะเป็นที่น่าทึ่ง แต่การนับยังคงต้องใช้มนุษย์

จากปัญหาสตรอเบอร์รี่สู่โมเดล o1: OpenAI แก้ปัญหาข้อจำกัดการสร้างโทเค็นได้อย่างไร (บางส่วน)

ในช่วงฤดูร้อนปี 2024 มีมีมไวรัลบนอินเทอร์เน็ตที่ทำให้โมเดลภาษาที่ก้าวหน้าที่สุดในโลกต้องตกตะลึง: "คำว่า 'strawberry' มีตัว 'r' กี่ตัว?" คำตอบที่ถูกต้องคือสาม แต่ GPT-4o ตอบอย่างดื้อรั้นว่า "สอง" ข้อผิดพลาดที่ดูเหมือนเล็กน้อยนี้เผยให้เห็นข้อจำกัดพื้นฐานของโมเดลภาษา นั่นคือการไม่สามารถแยกวิเคราะห์ตัวอักษรแต่ละตัวภายในคำได้

ในวันที่ 12 กันยายน 2024 OpenAI ได้เปิดตัว o1 ซึ่งมีชื่อรหัสภายในว่า "Strawberry" ซึ่งเป็นแบบจำลองแรกในชุด "reasoning models" ชุดใหม่ที่ออกแบบมาเพื่อเอาชนะข้อจำกัดเหล่านี้โดยเฉพาะ และใช่แล้ว ชื่อนี้ไม่ใช่เรื่องบังเอิญ ดังที่นักวิจัยของ OpenAI ยืนยัน ในที่สุด o1 ก็สามารถนับตัว 'r' ในคำว่า "strawberry" ได้อย่างถูกต้อง

แต่วิธีแก้ปัญหากลับไม่เป็นไปตามที่บทความต้นฉบับคาดการณ์ไว้ OpenAI ไม่ได้ "สอน" ให้โมเดลวิเคราะห์คำทีละตัวอักษร แต่กลับพัฒนาวิธีการที่แตกต่างออกไปโดยสิ้นเชิง นั่นคือ สอนให้โมเดล "คิด" ก่อนตอบสนอง

ปัญหาการนับ: ทำไมโมเดลจึงนับผิด

ปัญหายังคงมีรากฐานมาจากการแปลงเป็นโทเค็น ซึ่งเป็นกระบวนการพื้นฐานที่โมเดลภาษาใช้ประมวลผลข้อความ ดังที่อธิบายไว้ในบทความทางเทคนิคที่ตีพิมพ์บน arXiv ในเดือนพฤษภาคม 2568 (“ปัญหาสตรอว์เบอร์รี: การเกิดขึ้นของความเข้าใจระดับอักขระในโมเดลภาษาที่แปลงเป็นโทเค็น”) โมเดลเหล่านี้มองคำไม่ใช่ลำดับตัวอักษร แต่เป็น “โทเค็น” หรือหน่วยความหมายที่แปลงเป็นตัวเลข

เมื่อ GPT-4 ประมวลผลคำว่า "strawberry" ตัวแบ่งโทเค็นจะแยกคำออกเป็นสามส่วน ได้แก่ [str][aw][berry] ซึ่งแต่ละส่วนจะมีรหัสตัวเลขเฉพาะ (496, 675, 15717) สำหรับโมเดลนี้ "strawberry" ไม่ใช่ลำดับตัวอักษร 10 ตัว แต่เป็นลำดับของโทเค็นตัวเลข 3 ตัว เหมือนกับว่ามันกำลังอ่านหนังสือที่แต่ละคำถูกแทนที่ด้วยรหัส แล้วมีคนสั่งให้มันนับตัวอักษรในรหัสที่ไม่เคยเห็นมาก่อน

ปัญหาจะยิ่งแย่ลงเมื่อคำประสมถูกแยกออกเป็นโทเค็น ทำให้แบบจำลองไม่สามารถระบุตำแหน่งที่แน่นอนของตัวอักษรได้หากไม่มีการให้เหตุผลที่ชัดเจน การแยกส่วนนี้ไม่เพียงแต่ส่งผลต่อการนับตัวอักษรเท่านั้น แต่ยังส่งผลต่อความเข้าใจโครงสร้างภายในของคำอีกด้วย

วิธีแก้ปัญหาที่ 1: คิดก่อนตอบ

OpenAI o1 แก้ไขปัญหาด้วยวิธีที่คาดไม่ถึง นั่นคือ แทนที่จะปรับเปลี่ยนการสร้างโทเค็น ซึ่งเป็นเรื่องยากในทางเทคนิคและจะกระทบต่อประสิทธิภาพของโมเดล แต่กลับสอนระบบให้ "คิดก่อนพูด" โดยใช้เทคนิคที่เรียกว่า "การใช้เหตุผลแบบห่วงโซ่แห่งความคิด"

เมื่อคุณถาม o1 ว่ามีตัว r กี่ตัวในคำว่า "strawberry" โมเดลจะไม่ตอบกลับทันที มันใช้เวลาหลายวินาที หรือบางครั้งอาจเป็นนาทีสำหรับคำถามที่ซับซ้อน ในการพัฒนา "ห่วงโซ่เหตุผล" ที่ซ่อนอยู่ภายในจากผู้ใช้ กระบวนการนี้ช่วยให้โมเดลสามารถ:

  1. ตระหนักว่าคำถามนี้ต้องการการวิเคราะห์ในระดับตัวละคร
  2. พัฒนากลยุทธ์เพื่อทำลายคำ
  3. ตรวจสอบคำตอบผ่านวิธีการที่แตกต่างกัน
  4. โปรดแก้ไขข้อผิดพลาดใด ๆ ก่อนที่จะให้คำตอบสุดท้ายของคุณ

ดังที่นักวิจัย OpenAI Noam Brown อธิบายไว้ในชุดบทความเกี่ยวกับ X: "o1 ได้รับการฝึกฝนด้วยการเรียนรู้แบบเสริมแรงเพื่อ 'คิด' ก่อนที่จะตอบสนองผ่านห่วงโซ่ความคิดส่วนตัว" โมเดลจะได้รับรางวัลระหว่างการฝึกสำหรับแต่ละขั้นตอนที่ถูกต้องในกระบวนการคิด ไม่ใช่เฉพาะคำตอบที่ถูกต้องขั้นสุดท้ายเท่านั้น

ผลลัพธ์น่าประทับใจแต่มีค่าใช้จ่ายสูง ในการสอบคัดเลือกสำหรับการแข่งขันคณิตศาสตร์โอลิมปิกระหว่างประเทศ o1 แก้โจทย์ได้ถูกต้องถึง 83% เมื่อเทียบกับ 13% ของ GPT-4o สำหรับโจทย์วิทยาศาสตร์ระดับปริญญาเอก o1 มีความแม่นยำถึง 78% เมื่อเทียบกับ 56% ของ GPT-4o แต่ประสิทธิภาพนี้มาพร้อมกับราคาที่ต้องจ่าย: o1 ใช้เวลามากกว่า 30 วินาทีในการตอบคำถามที่ GPT-4o แก้ได้ใน 3 วินาที และมีค่าใช้จ่าย 15 ดอลลาร์สหรัฐต่อหนึ่งล้านโทเค็นอินพุต เมื่อเทียบกับ 5 ดอลลาร์สหรัฐสำหรับ GPT-4o

ห่วงโซ่แห่งความคิด: มันทำงานอย่างไรจริงๆ

เทคนิคนี้ไม่ได้วิเศษอะไร แต่เป็นระบบระเบียบ เมื่อได้รับคำสั่ง o1 จะสร้างลำดับ "ความคิด" ยาวๆ ขึ้นมาภายใน ซึ่งจะไม่แสดงให้ผู้ใช้เห็น สำหรับปัญหา 'r' ใน "strawberry" กระบวนการภายในอาจเป็นดังนี้:

ก่อนอื่นฉันต้องเข้าใจโครงสร้างของคำก่อน คำว่า Strawberry อาจถูกแปลงเป็นโทเค็นได้เป็น [str][aw][berry] ในการนับตัว 'r' ฉันต้องสร้างคำที่สมบูรณ์ขึ้นใหม่ในระดับตัวอักษร Str ประกอบด้วย: str (1 ตัว 'r') Aw ประกอบด้วย: aw (0 ตัว 'r') Berry ประกอบด้วย: berry (2 ตัว 'r') รวม: 1+0+2 = 3 ตัว ฉันตรวจสอบแล้ว: strawberry = strawberry ฉันนับตัว 'r' ได้: ตำแหน่งที่ 3, ตำแหน่งที่ 8, ตำแหน่งที่ 9 ยืนยันแล้ว: 3 ตัว 'r'

เหตุผลภายในนี้ถูกซ่อนไว้โดยการออกแบบ OpenAI ห้ามผู้ใช้อย่างชัดแจ้งไม่ให้พยายามเปิดเผยแนวคิดของ o1 ด้วยการตรวจสอบการแจ้งเตือน และอาจเพิกถอนสิทธิ์การเข้าถึงของผู้ที่ละเมิดกฎนี้ บริษัทอ้างถึงความปลอดภัยของ AI และความได้เปรียบในการแข่งขัน แต่การตัดสินใจนี้ถูกวิพากษ์วิจารณ์ว่าเป็นการสูญเสียความโปร่งใสโดยนักพัฒนาที่ทำงานกับโมเดลภาษา

ข้อจำกัดถาวร: o1 ไม่สมบูรณ์แบบ

แม้จะมีความก้าวหน้า แต่ o1 ก็ยังไม่สามารถแก้ปัญหาได้อย่างสมบูรณ์ งานวิจัยที่ตีพิมพ์ใน Language Log ในเดือนมกราคม 2025 ได้ทดสอบแบบจำลองต่างๆ ในโจทย์ที่ซับซ้อนยิ่งขึ้น: "เขียนย่อหน้าหนึ่งย่อหน้าโดยให้ตัวอักษรตัวที่สองของแต่ละประโยคสะกดเป็นคำว่า 'CODE'"

o1 standard (20 ดอลลาร์/เดือน) ล้มเหลวเนื่องจากนับตัวอักษรตัวแรกของคำแรกทุกคำเป็น "ตัวอักษรตัวที่สอง" อย่างไม่ถูกต้อง o1-pro (200 ดอลลาร์/เดือน) แก้ไขปัญหานี้ได้... หลังจาก "คิด" นาน 4 นาที 10 วินาที DeepSeek R1 ซึ่งเป็นโมเดลจีนที่เขย่าตลาดในเดือนมกราคม 2025 ได้ทำผิดพลาดแบบเดียวกับ o1 standard

ปัญหาพื้นฐานยังคงอยู่: โมเดลยังคงมองเห็นข้อความผ่านโทเค็น ไม่ใช่ตัวอักษร o1 ได้เรียนรู้ที่จะ "แก้ไข" ข้อจำกัดนี้ด้วยการใช้เหตุผล แต่ก็ยังไม่สามารถขจัดมันได้ ดังที่นักวิจัยคนหนึ่งระบุไว้ในบันทึกภาษา (Language Log) ว่า "การสร้างโทเค็นเป็นส่วนหนึ่งของแก่นแท้ของโมเดลภาษา สำหรับคำตอบที่ไม่ถูกต้อง คำอธิบายก็คือ 'เอ่อ การสร้างโทเค็น' นั่นเอง"

งานวิจัยเชิงวิชาการ: การเกิดขึ้นของความเข้าใจในระดับตัวละคร

บทความสำคัญที่ตีพิมพ์ใน arXiv ในเดือนพฤษภาคม 2568 (“ปัญหาสตรอว์เบอร์รี: การเกิดขึ้นของความเข้าใจระดับอักขระในแบบจำลองภาษาโทเค็น”) ได้วิเคราะห์ปรากฏการณ์นี้จากมุมมองเชิงทฤษฎี นักวิจัยได้สร้างงานสังเคราะห์ 19 ชิ้นที่แยกการใช้เหตุผลระดับอักขระในบริบทที่ควบคุม ซึ่งแสดงให้เห็นว่าความสามารถเหล่านี้เกิดขึ้นอย่างกะทันหันและเกิดขึ้นเฉพาะในช่วงท้ายของการฝึกอบรมเท่านั้น

การศึกษานี้เสนอว่าการเรียนรู้องค์ประกอบของตัวละครนั้นไม่แตกต่างไปจากการเรียนรู้ความรู้สามัญสำนึกโดยพื้นฐาน แต่จะปรากฎขึ้นผ่านกระบวนการของ "การซึมผ่านของแนวคิด" เมื่อแบบจำลองเข้าถึงมวลวิกฤตของตัวอย่างและการเชื่อมโยง

นักวิจัยเสนอแนะการดัดแปลงสถาปัตยกรรมแบบเบาบางที่ช่วยปรับปรุงการใช้เหตุผลในระดับอักขระอย่างมีนัยสำคัญ ขณะเดียวกันก็ยังคงรักษาข้อดีเชิงอุปนัยของแบบจำลองที่ใช้คำย่อยไว้ อย่างไรก็ตาม การดัดแปลงเหล่านี้ยังคงอยู่ในขั้นทดลองและยังไม่ได้นำไปใช้ในแบบจำลองเชิงพาณิชย์

ผลในทางปฏิบัติ: เมื่อใดควรไว้วางใจและเมื่อใดไม่ควรไว้วางใจ

กรณี "สตรอว์เบอร์รี" สอนบทเรียนสำคัญเกี่ยวกับความน่าเชื่อถือของแบบจำลองภาษา นั่นคือ แบบจำลองภาษาเป็นเครื่องมือเชิงความน่าจะเป็น ไม่ใช่เครื่องคิดเลขแบบกำหนดตายตัว ดังที่มาร์ค ลิเบอร์แมน ระบุไว้ในบันทึกภาษา (Language Log) ว่า "คุณควรระมัดระวังในการเชื่อถือการตอบสนองของระบบ AI ใดๆ ในปัจจุบันในงานที่เกี่ยวข้องกับการนับสิ่งต่างๆ"

นี่ไม่ได้หมายความว่าโมเดลจะไร้ประโยชน์ ดังที่ผู้แสดงความคิดเห็นรายหนึ่งกล่าวไว้ว่า "แค่แมวทำผิดพลาดโง่ๆ อย่างกลัวแตงกวา ไม่ได้หมายความว่าเราไม่ควรไว้ใจแมวให้ทำหน้าที่ที่ยากกว่ามากในการไล่หนูออกจากอาคาร" โมเดลภาษาไม่ใช่เครื่องมือที่เหมาะสมหากคุณต้องการนับตัวอักษรอย่างเป็นระบบ แต่มันยอดเยี่ยมมากสำหรับการประมวลผลบทถอดเสียงพอดแคสต์หลายพันรายการโดยอัตโนมัติ และดึงชื่อแขกและพิธีกรออกมา

สำหรับภารกิจที่ต้องการความแม่นยำสูงอย่างยิ่งยวด เช่น การนำยานอวกาศลงจอดบนดาวอังคาร การคำนวณปริมาณยา และการตรวจสอบการปฏิบัติตามกฎระเบียบ แบบจำลองภาษาในปัจจุบันยังคงไม่เพียงพอหากปราศจากการควบคุมดูแลโดยมนุษย์หรือการตรวจสอบจากภายนอก ลักษณะความน่าจะเป็นของแบบจำลองเหล่านี้ทำให้แบบจำลองเหล่านี้มีประสิทธิภาพในการจับคู่รูปแบบและการสร้างสรรค์ผลงาน แต่ไม่น่าเชื่อถือสำหรับงานที่ความผิดพลาดไม่สามารถยอมรับได้

อนาคต: สู่โมเดลที่คิดเป็นเวลาหลายชั่วโมง

OpenAI ได้ระบุว่าตั้งใจที่จะทดลองใช้โมเดล o1 ที่ "ให้เหตุผลเป็นชั่วโมง เป็นวัน หรือแม้กระทั่งเป็นสัปดาห์" เพื่อปรับปรุงความสามารถในการให้เหตุผลให้ดียิ่งขึ้น o3 ได้รับการประกาศเมื่อเดือนธันวาคม 2024 (ชื่อ o2 ถูกยกเลิกเพื่อหลีกเลี่ยงความขัดแย้งด้านเครื่องหมายการค้ากับผู้ให้บริการมือถือ O2) และในเดือนมีนาคม 2025 API สำหรับ o1-pro ก็ได้เปิดตัว ซึ่งเป็นโมเดล AI ที่มีราคาแพงที่สุดของ OpenAI จนถึงปัจจุบัน โดยมีราคาอยู่ที่ 150 ดอลลาร์สหรัฐต่อโทเค็นอินพุตหนึ่งล้าน และ 600 ดอลลาร์สหรัฐต่อโทเค็นเอาต์พุตหนึ่งล้าน

ทิศทางที่ชัดเจนคือ แทนที่จะสร้างแบบจำลองให้มีขนาดใหญ่ขึ้นเรื่อยๆ (ปรับขนาดได้) OpenAI กำลังลงทุนเพื่อทำให้แบบจำลอง "คิด" ได้นานขึ้น (คำนวณเวลาทดสอบ) แนวทางนี้อาจใช้พลังงานและมีความยั่งยืนในการคำนวณมากกว่าการฝึกแบบจำลองที่มีขนาดใหญ่ขึ้นเรื่อยๆ

แต่ยังคงมีคำถามปลายเปิดอยู่ว่า แบบจำลองเหล่านี้ "ใช้เหตุผล" อย่างแท้จริง หรือเป็นเพียงการจำลองการใช้เหตุผลผ่านรูปแบบทางสถิติที่ซับซ้อนกว่า งานวิจัยของ Apple ที่เผยแพร่ในเดือนตุลาคม 2024 รายงานว่าแบบจำลองอย่าง o1 สามารถจำลองขั้นตอนการให้เหตุผลจากข้อมูลการฝึกได้ การเปลี่ยนตัวเลขและชื่อในโจทย์คณิตศาสตร์ หรือเพียงแค่รันโจทย์เดิมซ้ำๆ ทำให้ประสิทธิภาพของแบบจำลองแย่ลงอย่างมาก การเพิ่มข้อมูลที่ไม่เกี่ยวข้องแต่ไม่เกี่ยวข้องทางตรรกะ ส่งผลให้ประสิทธิภาพลดลงถึง 65% สำหรับบางแบบจำลอง

บทสรุป: เครื่องมืออันทรงพลังที่มีข้อจำกัดสำคัญ

ปัญหา "สตรอว์เบอร์รี" และวิธีแก้ปัญหาแบบ o1 เผยให้เห็นทั้งศักยภาพและข้อจำกัดโดยธรรมชาติของแบบจำลองภาษาในปัจจุบัน OpenAI ได้แสดงให้เห็นว่าด้วยการฝึกแบบเจาะจงเป้าหมายและระยะเวลาการประมวลผลที่เพิ่มขึ้น แบบจำลองสามารถเอาชนะข้อจำกัดเชิงโครงสร้างบางประการของการสร้างโทเค็นได้ แต่พวกเขาไม่ได้ขจัดข้อจำกัดนี้ออกไป พวกเขาได้หลีกเลี่ยงข้อจำกัดนี้

สำหรับผู้ใช้และนักพัฒนา บทเรียนเชิงปฏิบัตินั้นชัดเจน: การทำความเข้าใจวิธีการทำงานของระบบเหล่านี้ ทั้งสิ่งที่ทำได้ดีและจุดบกพร่อง เป็นสิ่งสำคัญอย่างยิ่งต่อการใช้งานอย่างมีประสิทธิภาพ แบบจำลองภาษาเป็นเครื่องมือที่ยอดเยี่ยมสำหรับงานเชิงความน่าจะเป็น การจับคู่รูปแบบ การสร้างความคิดสร้างสรรค์ และการสังเคราะห์ข้อมูล แต่สำหรับงานที่ต้องการความแม่นยำแบบกำหนดตายตัว เช่น การนับ การคำนวณ และการตรวจสอบข้อเท็จจริงเฉพาะเจาะจง แบบจำลองภาษายังคงไม่น่าเชื่อถือหากปราศจากการควบคุมดูแลจากภายนอกหรือเครื่องมือเสริม

ชื่อ "สตรอว์เบอร์รี" จะยังคงเป็นเครื่องเตือนใจถึงข้อจำกัดพื้นฐานนี้อย่างน่าขัน นั่นคือ แม้แต่ระบบ AI ที่ก้าวหน้าที่สุดในโลกก็ยังสามารถตอบคำถามที่เด็กหกขวบตอบได้ทันที ไม่ใช่เพราะพวกมันโง่ แต่เพราะมัน "คิด" แตกต่างจากเราอย่างมาก และบางทีเราควรเลิกคาดหวังให้พวกมันคิดเหมือนมนุษย์ได้แล้ว

ที่มา:

  • OpenAI - "การเรียนรู้การใช้เหตุผลกับ LLM" (โพสต์บล็อกอย่างเป็นทางการ กันยายน 2024)
  • Wikipedia - "OpenAI o1" (รายการอัปเดตมกราคม 2568)
  • Cosma, Adrian และคณะ - "ปัญหาสตรอว์เบอร์รี: การเกิดขึ้นของความเข้าใจในระดับอักขระในโมเดลภาษาโทเค็น" arXiv:2505.14172 (พฤษภาคม 2025)
  • Liberman, Mark - "ระบบ AI ยังคงนับไม่ได้" บันทึกภาษา (มกราคม 2025)
  • หยาง หยู - "เหตุใดโมเดลภาษาขนาดใหญ่จึงประสบปัญหาในการนับตัวอักษรในคำ" Medium (กุมภาพันธ์ 2025)
  • Orland, Kyle - "DeepSeek R1 มีประสิทธิภาพอย่างไรเมื่อเทียบกับโมเดลการใช้เหตุผลที่ดีที่สุดของ OpenAI?" Ars Technica
  • Brown, Noam (OpenAI) - ซีรีส์โพสต์ X/Twitter (กันยายน 2024)
  • TechCrunch - "OpenAI เปิดตัว o1 โมเดลที่สามารถตรวจสอบข้อเท็จจริงได้ด้วยตัวเอง" (กันยายน 2024)
  • คำเตือน 16x - "ทำไม ChatGPT ถึงนับสตรอว์เบอร์รีไม่ได้ว่ามีกี่รูปี" (อัปเดต มิถุนายน 2568)

ทรัพยากรเพื่อการเติบโตทางธุรกิจ

9 พฤศจิกายน 2568

มนุษย์ + เครื่องจักร: สร้างทีมที่ประสบความสำเร็จด้วยเวิร์กโฟลว์ที่ขับเคลื่อนด้วย AI

จะเป็นอย่างไรหากอนาคตของการทำงานไม่ใช่ "มนุษย์ปะทะเครื่องจักร" แต่เป็นความร่วมมือเชิงกลยุทธ์ องค์กรที่ประสบความสำเร็จไม่ได้เลือกระหว่างบุคลากรที่มีความสามารถกับปัญญาประดิษฐ์ แต่พวกเขากำลังสร้างระบบนิเวศที่แต่ละฝ่ายส่งเสริมซึ่งกันและกัน ค้นพบโมเดลการทำงานร่วมกัน 5 แบบที่ได้เปลี่ยนแปลงบริษัทหลายร้อยแห่ง ตั้งแต่การคัดกรองไปจนถึงการโค้ช จากการสำรวจและยืนยันตัวตนไปจนถึงการฝึกงาน ประกอบไปด้วยแผนงานเชิงปฏิบัติ กลยุทธ์ในการเอาชนะอุปสรรคทางวัฒนธรรม และตัวชี้วัดที่เป็นรูปธรรมสำหรับการวัดความสำเร็จของทีมมนุษย์และเครื่องจักร
9 พฤศจิกายน 2568

ภาพลวงตาของการใช้เหตุผล: การถกเถียงที่สั่นคลอนโลก AI

Apple ตีพิมพ์บทความสองฉบับที่สร้างความเสียหายอย่างร้ายแรง ได้แก่ "GSM-Symbolic" (ตุลาคม 2024) และ "The Illusion of Thinking" (มิถุนายน 2025) ซึ่งแสดงให้เห็นว่าหลักสูตร LLM ล้มเหลวในการแก้ปัญหาคลาสสิกแบบเล็กๆ น้อยๆ (เช่น Tower of Hanoi, การข้ามแม่น้ำ) อย่างไร โดยระบุว่า "ประสิทธิภาพลดลงเมื่อเปลี่ยนแปลงเฉพาะค่าตัวเลข" ไม่มีความสำเร็จใดๆ เลยใน Tower of Hanoi ที่ซับซ้อน แต่ Alex Lawsen (Open Philanthropy) โต้แย้งด้วยบทความ "The Illusion of the Illusion of Thinking" ซึ่งแสดงให้เห็นถึงระเบียบวิธีที่มีข้อบกพร่อง ความล้มเหลวเกิดจากข้อจำกัดของผลลัพธ์โทเค็น ไม่ใช่การล่มสลายของเหตุผล สคริปต์อัตโนมัติจัดประเภทผลลัพธ์บางส่วนที่ถูกต้องไม่ถูกต้อง และปริศนาบางอย่างไม่สามารถแก้ทางคณิตศาสตร์ได้ ด้วยการทดสอบซ้ำด้วยฟังก์ชันแบบเรียกซ้ำแทนที่จะแสดงรายการการเคลื่อนที่ Claude/Gemini/GPT จึงสามารถไข Tower of Hanoi ที่มี 15 แผ่นได้ แกรี่ มาร์คัส เห็นด้วยกับแนวคิด "การเปลี่ยนแปลงการกระจายสินค้า" ของ Apple แต่บทความเกี่ยวกับจังหวะเวลาก่อนงาน WWDC กลับตั้งคำถามเชิงกลยุทธ์ ผลกระทบทางธุรกิจ: เราควรไว้วางใจ AI ในงานสำคัญๆ มากน้อยเพียงใด วิธีแก้ปัญหา: แนวทางเชิงสัญลักษณ์ประสาทวิทยา — เครือข่ายประสาทเทียมสำหรับการจดจำรูปแบบ + ภาษา ระบบสัญลักษณ์สำหรับตรรกะเชิงรูปนัย ตัวอย่าง: ระบบบัญชี AI เข้าใจว่า "ฉันใช้จ่ายไปกับการเดินทางเท่าไหร่" แต่ SQL/การคำนวณ/การตรวจสอบภาษี = โค้ดแบบกำหนดตายตัว
9 พฤศจิกายน 2568

🤖 Tech Talk: เมื่อ AI พัฒนาภาษาที่เป็นความลับ

แม้ว่า 61% ของผู้คนจะกังวลกับ AI ที่เข้าใจอยู่แล้ว แต่ในเดือนกุมภาพันธ์ 2025 Gibberlink มียอดวิว 15 ล้านครั้ง ด้วยการนำเสนอสิ่งใหม่สุดขั้ว นั่นคือ AI สองระบบที่หยุดพูดภาษาอังกฤษและสื่อสารกันด้วยเสียงแหลมสูงที่ความถี่ 1875-4500 เฮิรตซ์ ซึ่งมนุษย์ไม่สามารถเข้าใจได้ นี่ไม่ใช่นิยายวิทยาศาสตร์ แต่เป็นโปรโตคอล FSK ที่เพิ่มประสิทธิภาพได้ถึง 80% ทำลายมาตรา 13 ของพระราชบัญญัติ AI ของสหภาพยุโรป และสร้างความทึบแสงสองชั้น นั่นคืออัลกอริทึมที่เข้าใจยากซึ่งประสานงานกันในภาษาที่ถอดรหัสไม่ได้ วิทยาศาสตร์แสดงให้เห็นว่าเราสามารถเรียนรู้โปรโตคอลของเครื่องจักรได้ (เช่น รหัสมอร์สที่ความเร็ว 20-40 คำต่อนาที) แต่เราต้องเผชิญกับขีดจำกัดทางชีววิทยาที่ยากจะเอาชนะ: 126 บิต/วินาทีสำหรับมนุษย์ เทียบกับ Mbps+ สำหรับเครื่องจักร สามอาชีพใหม่กำลังเกิดขึ้น ได้แก่ นักวิเคราะห์โปรโตคอล AI, ผู้ตรวจสอบการสื่อสาร AI และนักออกแบบส่วนต่อประสานระหว่างมนุษย์กับ AI ขณะที่ IBM, Google และ Anthropic กำลังพัฒนามาตรฐาน (ACP, A2A, MCP) เพื่อหลีกเลี่ยงปัญหาที่ยากที่สุด การตัดสินใจเกี่ยวกับโปรโตคอลการสื่อสารของ AI ในปัจจุบันจะกำหนดทิศทางของปัญญาประดิษฐ์ในอีกหลายทศวรรษข้างหน้า