ภาพลวงตาของการใช้เหตุผล: การถกเถียงที่สั่นคลอนโลก AI

Newsletter

ภาพลวงตาของการใช้เหตุผล: การถกเถียงที่สั่นคลอนโลก AI

Apple ตีพิมพ์บทความสองฉบับที่สร้างความเสียหายอย่างร้ายแรง ได้แก่ "GSM-Symbolic" (ตุลาคม 2024) และ "The Illusion of Thinking" (มิถุนายน 2025) ซึ่งแสดงให้เห็นว่าหลักสูตร LLM ล้มเหลวในการแก้ปัญหาคลาสสิกแบบเล็กๆ น้อยๆ (เช่น Tower of Hanoi, การข้ามแม่น้ำ) อย่างไร โดยระบุว่า "ประสิทธิภาพลดลงเมื่อเปลี่ยนแปลงเฉพาะค่าตัวเลข" ไม่มีความสำเร็จใดๆ เลยใน Tower of Hanoi ที่ซับซ้อน แต่ Alex Lawsen (Open Philanthropy) โต้แย้งด้วยบทความ "The Illusion of the Illusion of Thinking" ซึ่งแสดงให้เห็นถึงระเบียบวิธีที่มีข้อบกพร่อง ความล้มเหลวเกิดจากข้อจำกัดของผลลัพธ์โทเค็น ไม่ใช่การล่มสลายของเหตุผล สคริปต์อัตโนมัติจัดประเภทผลลัพธ์บางส่วนที่ถูกต้องไม่ถูกต้อง และปริศนาบางอย่างไม่สามารถแก้ทางคณิตศาสตร์ได้ ด้วยการทดสอบซ้ำด้วยฟังก์ชันแบบเรียกซ้ำแทนที่จะแสดงรายการการเคลื่อนที่ Claude/Gemini/GPT จึงสามารถไข Tower of Hanoi ที่มี 15 แผ่นได้ แกรี่ มาร์คัส เห็นด้วยกับแนวคิด "การเปลี่ยนแปลงการกระจายสินค้า" ของ Apple แต่บทความเกี่ยวกับจังหวะเวลาก่อนงาน WWDC กลับตั้งคำถามเชิงกลยุทธ์ ผลกระทบทางธุรกิจ: เราควรไว้วางใจ AI ในงานสำคัญๆ มากน้อยเพียงใด วิธีแก้ปัญหา: แนวทางเชิงสัญลักษณ์ประสาทวิทยา — เครือข่ายประสาทเทียมสำหรับการจดจำรูปแบบ + ภาษา ระบบสัญลักษณ์สำหรับตรรกะเชิงรูปนัย ตัวอย่าง: ระบบบัญชี AI เข้าใจว่า "ฉันใช้จ่ายไปกับการเดินทางเท่าไหร่" แต่ SQL/การคำนวณ/การตรวจสอบภาษี = โค้ดแบบกำหนดตายตัว

ฟาบิโอ ลอเรีย

ซีอีโอและผู้ก่อตั้ง Electe‍

สรุปบทความนี้ด้วย AI

__wf_reserved_inherit — เมื่อการใช้เหตุผลของ AI พบกับความเป็นจริง: หุ่นยนต์ใช้กฎตรรกะได้อย่างถูกต้อง แต่กลับระบุว่าลูกบาสเก็ตบอลเป็นส้ม เปรียบเสมือนการที่นักกฎหมายนิติศาสตร์ (LLM) สามารถจำลองกระบวนการเชิงตรรกะได้โดยไม่ต้องมีความเข้าใจที่แท้จริง

‍

ในช่วงไม่กี่เดือนที่ผ่านมา ชุมชน AI ต้องเผชิญกับการถกเถียงอย่างดุเดือด ซึ่งจุดชนวนมาจากงานวิจัยสำคัญสองชิ้นที่ Apple ตีพิมพ์ บทความแรกชื่อ "GSM-Symbolic" (ตุลาคม 2024) และบทความที่สองชื่อ "The Illusion of Thinking" (มิถุนายน 2025) ได้ตั้งคำถามถึงความสามารถในการใช้เหตุผลของ Large Language Models ซึ่งก่อให้เกิดปฏิกิริยาที่หลากหลายจากหลากหลายสาขา

‍

ดังที่เราได้พูดคุยกันในบทความก่อนหน้านี้ของเรา เรื่อง " ภาพลวงตาของความก้าวหน้า: การจำลองปัญญาประดิษฐ์ทั่วไปโดยไม่บรรลุผล " ปัญหาของการใช้เหตุผลเทียมนั้นเข้าไปถึงแก่นแท้ของสิ่งที่เราพิจารณาว่าเป็นปัญญาประดิษฐ์ในเครื่องจักร

‍

สิ่งที่การวิจัยของ Apple กล่าวไว้

นักวิจัยของ Apple ได้ทำการวิเคราะห์แบบจำลอง การใช้เหตุผลขนาดใหญ่ (LRM) อย่างเป็นระบบ ซึ่งเป็นแบบจำลองที่สร้างเส้นทางการใช้เหตุผลโดยละเอียดก่อนที่จะให้คำตอบ ผลลัพธ์ที่ได้นั้นน่าประหลาดใจ และสำหรับหลายๆ คนแล้ว ถือเป็นเรื่องน่าตกใจ

‍

การทดสอบที่ดำเนินการ

การศึกษาได้นำแบบจำลองขั้นสูงมาใช้กับปริศนาอัลกอริทึมคลาสสิก เช่น:

หอคอยแห่งฮานอย : ปริศนาทางคณิตศาสตร์ที่ไขได้ครั้งแรกในปี พ.ศ. 2500
ปัญหาการข้ามแม่น้ำ : ปริศนาตรรกะที่มีข้อจำกัดเฉพาะ
GSM-Symbolic Benchmark : โจทย์คณิตศาสตร์ระดับประถมศึกษารูปแบบต่างๆ

‍

การทดสอบการใช้เหตุผลด้วยปริศนาคลาสสิก: ปัญหา ชาวนา หมาป่า แพะ และกะหล่ำปลี เป็นหนึ่งในปริศนาตรรกะที่ใช้ในการศึกษาของ Apple เพื่อประเมินความสามารถในการใช้เหตุผลของนักศึกษาปริญญาโทสาขานิติศาสตร์ (LLM) ความท้าทายอยู่ที่การหาลำดับการข้ามที่ถูกต้อง พร้อมกับการป้องกันไม่ให้หมาป่ากินแพะ หรือป้องกันไม่ให้แพะกินกะหล่ำปลีเมื่อถูกทิ้งไว้ตามลำพัง เป็นการทดสอบที่เรียบง่ายแต่มีประสิทธิภาพในการแยกแยะระหว่างความเข้าใจอัลกอริทึมกับการจดจำรูปแบบ

‍

ผลลัพธ์ที่น่าโต้แย้ง

ผลการศึกษาแสดงให้เห็นว่าการเปลี่ยนแปลงเพียงเล็กน้อยในการกำหนดสูตรปัญหาก็นำไปสู่ การเปลี่ยนแปลงประสิทธิภาพอย่างมีนัยสำคัญ ซึ่งชี้ให้เห็นถึงจุดอ่อนที่น่ากังวลใน เหตุผล รายงานของ AppleInsider ระบุว่า "ประสิทธิภาพของโมเดลทั้งหมดลดลงเมื่อมีการเปลี่ยนแปลงเฉพาะค่าตัวเลขในคำถามเปรียบเทียบมาตรฐาน GSM-Symbolic"

‍

การโต้กลับ: "ภาพลวงตาของภาพลวงตาแห่งการคิด"

‍

การตอบสนองของชุมชน AI นั้นรวดเร็วมาก อเล็กซ์ ลอว์เซน จาก Open Philanthropy ร่วมมือกับคล็อด โอปุส จาก Anthropic เผยแพร่คำตอบโดยละเอียดในหัวข้อ "ภาพลวงตาของภาพลวงตาแห่งการคิด" ซึ่งท้าทายวิธีการและข้อสรุปจากการศึกษาของ Apple

ข้อโต้แย้งหลัก

ละเว้นขีดจำกัดเอาต์พุต : ความล้มเหลวจำนวนมากที่เกิดจาก "การล่มสลายของเหตุผล" จริงๆ แล้วเกิดจากขีดจำกัดโทเค็นเอาต์พุตของโมเดล
การประเมินที่ไม่ถูกต้อง : สคริปต์อัตโนมัติจัดประเภทผลลัพธ์ที่เป็นเพียงบางส่วนแต่ถูกต้องตามอัลกอริทึมเป็นความล้มเหลวทั้งหมด
ปัญหาที่เป็นไปไม่ได้ : ปริศนาบางอย่างไม่สามารถแก้ไขได้ทางคณิตศาสตร์ แต่โมเดลกลับถูกลงโทษเพราะไม่สามารถแก้ได้

การทดสอบยืนยัน

เมื่อลอว์เซนทำการทดสอบซ้ำโดยใช้วิธีการอื่น เช่น ให้โมเดลสร้างฟังก์ชันแบบเรียกซ้ำแทนที่จะแสดงรายการการเคลื่อนไหวทั้งหมด ผลลัพธ์ที่ได้กลับแตกต่างไปอย่างมาก โมเดลอย่าง Claude, Gemini และ GPT สามารถแก้ปัญหา Tower of Hanoi ได้ด้วยดิสก์ 15 แผ่น ซึ่งมีความซับซ้อนเกินกว่าที่ Apple รายงานว่าไม่มีความสำเร็จเลย

‍

เสียงที่มีอำนาจในการโต้วาที

‍

แกรี่ มาร์คัส: นักวิจารณ์ประวัติศาสตร์

แกรี่ มาร์คัส นักวิจารณ์ความสามารถในการใช้เหตุผลของหลักสูตรนิติศาสตร์ (LLM) มาอย่างยาวนาน ยกย่องผลการวิจัยของแอปเปิลว่าเป็นการยืนยันวิทยานิพนธ์ของเขาเมื่อ 20 ปีก่อน มาร์คัสกล่าวว่า หลักสูตรนิติศาสตร์ (LLM) ยังคงประสบปัญหากับ "การเปลี่ยนแปลงการกระจาย" ซึ่งเป็นความสามารถในการสรุปผลนอกเหนือจาก ข้อมูล ที่ใช้ฝึกฝน ในขณะที่ยังคง "เป็นนักแก้ปัญหาที่แก้ได้เก่ง"

‍

ชุมชนโลคอลลามะ

การอภิปรายยังขยายไปสู่ชุมชนเฉพาะทาง เช่น LocalLlama บน Reddit ซึ่งนักพัฒนาและนักวิจัยถกเถียงกันถึงผล ในทางปฏิบัติ ของโมเดลโอเพ่นซอร์สและการใช้งานในระดับท้องถิ่น

‍

เหนือความขัดแย้ง: ความหมายสำหรับธุรกิจ

ผลกระทบเชิงกลยุทธ์

การถกเถียงนี้ไม่ใช่เพียงเรื่องวิชาการเท่านั้น แต่มันมีความหมายโดยตรงต่อ:

การใช้งาน AI ในระบบการผลิต : เราสามารถไว้วางใจโมเดลสำหรับงานที่สำคัญได้มากเพียงใด?
การลงทุนด้านการวิจัยและพัฒนา : ควรมุ่งเน้นทรัพยากรไปที่ใดสำหรับการพัฒนาครั้งสำคัญครั้งต่อไป?
การสื่อสารกับผู้มีส่วนได้ส่วนเสีย : จะจัดการกับความคาดหวังที่สมจริงเกี่ยวกับความสามารถของ AI ได้อย่างไร

วิถีแห่งสัญลักษณ์ประสาท

ตามที่เน้นไว้ใน ข้อมูลเชิงเทคนิค หลายฉบับ ความจำเป็นในการใช้แนวทางแบบผสมผสานที่ผสมผสาน:

เครือข่ายประสาท สำหรับการจดจำรูปแบบและความเข้าใจภาษา
ระบบสัญลักษณ์ สำหรับการใช้เหตุผลเชิงอัลกอริทึมและตรรกะเชิงรูปนัย

ตัวอย่างง่ายๆ : ผู้ช่วย AI ที่ช่วยเรื่องบัญชี โมเดลภาษาเข้าใจเมื่อคุณถามว่า "เดือนนี้ฉันใช้จ่ายไปกับการเดินทางเท่าไหร่" และดึงพารามิเตอร์ที่เกี่ยวข้องออกมา (หมวดหมู่: การเดินทาง, ช่วงเวลา: เดือนนี้) แต่คำสั่ง SQL ที่สืบค้นฐานข้อมูล คำนวณผลรวม และตรวจสอบข้อจำกัดทางภาษีล่ะ? คำสั่งนี้ทำโดยโค้ดแบบกำหนดได้ ไม่ใช่แบบจำลองทางประสาท

‍

เวลาและบริบทเชิงกลยุทธ์

ผู้สังเกตการณ์ต่างจับตามองอย่างใกล้ชิดว่าเอกสารของ Apple เผยแพร่ก่อน WWDC ไม่นานนัก ทำให้เกิดคำถามเกี่ยวกับแรงจูงใจเชิงกลยุทธ์ ดังที่ บทวิเคราะห์ของ 9to5Mac ระบุว่า "ช่วงเวลาของเอกสาร Apple ก่อน WWDC เล็กน้อย ทำให้หลายคนตั้งคำถามว่า นี่เป็นก้าวสำคัญด้านการวิจัย หรือเป็นการเคลื่อนไหวเชิงกลยุทธ์เพื่อปรับตำแหน่งของ Apple ในวงการ AI โดยรวมกันแน่"

‍

บทเรียนสำหรับอนาคต

สำหรับนักวิจัย

การออกแบบเชิงทดลอง : ความสำคัญของการแยกแยะระหว่างข้อจำกัดทางสถาปัตยกรรมและข้อจำกัดในการใช้งาน
การประเมินอย่างเข้มงวด : ความจำเป็นสำหรับเกณฑ์มาตรฐานที่ซับซ้อนซึ่งแยกความสามารถทางปัญญาจากข้อจำกัดในทางปฏิบัติ
ความโปร่งใสเชิงวิธีการ : ข้อกำหนดในการบันทึกการตั้งค่าและข้อจำกัดของการทดลองอย่างครบถ้วน

สำหรับบริษัท

ความคาดหวังที่สมจริง : การรับรู้ข้อจำกัดในปัจจุบันโดยไม่ละทิ้งศักยภาพในอนาคต
แนวทางแบบผสมผสาน : การลงทุนในโซลูชันที่ผสมผสานจุดแข็งของเทคโนโลยีที่แตกต่างกัน
การประเมินอย่างต่อเนื่อง : การนำระบบการทดสอบที่สะท้อนถึงสถานการณ์การใช้งานจริงมาใช้

บทสรุป: การนำทางสู่ความไม่แน่นอน

‍

การถกเถียงที่เกิดขึ้นจากเอกสารของ Apple เตือนเราว่าเรายังอยู่ในช่วงเริ่มต้นของการทำความเข้าใจปัญญาประดิษฐ์ ดังที่ได้เน้นย้ำไว้ใน บทความก่อนหน้า ของเรา ความแตกต่างระหว่างการจำลองสถานการณ์และการใช้เหตุผลที่แท้จริงยังคงเป็นหนึ่งในความท้าทายที่ซับซ้อนที่สุดในยุคสมัยของเรา

‍

บทเรียนที่แท้จริงไม่ได้อยู่ที่ว่า LLM สามารถ "ใช้เหตุผล" ในความหมายของมนุษย์ได้หรือไม่ หากแต่อยู่ที่ว่าเราจะสร้างระบบที่ใช้ประโยชน์จากจุดแข็งของพวกเขา พร้อมกับชดเชยข้อจำกัดเหล่านั้นได้อย่างไร ในโลกที่ AI กำลังเปลี่ยนแปลงอุตสาหกรรมทั้งหมด คำถามไม่ได้อยู่ที่ว่าเครื่องมือเหล่านี้ "ชาญฉลาด" หรือไม่ แต่เป็นคำถามที่ว่า เราจะใช้มันอย่างมีประสิทธิภาพและมีความรับผิดชอบได้อย่างไร

‍

อนาคตของ AI ระดับองค์กรอาจไม่ได้ขึ้นอยู่กับแนวทางการปฏิวัติเพียงแนวทางเดียว แต่อยู่ที่การผสมผสานเทคโนโลยีเสริมต่างๆ เข้าด้วยกันอย่างชาญฉลาด และในสถานการณ์เช่นนี้ ความสามารถในการประเมินความสามารถของเครื่องมือต่างๆ ของเราอย่างมีวิจารณญาณและตรงไปตรงมาจะกลายเป็นข้อได้เปรียบในการแข่งขันในตัวมันเอง

‍

หากต้องการข้อมูลเชิงลึกเกี่ยวกับกลยุทธ์ AI ขององค์กรของคุณและการนำโซลูชันที่แข็งแกร่งมาใช้ ทีมผู้เชี่ยวชาญของเรายินดีให้คำปรึกษาแบบเฉพาะบุคคล

‍

ที่มาและอ้างอิง:

GSM-Symbolic: ทำความเข้าใจข้อจำกัดของการใช้เหตุผลทางคณิตศาสตร์ในโมเดลภาษาขนาดใหญ่ - การวิจัยการเรียนรู้ของเครื่อง Apple
ภาพลวงตาของการคิด: ทำความเข้าใจจุดแข็งและข้อจำกัดของโมเดลการใช้เหตุผล - การวิจัยการเรียนรู้ของเครื่อง Apple
บทความใหม่โต้แย้งการศึกษาเรื่อง 'การล่มสลายของเหตุผล' ในหลักสูตร LLM ของ Apple - 9to5Mac
เจ็ดคำตอบต่อเอกสารเหตุผลไวรัลของ Apple - Gary Marcus
ภาพลวงตาของการคิด: เอกสาร Apple AI พูดถึงการใช้เหตุผล LLM อย่างไร - Arize AI
การศึกษาวิจัยของ Apple พิสูจน์ว่าโมเดล AI ที่ใช้ LLM นั้นมีข้อบกพร่อง - AppleInsider
ภาพลวงตาของความก้าวหน้า: การจำลองปัญญาประดิษฐ์ทั่วไปโดยไม่ประสบความสำเร็จ - Electe

ทรัพยากรเพื่อการเติบโตทางธุรกิจ

9 พฤศจิกายน 2568

เครื่องจักรที่เรียนรู้ (และ) จากความผิดพลาดของเรา เอฟเฟกต์บูมเมอแรง: เราสอนข้อบกพร่องของเราให้ AI และมันจะคืนข้อบกพร่องเหล่านั้นกลับมาให้เรา...ทวีคูณ!

AI สืบทอดอคติของเรา แล้วขยายผลให้กว้างขึ้น เราเห็นผลลัพธ์ที่บิดเบือน และเสริมอคตินั้น วงจรนี้ดำเนินไปเอง การศึกษาของ UCL พบว่าอคติ 4.7% ในการจดจำใบหน้าเพิ่มขึ้นเป็น 11.3% หลังจากปฏิสัมพันธ์ระหว่างมนุษย์กับ AI ในด้านทรัพยากรบุคคล แต่ละวงจรจะเพิ่มอคติทางเพศขึ้น 8-14% ข่าวดีก็คือ เทคนิค "กระจกอัลกอริทึม" ซึ่งแสดงให้ผู้จัดการเห็นว่าการตัดสินใจของพวกเขาจะเป็นอย่างไรหากใช้ AI ช่วยลดอคติลงได้ 41%

9 พฤศจิกายน 2568

ปัญญาประดิษฐ์เพื่อสิ่งแวดล้อม: นวัตกรรมและโซลูชั่น 2025

AI สร้างมลพิษมากขนาดนั้นจริงหรือ? การศึกษาของบริสตอลเผยให้เห็นว่า: ประมาณการถูกประเมินสูงเกินจริงถึง 90 เท่า ในการประมวลผลข้อความที่ซับซ้อน AI ปล่อยก๊าซคาร์บอนไดออกไซด์น้อยกว่ามนุษย์ถึง 130-1,500 เท่า ศักยภาพคืออะไร? การลดการปล่อยก๊าซเรือนกระจกทั่วโลกลง 10% ภายในปี 2030 ซึ่งเทียบเท่ากับการปล่อยก๊าซเรือนกระจกทั่วทั้งสหภาพยุโรป ในอิตาลี: 500 ล้านยูโรสำหรับการตรวจสอบสิ่งแวดล้อมที่ขับเคลื่อนด้วย AI ผลกระทบของศูนย์ข้อมูล? ภายในปี 2033 90% จะใช้พลังงานหมุนเวียน ความขัดแย้งที่แท้จริงคือการไม่ใช้ AI เพื่อการเปลี่ยนแปลงสภาพภูมิอากาศ

9 พฤศจิกายน 2568

สติปัญญาที่รายล้อมเราอยู่โดยที่เราไม่ทันรู้ตัว

ต่างจาก Alexa ที่ตอบสนองต่อคำสั่ง Ambient Intelligence ทำงานอย่างเงียบเชียบ โดยปรับสภาพแวดล้อมโดยที่คุณไม่ต้องทำอะไรเลย มูลค่าตลาดเพิ่มขึ้นจาก 18.44 พันล้านดอลลาร์ (ปี 2022) เป็น 100 พันล้านดอลลาร์ภายในปี 2030 เทอร์โมสตัทที่เรียนรู้การตั้งค่าของคุณ ร้านค้าที่จัดวางเลย์เอาต์ใหม่แบบเรียลไทม์ สำนักงานที่ปรับแสงและเสียงตามงานของคุณ ความเป็นส่วนตัว? การประมวลผลภายในเครื่อง ไม่มีพื้นที่จัดเก็บข้อมูลส่วนกลาง อนาคตของเทคโนโลยี? การมองไม่เห็น

9 พฤศจิกายน 2568

กลยุทธ์การตลาดสุดสร้างสรรค์ของ Slate Auto: รถยนต์ “Transformer” บนถนนในแคลิฟอร์เนีย

รถยนต์ไฟฟ้าที่เปลี่ยนจากรถกระบะเป็นรถ SUV และอาจมีราคาต่ำกว่า 20,000 ดอลลาร์ Slate Auto ซึ่งได้รับทุนสนับสนุนจาก Jeff Bezos กำลังมุ่งเป้าไปที่ชาวอเมริกัน 70% ที่มีรายได้ต่ำกว่า 100,000 ดอลลาร์ ซึ่งเป็นกลุ่มตลาดที่ผู้ผลิตรถยนต์ไฟฟ้าระดับพรีเมียมมองข้าม มาพร้อมกระจกปรับมือ ไม่มีระบบอินโฟเทนเมนต์ แผงหน้าปัดโพลีโพรพีลีนที่ไม่ได้ทาสี แต่ความท้าทายคืออะไร? ความปลอดภัยของชิ้นส่วน DIY ระยะทางจำกัด (150-240 ไมล์) และการพึ่งพาเครดิตภาษี คาดว่าจะผลิตปลายปี 2026 แนวคิดนี้น่าสนใจ แต่ในความเป็นจริงแล้วมีความซับซ้อนมากกว่านั้น