Newsletter

ภาพลวงตาของการใช้เหตุผล: การถกเถียงที่สั่นคลอนโลก AI

Apple ตีพิมพ์บทความสองฉบับที่สร้างความเสียหายอย่างร้ายแรง ได้แก่ "GSM-Symbolic" (ตุลาคม 2024) และ "The Illusion of Thinking" (มิถุนายน 2025) ซึ่งแสดงให้เห็นว่าหลักสูตร LLM ล้มเหลวในการแก้ปัญหาคลาสสิกแบบเล็กๆ น้อยๆ (เช่น Tower of Hanoi, การข้ามแม่น้ำ) อย่างไร โดยระบุว่า "ประสิทธิภาพลดลงเมื่อเปลี่ยนแปลงเฉพาะค่าตัวเลข" ไม่มีความสำเร็จใดๆ เลยใน Tower of Hanoi ที่ซับซ้อน แต่ Alex Lawsen (Open Philanthropy) โต้แย้งด้วยบทความ "The Illusion of the Illusion of Thinking" ซึ่งแสดงให้เห็นถึงระเบียบวิธีที่มีข้อบกพร่อง ความล้มเหลวเกิดจากข้อจำกัดของผลลัพธ์โทเค็น ไม่ใช่การล่มสลายของเหตุผล สคริปต์อัตโนมัติจัดประเภทผลลัพธ์บางส่วนที่ถูกต้องไม่ถูกต้อง และปริศนาบางอย่างไม่สามารถแก้ทางคณิตศาสตร์ได้ ด้วยการทดสอบซ้ำด้วยฟังก์ชันแบบเรียกซ้ำแทนที่จะแสดงรายการการเคลื่อนที่ Claude/Gemini/GPT จึงสามารถไข Tower of Hanoi ที่มี 15 แผ่นได้ แกรี่ มาร์คัส เห็นด้วยกับแนวคิด "การเปลี่ยนแปลงการกระจายสินค้า" ของ Apple แต่บทความเกี่ยวกับจังหวะเวลาก่อนงาน WWDC กลับตั้งคำถามเชิงกลยุทธ์ ผลกระทบทางธุรกิจ: เราควรไว้วางใจ AI ในงานสำคัญๆ มากน้อยเพียงใด วิธีแก้ปัญหา: แนวทางเชิงสัญลักษณ์ประสาทวิทยา — เครือข่ายประสาทเทียมสำหรับการจดจำรูปแบบ + ภาษา ระบบสัญลักษณ์สำหรับตรรกะเชิงรูปนัย ตัวอย่าง: ระบบบัญชี AI เข้าใจว่า "ฉันใช้จ่ายไปกับการเดินทางเท่าไหร่" แต่ SQL/การคำนวณ/การตรวจสอบภาษี = โค้ดแบบกำหนดตายตัว
ฟาบิโอ ลอเรีย
ซีอีโอและผู้ก่อตั้ง Electe‍
เมื่อการใช้เหตุผลของ AI พบกับความเป็นจริง: หุ่นยนต์ใช้กฎตรรกะได้อย่างถูกต้อง แต่กลับระบุว่าลูกบาสเก็ตบอลเป็นส้ม เปรียบเสมือนการที่นักกฎหมายนิติศาสตร์ (LLM) สามารถจำลองกระบวนการเชิงตรรกะได้โดยไม่ต้องมีความเข้าใจที่แท้จริง

ในช่วงไม่กี่เดือนที่ผ่านมา ชุมชน AI ต้องเผชิญกับการถกเถียงอย่างดุเดือด ซึ่งจุดชนวนมาจากงานวิจัยสำคัญสองชิ้นที่ Apple ตีพิมพ์ บทความแรกชื่อ "GSM-Symbolic" (ตุลาคม 2024) และบทความที่สองชื่อ "The Illusion of Thinking" (มิถุนายน 2025) ได้ตั้งคำถามถึงความสามารถในการใช้เหตุผลของ Large Language Models ซึ่งก่อให้เกิดปฏิกิริยาที่หลากหลายทั่วทั้งอุตสาหกรรม

ดังที่เราได้พูดคุยกันในบทความก่อนหน้านี้ เรื่อง "ภาพลวงตาของความก้าวหน้า: การจำลองปัญญาประดิษฐ์ทั่วไปโดยไม่บรรลุเป้าหมาย" คำถามเกี่ยวกับการใช้เหตุผลเทียมนั้นเข้าถึงแก่นแท้ของสิ่งที่เราพิจารณาว่าเป็นปัญญาประดิษฐ์ในเครื่องจักร

สิ่งที่การวิจัยของ Apple กล่าวไว้

นักวิจัยของ Apple ได้ทำการวิเคราะห์แบบจำลอง การใช้เหตุผลขนาดใหญ่ (LRM) อย่างเป็นระบบ ซึ่งเป็นแบบจำลองที่สร้างเส้นทางการใช้เหตุผลโดยละเอียดก่อนที่จะให้คำตอบ ผลลัพธ์ที่ได้นั้นน่าประหลาดใจ และสำหรับหลายๆ คนแล้ว ถือเป็นเรื่องน่าตกใจ

การทดสอบที่ดำเนินการ

การศึกษาได้นำแบบจำลองขั้นสูงมาใช้กับปริศนาอัลกอริทึมคลาสสิก เช่น:

  • หอคอยแห่งฮานอย : ปริศนาทางคณิตศาสตร์ที่ไขได้ครั้งแรกในปี พ.ศ. 2500
  • ปัญหาการข้ามแม่น้ำ : ปริศนาตรรกะที่มีข้อจำกัดเฉพาะ
  • GSM-Symbolic Benchmark : โจทย์คณิตศาสตร์ระดับประถมศึกษารูปแบบต่างๆ

การทดสอบการใช้เหตุผลด้วยปริศนาคลาสสิก: ปัญหาชาวนา หมาป่า แพะ และกะหล่ำปลี เป็นหนึ่งในปริศนาตรรกะที่ใช้ในการศึกษาของ Apple เพื่อประเมินความสามารถในการใช้เหตุผลของนักศึกษาปริญญาโทสาขานิติศาสตร์ (LLM) ความท้าทายอยู่ที่การหาลำดับการข้ามที่ถูกต้อง พร้อมกับการป้องกันไม่ให้หมาป่ากินแพะ หรือป้องกันไม่ให้แพะกินกะหล่ำปลีเมื่อถูกทิ้งไว้ตามลำพัง เป็นการทดสอบที่เรียบง่ายแต่มีประสิทธิภาพในการแยกแยะระหว่างความเข้าใจอัลกอริทึมกับการจดจำรูปแบบ

ผลลัพธ์ที่น่าโต้แย้ง

ผลการศึกษาแสดงให้เห็นว่าการเปลี่ยนแปลงเพียงเล็กน้อยในการกำหนดสูตรปัญหาก็นำไปสู่ การเปลี่ยนแปลงประสิทธิภาพอย่างมีนัยสำคัญ ซึ่งชี้ให้เห็นถึงจุดอ่อนที่น่ากังวลใน เหตุผล รายงานของ AppleInsider ระบุว่า "ประสิทธิภาพของโมเดลทั้งหมดลดลงเมื่อมีการเปลี่ยนแปลงเฉพาะค่าตัวเลขในคำถามเปรียบเทียบมาตรฐาน GSM-Symbolic"

การโต้กลับ: "ภาพลวงตาของภาพลวงตาแห่งการคิด"

การตอบสนองของชุมชน AI นั้นรวดเร็วมาก อเล็กซ์ ลอว์เซน จาก Open Philanthropy ร่วมมือกับคล็อด โอปุส จาก Anthropic เผยแพร่คำตอบโดยละเอียดในหัวข้อ "ภาพลวงตาของภาพลวงตาแห่งการคิด" ซึ่งท้าทายวิธีการและข้อสรุปจากการศึกษาของ Apple

ข้อโต้แย้งหลัก

  1. ละเว้นขีดจำกัดเอาต์พุต : ความล้มเหลวจำนวนมากที่เกิดจาก "การล่มสลายของเหตุผล" จริงๆ แล้วเกิดจากขีดจำกัดโทเค็นเอาต์พุตของโมเดล
  2. การประเมินที่ไม่ถูกต้อง : สคริปต์อัตโนมัติจัดประเภทผลลัพธ์ที่เป็นเพียงบางส่วนแต่ถูกต้องตามอัลกอริทึมเป็นความล้มเหลวทั้งหมด
  3. ปัญหาที่เป็นไปไม่ได้ : ปริศนาบางอย่างไม่สามารถแก้ไขได้ทางคณิตศาสตร์ แต่โมเดลกลับถูกลงโทษเพราะไม่สามารถแก้ได้

การทดสอบยืนยัน

เมื่อลอว์เซนทำการทดสอบซ้ำโดยใช้วิธีการอื่น เช่น ให้แบบจำลองสร้างฟังก์ชันแบบเรียกซ้ำแทนที่จะแสดงรายการการเคลื่อนไหวทั้งหมด ผลลัพธ์ที่ได้กลับแตกต่างไปอย่างมาก แบบจำลองอย่างคล็อด เจมินี และ GPT สามารถแก้ปัญหาทาวเวอร์ออฟฮานอยได้สำเร็จด้วยดิสก์ 15 แผ่น ซึ่งมีความซับซ้อนเกินกว่าที่แอปเปิลรายงานว่าไม่มีความสำเร็จเลย

เสียงที่มีอำนาจในการโต้วาที

แกรี่ มาร์คัส: นักวิจารณ์ประวัติศาสตร์

แกรี่ มาร์คัส นักวิจารณ์ความสามารถในการใช้เหตุผลของหลักสูตรนิติศาสตร์ (LLM) มาอย่างยาวนาน ยกย่องผลการวิจัยของแอปเปิลว่าเป็นการยืนยันวิทยานิพนธ์ของเขาเมื่อ 20 ปีก่อน มาร์คัสกล่าวว่า หลักสูตรนิติศาสตร์ (LLM) ยังคงประสบปัญหากับ "การเปลี่ยนแปลงการกระจาย" ซึ่งเป็นความสามารถในการสรุปผลนอกเหนือจากข้อมูลที่ใช้ฝึกฝน ในขณะที่ยังคง "เป็นนักแก้ปัญหาที่แก้ได้เก่ง"

ชุมชนโลคอลลามะ

การอภิปรายยังขยายไปสู่ชุมชนเฉพาะทาง เช่น LocalLlama บน Reddit ซึ่งนักพัฒนาและนักวิจัยถกเถียงกันถึงผลในทางปฏิบัติของโมเดลโอเพ่นซอร์สและการใช้งานในระดับท้องถิ่น

เหนือความขัดแย้ง: ความหมายสำหรับธุรกิจ

ผลกระทบเชิงกลยุทธ์

การถกเถียงนี้ไม่ใช่เพียงเรื่องวิชาการเท่านั้น แต่มันมีความหมายโดยตรงต่อ:

  • การใช้งาน AI ในระบบการผลิต : เราสามารถไว้วางใจโมเดลสำหรับงานที่สำคัญได้มากเพียงใด?
  • การลงทุนด้านการวิจัยและพัฒนา : ควรมุ่งเน้นทรัพยากรไปที่ใดสำหรับการพัฒนาครั้งสำคัญครั้งต่อไป?
  • การสื่อสารกับผู้มีส่วนได้ส่วนเสีย : จะจัดการกับความคาดหวังที่สมจริงเกี่ยวกับความสามารถของ AI ได้อย่างไร

วิถีแห่งสัญลักษณ์ประสาท

ตามที่เน้นไว้ใน ข้อมูลเชิงเทคนิค หลายฉบับ ความจำเป็นในการใช้แนวทางแบบผสมผสานที่ผสมผสาน:

  • เครือข่ายประสาท สำหรับการจดจำรูปแบบและความเข้าใจภาษา
  • ระบบสัญลักษณ์ สำหรับการใช้เหตุผลเชิงอัลกอริทึมและตรรกะเชิงรูปนัย

ตัวอย่างง่ายๆ : ผู้ช่วย AI ที่ช่วยเรื่องบัญชี โมเดลภาษาเข้าใจเมื่อคุณถามว่า "เดือนนี้ฉันใช้จ่ายไปกับการเดินทางเท่าไหร่" และดึงพารามิเตอร์ที่เกี่ยวข้องออกมา (หมวดหมู่: การเดินทาง, ช่วงเวลา: เดือนนี้) แต่คำสั่ง SQL ที่สืบค้นฐานข้อมูล คำนวณผลรวม และตรวจสอบข้อจำกัดทางภาษีล่ะ? คำสั่งนี้ทำโดยโค้ดแบบกำหนดได้ ไม่ใช่แบบจำลองทางประสาท

เวลาและบริบทเชิงกลยุทธ์

ผู้สังเกตการณ์ต่างจับตามองอย่างใกล้ชิดว่าเอกสารของ Apple เผยแพร่ก่อน WWDC ไม่นานนัก ทำให้เกิดคำถามเกี่ยวกับแรงจูงใจเชิงกลยุทธ์ ดังที่ บทวิเคราะห์ของ 9to5Mac ระบุว่า "ช่วงเวลาของเอกสาร Apple ก่อน WWDC เล็กน้อย ทำให้หลายคนตั้งคำถามว่า นี่เป็นก้าวสำคัญด้านการวิจัย หรือเป็นการเคลื่อนไหวเชิงกลยุทธ์เพื่อปรับตำแหน่งของ Apple ในวงการ AI โดยรวมกันแน่"

บทเรียนสำหรับอนาคต

สำหรับนักวิจัย

  • การออกแบบเชิงทดลอง : ความสำคัญของการแยกแยะระหว่างข้อจำกัดทางสถาปัตยกรรมและข้อจำกัดในการใช้งาน
  • การประเมินอย่างเข้มงวด : ความจำเป็นสำหรับเกณฑ์มาตรฐานที่ซับซ้อนซึ่งแยกความสามารถทางปัญญาจากข้อจำกัดในทางปฏิบัติ
  • ความโปร่งใสเชิงวิธีการ : ข้อกำหนดในการบันทึกการตั้งค่าและข้อจำกัดของการทดลองอย่างครบถ้วน

สำหรับบริษัท

  • ความคาดหวังที่สมจริง : การรับรู้ข้อจำกัดในปัจจุบันโดยไม่ละทิ้งศักยภาพในอนาคต
  • แนวทางแบบผสมผสาน : การลงทุนในโซลูชันที่ผสมผสานจุดแข็งของเทคโนโลยีที่แตกต่างกัน
  • การประเมินอย่างต่อเนื่อง : การนำระบบการทดสอบที่สะท้อนถึงสถานการณ์การใช้งานจริงมาใช้

บทสรุป: การนำทางสู่ความไม่แน่นอน

การถกเถียงที่เกิดขึ้นจากเอกสารของ Apple เตือนเราว่าเรายังอยู่ในช่วงเริ่มต้นของการทำความเข้าใจปัญญาประดิษฐ์ ดังที่ได้เน้นย้ำไว้ใน บทความก่อนหน้า ของเรา ความแตกต่างระหว่างการจำลองสถานการณ์และการใช้เหตุผลที่แท้จริงยังคงเป็นหนึ่งในความท้าทายที่ซับซ้อนที่สุดในยุคสมัยของเรา

บทเรียนที่แท้จริงไม่ได้อยู่ที่ว่า LLM สามารถ "ใช้เหตุผล" ในความหมายของมนุษย์ได้หรือไม่ หากแต่อยู่ที่ว่าเราจะสร้างระบบที่ใช้ประโยชน์จากจุดแข็งของพวกเขา พร้อมกับชดเชยข้อจำกัดเหล่านั้นได้อย่างไร ในโลกที่ AI กำลังเปลี่ยนแปลงอุตสาหกรรมทั้งหมด คำถามไม่ได้อยู่ที่ว่าเครื่องมือเหล่านี้ "ชาญฉลาด" หรือไม่ แต่เป็นคำถามที่ว่า เราจะใช้มันอย่างมีประสิทธิภาพและมีความรับผิดชอบได้อย่างไร

อนาคตของ AI ระดับองค์กรอาจไม่ได้ขึ้นอยู่กับแนวทางการปฏิวัติเพียงแนวทางเดียว แต่อยู่ที่การผสมผสานเทคโนโลยีเสริมต่างๆ เข้าด้วยกันอย่างชาญฉลาด และในสถานการณ์เช่นนี้ ความสามารถในการประเมินความสามารถของเครื่องมือต่างๆ ของเราอย่างมีวิจารณญาณและตรงไปตรงมาจะกลายเป็นข้อได้เปรียบในการแข่งขันในตัวมันเอง

หากต้องการข้อมูลเชิงลึกเกี่ยวกับกลยุทธ์ AI ขององค์กรของคุณและการนำโซลูชันที่แข็งแกร่งมาใช้ ทีมผู้เชี่ยวชาญของเรายินดีให้คำปรึกษาแบบเฉพาะบุคคล

ที่มาและอ้างอิง:

ทรัพยากรเพื่อการเติบโตทางธุรกิจ

9 พฤศจิกายน 2568

คู่มือซอฟต์แวร์ Business Intelligence ฉบับสมบูรณ์สำหรับ SMB

SMEs อิตาลี 60% ยอมรับว่ายังมีช่องว่างสำคัญในการฝึกอบรมด้านข้อมูล ขณะที่ 29% ไม่มีแม้แต่ตัวเลขเฉพาะเจาะจง ขณะที่ตลาด BI ของอิตาลีกำลังเติบโตอย่างรวดเร็วจาก 36.79 พันล้านดอลลาร์สหรัฐ เป็น 69.45 พันล้านดอลลาร์สหรัฐ ภายในปี 2034 (อัตราการเติบโตเฉลี่ยต่อปีอยู่ที่ 8.56%) ปัญหาไม่ได้อยู่ที่เทคโนโลยี แต่อยู่ที่วิธีการ SMEs กำลังจมอยู่กับข้อมูลที่กระจัดกระจายอยู่ใน CRM, ERP และสเปรดชีต Excel โดยไม่ได้นำข้อมูลเหล่านั้นมาประกอบการตัดสินใจ ซึ่งใช้ได้กับทั้งผู้ที่เริ่มต้นตั้งแต่ต้นและผู้ที่กำลังมองหาการปรับปรุงประสิทธิภาพ เกณฑ์การคัดเลือกที่สำคัญ ได้แก่ ความสามารถในการใช้งานแบบลากและวางโดยไม่ต้องฝึกอบรมหลายเดือน ความสามารถในการปรับขนาดที่เติบโตไปพร้อมกับคุณ การผสานรวมกับระบบเดิมที่มีอยู่ ต้นทุนการเป็นเจ้าของ (TCO) ที่สมบูรณ์ (การติดตั้ง + การฝึกอบรม + การบำรุงรักษา) เทียบกับราคาใบอนุญาตเพียงอย่างเดียว แผนงานสี่ระยะประกอบด้วยวัตถุประสงค์ SMART ที่วัดผลได้ (ลดอัตราการยกเลิกบริการลง 15% ภายใน 6 เดือน) การจัดทำแผนผังแหล่งข้อมูลที่สะอาด (ข้อมูลขยะเข้า = ข้อมูลขยะออก) การฝึกอบรมทีมเกี่ยวกับวัฒนธรรมข้อมูล และโครงการนำร่องที่มีวงจรป้อนกลับอย่างต่อเนื่อง AI เปลี่ยนแปลงทุกสิ่งทุกอย่าง ตั้งแต่ BI เชิงบรรยาย (สิ่งที่เกิดขึ้น) ไปจนถึงการวิเคราะห์เสริมที่เปิดเผยรูปแบบที่ซ่อนอยู่ การวิเคราะห์เชิงทำนายที่ประเมินความต้องการในอนาคต และการวิเคราะห์เชิงกำหนดที่แนะนำการดำเนินการที่เป็นรูปธรรม Electe กระจายอำนาจนี้ให้กับ SMEs
9 พฤศจิกายน 2568

ระบบระบายความร้อน AI ของ Google DeepMind: ปัญญาประดิษฐ์ปฏิวัติประสิทธิภาพการใช้พลังงานของศูนย์ข้อมูลอย่างไร

Google DeepMind ประหยัดพลังงานระบบทำความเย็นในศูนย์ข้อมูลได้ -40% (แต่ใช้พลังงานรวมเพียง -4% เนื่องจากระบบทำความเย็นคิดเป็น 10% ของพลังงานรวมทั้งหมด) โดยมีความแม่นยำ 99.6% และความผิดพลาด 0.4% บน PUE 1.1 โดยใช้การเรียนรู้เชิงลึก 5 ชั้น โหนด 50 โหนด ตัวแปรอินพุต 19 ตัว จากตัวอย่างการฝึกอบรม 184,435 ตัวอย่าง (ข้อมูล 2 ปี) ได้รับการยืนยันใน 3 สถานที่: สิงคโปร์ (ใช้งานครั้งแรกในปี 2016), Eemshaven, Council Bluffs (ลงทุน 5 พันล้านดอลลาร์) ค่า PUE ทั่วทั้งกลุ่มผลิตภัณฑ์ของ Google อยู่ที่ 1.09 เทียบกับค่าเฉลี่ยของอุตสาหกรรมที่ 1.56-1.58 ระบบควบคุมเชิงคาดการณ์ (Model Predictive Control) คาดการณ์อุณหภูมิ/แรงดันในชั่วโมงถัดไป พร้อมกับจัดการภาระงานด้านไอที สภาพอากาศ และสถานะของอุปกรณ์ไปพร้อมๆ กัน ความปลอดภัยที่รับประกัน: การตรวจสอบสองระดับ ผู้ปฏิบัติงานสามารถปิดใช้งาน AI ได้ตลอดเวลา ข้อจำกัดสำคัญ: ไม่มีการตรวจสอบอิสระจากบริษัทตรวจสอบบัญชี/ห้องปฏิบัติการระดับชาติ แต่ละศูนย์ข้อมูลต้องใช้แบบจำลองที่กำหนดเอง (8 ปี ไม่เคยนำไปใช้ในเชิงพาณิชย์) ระยะเวลาดำเนินการ: 6-18 เดือน ต้องใช้ทีมสหสาขาวิชาชีพ (วิทยาศาสตร์ข้อมูล, ระบบปรับอากาศ (HVAC), การจัดการสิ่งอำนวยความสะดวก) ครอบคลุมพื้นที่นอกเหนือจากศูนย์ข้อมูล: โรงงานอุตสาหกรรม โรงพยาบาล ศูนย์การค้า และสำนักงานต่างๆ ปี 2024-2025: Google เปลี่ยนไปใช้ระบบระบายความร้อนด้วยของเหลวโดยตรงสำหรับ TPU v5p ซึ่งบ่งชี้ถึงข้อจำกัดในทางปฏิบัติของการเพิ่มประสิทธิภาพ AI
9 พฤศจิกายน 2568

ทำไมคณิตศาสตร์ถึงยาก (แม้ว่าคุณจะเป็น AI ก็ตาม)

แบบจำลองภาษาไม่สามารถคูณได้ พวกมันจดจำผลลัพธ์ได้เหมือนกับที่เราจดจำค่าพาย แต่ไม่ได้หมายความว่าพวกมันมีความสามารถทางคณิตศาสตร์ ปัญหาอยู่ที่โครงสร้าง พวกมันเรียนรู้ผ่านความคล้ายคลึงทางสถิติ ไม่ใช่ความเข้าใจเชิงอัลกอริทึม แม้แต่ "แบบจำลองการใช้เหตุผล" ใหม่ๆ อย่าง o1 ก็ยังล้มเหลวในงานเล็กๆ น้อยๆ เช่น มันสามารถนับตัว 'r' ในคำว่า "strawberry" ได้อย่างถูกต้องหลังจากประมวลผลเพียงไม่กี่วินาที แต่ล้มเหลวเมื่อต้องเขียนย่อหน้าโดยที่ตัวอักษรตัวที่สองของแต่ละประโยคสะกดเป็นคำ เวอร์ชันพรีเมียมราคา 200 ดอลลาร์ต่อเดือนใช้เวลาสี่นาทีในการแก้ปัญหาสิ่งที่เด็กสามารถทำได้ทันที DeepSeek และ Mistral ยังคงนับตัวอักษรไม่ถูกต้องในปี 2025 วิธีแก้ปัญหาที่กำลังเกิดขึ้น? วิธีการแบบผสมผสาน แบบจำลองที่ชาญฉลาดที่สุดได้ค้นพบว่าเมื่อใดจึงควรเรียกใช้เครื่องคิดเลขจริง แทนที่จะพยายามคำนวณเอง การเปลี่ยนแปลงกระบวนทัศน์: AI ไม่จำเป็นต้องรู้วิธีทำทุกอย่าง แต่สามารถจัดสรรเครื่องมือที่เหมาะสมได้ พาราด็อกซ์สุดท้าย: GPT-4 สามารถอธิบายทฤษฎีลิมิตได้อย่างยอดเยี่ยม แต่กลับไม่สามารถแก้โจทย์การคูณที่เครื่องคิดเลขพกพามักจะแก้ได้อย่างถูกต้อง GPT-4 เหมาะอย่างยิ่งสำหรับการศึกษาคณิตศาสตร์ เพราะสามารถอธิบายด้วยความอดทนอย่างไม่มีที่สิ้นสุด ดัดแปลงตัวอย่าง และวิเคราะห์เหตุผลที่ซับซ้อนได้ หากต้องการการคำนวณที่แม่นยำ เชื่อเครื่องคิดเลขเถอะ ไม่ใช่ปัญญาประดิษฐ์