Newsletter

วิวัฒนาการของ LLM: ภาพรวมสั้นๆ ของตลาด

สถาบัน LLM ชั้นนำในเกณฑ์มาตรฐานสำคัญมีคะแนนน้อยกว่า 2 เปอร์เซ็นต์ สงครามเทคโนโลยีจบลงด้วยการเสมอกัน การต่อสู้ที่แท้จริงในปี 2025 ดำเนินไปในประเด็นระบบนิเวศ การกระจาย และต้นทุน DeepSeek ได้พิสูจน์แล้วว่าสามารถแข่งขันกับ GPT-4 ที่มีมูลค่า 78-191 ล้านดอลลาร์สหรัฐฯ ได้ ChatGPT ครองตลาด (76% ของการรับรู้) แม้ว่า Claude จะครองตลาดเกณฑ์มาตรฐานทางเทคนิคถึง 65% ก็ตาม สำหรับบริษัทต่างๆ กลยุทธ์ที่ประสบความสำเร็จไม่ใช่การเลือก "โมเดลที่ดีที่สุด" แต่คือการผสานโมเดลที่เสริมกันสำหรับกรณีการใช้งานที่แตกต่างกัน

สงครามโมเดลภาษา 2025: จากความเท่าเทียมทางเทคนิคสู่การต่อสู้ของระบบนิเวศ

การพัฒนา Large Language Models มาถึงจุดเปลี่ยนสำคัญในปี 2025 การแข่งขันไม่ได้ขึ้นอยู่กับความสามารถหลักของโมเดลอีกต่อไป ซึ่งปัจจุบันเทียบเท่ากันในเกณฑ์มาตรฐานหลัก แต่ขึ้นอยู่กับระบบนิเวศ การบูรณาการ และกลยุทธ์การใช้งาน แม้ว่า Claude Sonnet 4.5 ของ Anthropic จะยังคงมีช่องว่างความเหนือกว่าทางเทคนิคเพียงเล็กน้อยในเกณฑ์มาตรฐานเฉพาะ แต่การต่อสู้ที่แท้จริงได้เปลี่ยนไปสู่สถานการณ์ที่แตกต่างออกไป

การจับฉลากทางเทคนิค: เมื่อตัวเลขเท่ากัน

เกณฑ์มาตรฐาน MMLU (Massive Multitask Language Understanding)

  • โคลด ซอนเน็ต 4.5: 88.7%
  • GPT-4o: 88.0%
  • เจมินี่ 2.0 แฟลช: 86.9%
  • ดีพซีค-V3: 87.1%

ความแตกต่างนั้นไม่มากนัก โดยบริษัทที่มีผลงานดีที่สุดมีน้อยกว่า 2 จุดเปอร์เซ็นต์ รายงานดัชนี AI ของสแตนฟอร์ด ประจำปี 2025 ระบุว่า "การบรรจบกันของความสามารถของโมเดลภาษาหลักเป็นหนึ่งในแนวโน้มที่สำคัญที่สุดในช่วงปี 2024-2025 ซึ่งมีผลกระทบอย่างลึกซึ้งต่อกลยุทธ์การแข่งขันของบริษัท AI"

ความสามารถในการใช้เหตุผล (GPQA Diamond)

  • โคลด ซอนเน็ต 4: 65.0%
  • GPT-4o: 53.6%
  • เจมินี่ 2.0 โปร: 59.1%

Claude ยังคงรักษาความได้เปรียบที่สำคัญในงานการใช้เหตุผลที่ซับซ้อน แต่ GPT-4o โดดเด่นในเรื่องความเร็วในการตอบสนอง (ความหน่วงเฉลี่ย 1.2 วินาที เทียบกับ 2.1 วินาทีของ Claude) และ Gemini ในการประมวลผลมัลติโหมดดั้งเดิม

การปฏิวัติ DeepSeek: ผู้เปลี่ยนเกมของจีน

ในเดือนมกราคม พ.ศ. 2568 DeepSeek-V3 ได้เข้ามามีบทบาทสำคัญอย่างมาก ซึ่งแสดงให้เห็นว่าสามารถพัฒนาโมเดลที่แข่งขันได้ในราคา 5.6 ล้านดอลลาร์สหรัฐฯ เทียบกับ GPT-4/Gemini Ultra ที่ราคา 78–191 ล้านดอลลาร์สหรัฐฯ Marc Andreessen เรียกมันว่า "หนึ่งในความก้าวหน้าที่น่าอัศจรรย์ที่สุด และในฐานะโอเพนซอร์ส ถือเป็นของขวัญล้ำค่าที่มอบให้แก่โลก"

ข้อมูลจำเพาะของ DeepSeek-V3:

  • พารามิเตอร์รวม 671 พันล้าน (ใช้งาน 37 พันล้านผ่านการผสมผสานของผู้เชี่ยวชาญ)
  • ต้นทุนการฝึกอบรม: 5.576 ล้านเหรียญสหรัฐ
  • ประสิทธิภาพ: เหนือกว่า GPT-4o ในเกณฑ์มาตรฐานทางคณิตศาสตร์บางประการ
  • สถาปัตยกรรม: ความสนใจแฝงหลายหัว (MLA) + DeepSeekMoE

ผลกระทบ: หุ้น Nvidia ร่วงลง 17% ในเซสชั่นเดียวหลังการประกาศ โดยตลาดกำลังประเมินอุปสรรคในการเข้าสู่การพัฒนาโมเดลใหม่

การรับรู้ของสาธารณะเทียบกับความเป็นจริงทางเทคนิค

ChatGPT ยังคงรักษาความเป็นผู้นำในด้านการรับรู้แบรนด์อย่างไม่มีใครเทียบได้: การวิจัยของ Pew Research Center (กุมภาพันธ์ 2025) แสดงให้เห็นว่าชาวอเมริกัน 76% เชื่อมโยง "AI เชิงสนทนา" กับ ChatGPT เท่านั้น ในขณะที่เพียง 12% เท่านั้นที่รู้จัก Claude และ 8% ใช้งาน Gemini อย่างจริงจัง

ความขัดแย้ง: Claude Sonnet 4 เอาชนะ GPT-4o ในเกณฑ์มาตรฐานทางเทคนิค 65% แต่มีส่วนแบ่งการตลาดผู้บริโภคเพียง 8% เมื่อเทียบกับ ChatGPT ที่มี 71% (ข้อมูล Similarweb มีนาคม 2025)

Google ตอบสนองด้วยการบูรณาการครั้งใหญ่: Gemini 2.0 ดั้งเดิมในการค้นหา Gmail เอกสาร และไดรฟ์—กลยุทธ์ระบบนิเวศเทียบกับผลิตภัณฑ์แบบสแตนด์อโลน ผู้ใช้ Google Workspace 2.1 พันล้านคนแสดงให้เห็นถึงการปรับใช้ทันทีโดยไม่ต้องรับลูกค้า

การใช้คอมพิวเตอร์และตัวแทน: ขอบเขตใหม่

การใช้คอมพิวเตอร์ของ Claude (เบต้า ตุลาคม 2024, การผลิต ไตรมาสที่ 1 ปี 2025)

  • ความสามารถ: การควบคุมเมาส์/คีย์บอร์ดโดยตรง การนำทางเบราว์เซอร์ การโต้ตอบกับแอปพลิเคชัน
  • การนำไปใช้: ลูกค้าองค์กร 12% Anthropic ใช้คอมพิวเตอร์ในการผลิต
  • ข้อจำกัด: อัตราความล้มเหลวยังคงอยู่ที่ 14% ในงานหลายขั้นตอนที่ซับซ้อน

GPT-4o พร้อมวิสัยทัศน์และการกระทำ

  • การรวม Zapier: แอปที่จัดการได้มากกว่า 6,000 รายการ
  • GPT ที่กำหนดเอง: เผยแพร่แล้ว 3 ล้านรายการ ใช้งานจริง 800,000 รายการ
  • การแบ่งปันรายได้สำหรับผู้สร้าง GPT: กระจาย 10 ล้านเหรียญสหรัฐในไตรมาสที่ 4 ปี 2024

Gemini Deep Research (มกราคม 2025)

  • การวิจัยหลายแหล่งแบบอิสระพร้อมการวิเคราะห์เชิงเปรียบเทียบ
  • สร้างรายงานที่ครอบคลุมจากคำสั่งเดียว
  • เวลาเฉลี่ย: 8-12 นาทีสำหรับรายงาน 5,000 คำขึ้นไป

Gartner คาดการณ์ว่าพนักงานความรู้ 33% จะใช้ตัวแทน AI อัตโนมัติภายในสิ้นปี 2025 เพิ่มขึ้นจาก 5% ในปัจจุบัน

ความแตกต่างทางปรัชญาเกี่ยวกับความปลอดภัย

OpenAI: แนวทาง "ความปลอดภัยผ่านข้อจำกัด"

  • ปฏิเสธคำกระตุ้นของผู้บริโภค 8.7% (การรั่วไหลของข้อมูลภายในของ OpenAI)
  • นโยบายเนื้อหาที่เข้มงวดทำให้ผู้พัฒนา 23% หันไปหาทางเลือกอื่น
  • กรอบการเตรียมความพร้อมสาธารณะพร้อมการทำงานเป็นทีมสีแดงอย่างต่อเนื่อง

มนุษยนิยม: "AI ตามรัฐธรรมนูญ"

  • แบบจำลองที่ได้รับการฝึกฝนตามหลักจริยธรรมที่ชัดเจน
  • การปฏิเสธแบบเลือก: รวดเร็ว 3.1% (OpenAI อนุญาตมากกว่า)
  • ความโปร่งใสในการตัดสินใจ: อธิบายว่าทำไมจึงปฏิเสธคำขอ

Google: "ความปลอดภัยสูงสุด ความขัดแย้งน้อยที่สุด"

  • ตัวกรองตลาดที่เข้มงวดยิ่งขึ้น: แจ้งเตือน 11.2% ถูกบล็อก
  • Gemini Image ล้มละลายเดือนกุมภาพันธ์ 2024 (การแก้ไขอคติมากเกินไป) ทำให้เกิดความระมัดระวังอย่างยิ่ง
  • การมุ่งเน้นองค์กรช่วยลดการยอมรับความเสี่ยง

Meta Llama 3.1: ไม่มีตัวกรองในตัว ความรับผิดชอบของผู้ใช้—ปรัชญาที่ตรงกันข้าม

ความเชี่ยวชาญเฉพาะด้านแนวตั้ง: ตัวแยกแยะที่แท้จริง

การดูแลสุขภาพ:

  • Med-PaLM 2 (Google): 85.4% บน MedQA (เทียบกับ 77% ของแพทย์ผู้เชี่ยวชาญด้านมนุษย์ชั้นนำ)
  • Claude ใน Epic Systems: นำไปใช้ในโรงพยาบาล 305 แห่งในสหรัฐอเมริกาเพื่อสนับสนุนการตัดสินใจทางคลินิก

ถูกกฎหมาย:

  • Harvey AI (GPT-4 ที่กำหนดเอง): บริษัทกฎหมาย 102 แห่ง ลูกค้า 100 อันดับแรก มูลค่า ARR 100 ล้านเหรียญสหรัฐ
  • CoCounsel (Thomson Reuters + Claude): การวิจัยทางกฎหมายที่มีความแม่นยำ 98%

การเงิน:

  • Bloomberg GPT: ฝึกอบรมบนโทเค็นทางการเงินที่เป็นกรรมสิทธิ์ 363B
  • Goldman Sachs Marcus AI (ตาม GPT-4): อนุมัติสินเชื่อเร็วขึ้น 40%

การแบ่งแนวตั้งทำให้เกิดความเต็มใจที่จะจ่าย 3.5 เท่าเมื่อเทียบกับโมเดลทั่วไป (การสำรวจของ McKinsey ผู้ซื้อองค์กร 500 ราย)

Llama 3.1: กลยุทธ์โอเพ่นซอร์สของ Meta

พารามิเตอร์ 405B ที่สามารถแข่งขันกับ GPT-4o ในเกณฑ์มาตรฐานต่างๆ ได้ มีน้ำหนักแบบเปิดอย่างสมบูรณ์ กลยุทธ์เมตา: ทำให้ชั้นโครงสร้างพื้นฐานกลายเป็นสินค้าโภคภัณฑ์เพื่อแข่งขันในชั้นผลิตภัณฑ์ (แว่นตา Ray-Ban Meta, WhatsApp AI)

การรับเลี้ยงลามะ 3.1:

  • ดาวน์โหลดมากกว่า 350,000 ครั้งในเดือนแรก
  • สตาร์ทอัพกว่า 50 แห่งกำลังสร้าง AI แนวตั้งบน Llama
  • ต้นทุนโฮสติ้งที่จัดการเอง: 12,000 เหรียญสหรัฐฯ ต่อเดือน เทียบกับต้นทุน API 50,000 เหรียญสหรัฐฯ ขึ้นไปสำหรับโมเดลแบบปิดซอร์สสำหรับการใช้งานที่เทียบเท่า

สวนทางกับสัญชาตญาณ: Meta สูญเสียเงินหลายพันล้านดอลลาร์กับ Reality Labs แต่กลับลงทุนมหาศาลใน AI แบบเปิดเพื่อปกป้องธุรกิจโฆษณาหลัก

บริบท Windows: การแข่งขันเพื่อโทเค็นนับล้าน

  • Claude Sonnet 4.5: โทเค็น 200K
  • Gemini 2.0 Pro: โทเค็น 2 ล้าน (ยาวที่สุดที่มีจำหน่ายในเชิงพาณิชย์)
  • GPT-4 Turbo: โทเค็น 128K

บริบท Gemini 2M ช่วยให้คุณวิเคราะห์โค้ดเบสทั้งหมด วิดีโอความยาวกว่า 10 ชั่วโมง และเอกสารประกอบหลายพันหน้า นับเป็นกรณีการใช้งานที่พลิกโฉมองค์กร Google Cloud รายงานว่า 43% ของ POC องค์กรใช้บริบทมากกว่า 500,000 โทเค็น

ความสามารถในการปรับตัวและการปรับแต่ง

โครงการและรูปแบบของคล็อด:

  • คำแนะนำแบบกำหนดเองสำหรับการสนทนาข้ามแบบถาวร
  • สไตล์ที่ตั้งไว้ล่วงหน้า: เป็นทางการ กระชับ อธิบาย
  • อัพโหลดฐานความรู้ (เอกสารสูงสุด 5GB)

ร้านค้า GPT และ GPT ที่กำหนดเอง:

  • เผยแพร่ 3 ล้าน GPTs มีการใช้งานจริง 800,000 ครั้งต่อเดือน
  • ผู้สร้างยอดนิยมมีรายได้ 63,000 ดอลลาร์ต่อเดือน (แบ่งปันรายได้)
  • 71% ขององค์กรใช้ GPT ที่กำหนดเอง ≥1 รายการภายในองค์กร

ส่วนขยายราศีเมถุน:

  • การรวม Gmail, ปฏิทิน, ไดรฟ์ และแผนที่ดั้งเดิม
  • บริบทพื้นที่ทำงาน: อ่านอีเมล + ปฏิทินเพื่อรับคำแนะนำเชิงรุก
  • ดำเนินการพื้นที่ทำงาน 1.2 พันล้านรายการในไตรมาสที่ 4 ปี 2024

คีย์: จาก "คำเตือนเดียว" ไปจนถึง "ผู้ช่วยถาวรพร้อมหน่วยความจำและบริบทข้ามเซสชัน"

การพัฒนาและแนวโน้มในอนาคตในไตรมาสที่ 1 ปี 2568

แนวโน้มที่ 1: การผสมผสานของผู้เชี่ยวชาญมีอิทธิพล เหนือกว่า โมเดลระดับสูงสุดปี 2025 ทั้งหมดใช้ MoE (เปิดใช้งานพารามิเตอร์ชุดย่อยสำหรับการค้นหา):

  • ลดต้นทุนการอนุมาน 40-60%
  • ความหน่วงที่ดีขึ้นในขณะที่ยังคงรักษาคุณภาพไว้
  • DeepSeek, GPT-4, Gemini Ultra ทั้งหมดใช้ MoE

แนวโน้มที่ 2: Native Multimodality Gemini 2.0 แบบ natively multimodal (ไม่เชื่อมโมดูลแยกกัน):

  • รวมข้อความ+รูปภาพ+เสียง+วิดีโอพร้อมกัน
  • การใช้เหตุผลแบบข้ามโหมด: "เปรียบเทียบรูปแบบสถาปัตยกรรม รูปถ่ายอาคาร และคำอธิบายข้อความในช่วงประวัติศาสตร์"

แนวโน้มที่ 3: การคำนวณเวลาทดสอบ (แบบจำลองการใช้เหตุผล) OpenAI o1, DeepSeek-R1: ใช้เวลาประมวลผลมากขึ้นสำหรับการใช้เหตุผลที่ซับซ้อน:

  • o1: 30-60 วินาทีสำหรับปัญหาคณิตศาสตร์ที่ซับซ้อนเทียบกับ 2 วินาที GPT-4o
  • ความแม่นยำ AIME 2024: 83.3% เทียบกับ 13.4% GPT-4o
  • การแลกเปลี่ยนความหน่วงเวลา/ความแม่นยำที่ชัดเจน

แนวโน้มที่ 4: โมเดลเวิร์กโฟลว์แบบเอเจน ต์ โปรโตคอลบริบท (MCP) Anthropic พฤศจิกายน 2024:

  • มาตรฐานเปิดสำหรับตัวแทน AI ที่โต้ตอบกับเครื่องมือ/ฐานข้อมูล
  • พันธมิตรรับเลี้ยงบุตรบุญธรรมมากกว่า 50 รายใน 3 เดือนแรก
  • อนุญาตให้ตัวแทนสร้าง "หน่วยความจำ" ถาวรระหว่างการโต้ตอบ

สงครามต้นทุนและราคา

API การกำหนดราคาสำหรับโทเค็น 1 ล้าน (อินพุต):

  • GPT-4o: 2.50 ดอลลาร์
  • คล็อด ซอนเน็ต 4: $3.00
  • Gemini 2.0 Flash: $0.075 (ถูกกว่า 33 เท่า)
  • DeepSeek-V3: $0.27 (โอเพ่นซอร์ส, ค่าโฮสติ้ง)

กรณีศึกษา Gemini Flash: สรุป AI สำหรับสตาร์ทอัพช่วยลดต้นทุนได้ 94% เมื่อเปลี่ยนจาก GPT-4o คุณภาพเท่าเดิม เวลาแฝงใกล้เคียงกัน

การแปลงเป็นสินค้าโภคภัณฑ์เร่งตัวขึ้น: ต้นทุนการอนุมานลดลง 70% เมื่อเทียบกับปีก่อนหน้า 2023-2024 (ข้อมูล Epoch AI)

ผลกระทบเชิงกลยุทธ์ต่อบริษัท

กรอบการตัดสินใจ: ควรเลือกแบบจำลองใด?

สถานการณ์ที่ 1: ความปลอดภัยขององค์กรที่สำคัญ → Claude Sonnet 4

  • การดูแลสุขภาพ กฎหมาย การเงิน ที่ความผิดพลาดทำให้สูญเสียเงินหลายล้าน
  • AI ตามรัฐธรรมนูญช่วยลดความเสี่ยงด้านความรับผิด
  • ราคาพรีเมี่ยมที่สมเหตุสมผลด้วยการบรรเทาความเสี่ยง

สถานการณ์ที่ 2: ปริมาณสูง คำนึงถึงต้นทุน → Gemini Flash หรือ DeepSeek

  • แชทบอทบริการลูกค้า การควบคุมเนื้อหา การจำแนกประเภท
  • ประสิทธิภาพ "ดีพอ" ระดับเสียง 10x-100x
  • ต้นทุนที่แตกต่างกันหลัก

สถานการณ์ที่ 3: การล็อกอินระบบนิเวศ → Gemini สำหรับ Google Workspace, GPT สำหรับ Microsoft

  • ลงทุนในระบบนิเวศแล้ว
  • การรวมแบบดั้งเดิม > ประสิทธิภาพที่เหนือกว่า
  • ต้นทุนการฝึกอบรมพนักงานบนแพลตฟอร์มที่มีอยู่

สถานการณ์ที่ 4: การปรับแต่ง/การควบคุม → Llama 3.1 หรือเปิด DeepSeek

  • ข้อกำหนดการปฏิบัติตามที่เฉพาะเจาะจง (การเก็บข้อมูล การตรวจสอบ)
  • ปรับแต่งอย่างหนักในข้อมูลที่เป็นกรรมสิทธิ์
  • การโฮสต์ด้วยตนเองราคาไม่แพงสำหรับปริมาณข้อมูล

บทสรุป: จากสงครามเทคโนโลยีสู่สงครามแพลตฟอร์ม

การแข่งขัน LLM ปี 2025 ไม่ได้เป็นเพียง "โมเดลใดคิดได้ดีกว่า" แต่เป็น "ระบบนิเวศใดที่สร้างมูลค่าได้มากกว่า" OpenAI ครองตลาดแบรนด์ผู้บริโภค Google ใช้ประโยชน์จากการกระจายตัวของผู้ใช้หลายพันล้านคน Anthropic ชนะใจองค์กรที่ใส่ใจความปลอดภัย Meta เปลี่ยนโครงสร้างพื้นฐานให้เป็นสินค้าโภคภัณฑ์

พยากรณ์ปี 2569-2570:

  • การบรรจบกันของประสิทธิภาพหลักเพิ่มเติม (~90% MMLU ทั้งหมดอยู่ใน 5 อันดับแรก)
  • ความแตกต่างในด้าน: ความเร็ว ต้นทุน การบูรณาการ ความเชี่ยวชาญเฉพาะด้าน
  • ตัวแทนอิสระหลายขั้นตอนกลายเป็นกระแสหลัก (พนักงานความรู้ 33%)
  • โอเพ่นซอร์สปิดช่องว่างด้านคุณภาพ รักษาข้อได้เปรียบด้านต้นทุน/การปรับแต่ง

ผู้ชนะคนสุดท้าย? อาจจะไม่ใช่ผู้เล่นรายเดียว แต่เป็นระบบนิเวศที่เสริมซึ่งกันและกันเพื่อรองรับคลัสเตอร์กรณีการใช้งานที่แตกต่างกัน เช่นเดียวกับระบบปฏิบัติการสมาร์ทโฟน (iOS และ Android อยู่ร่วมกัน) มันไม่ใช่ "ผู้ชนะได้ทั้งหมด" แต่เป็น "ผู้ชนะได้ส่วนแบ่งตลาด"

สำหรับองค์กร: กลยุทธ์หลายโมเดลกลายเป็นมาตรฐาน—GPT สำหรับงานทั่วไป, Claude สำหรับการใช้เหตุผลที่มีผลกระทบสูง, Gemini Flash สำหรับปริมาณ, Llama ที่ปรับแต่งเองสำหรับกรรมสิทธิ์

ปี 2025 ไม่ใช่ปีแห่ง "โมเดลที่ดีที่สุด" แต่เป็นปีแห่งการประสานกันอย่างชาญฉลาดระหว่างโมเดลที่เสริมกัน

ที่มา:

  • รายงานดัชนี AI ของสแตนฟอร์ด ประจำปี 2025
  • การ์ดโมเดลมานุษยวิทยา Claude Sonnet 4.5
  • รายงานทางเทคนิค OpenAI GPT-4o
  • การ์ดระบบ Google DeepMind Gemini 2.0
  • เอกสารทางเทคนิค DeepSeek-V3 (arXiv)
  • Epoch AI - แนวโน้มในการเรียนรู้ของเครื่องจักร
  • การประชุมสุดยอด AI และการวิเคราะห์ Gartner 2025
  • รายงาน McKinsey State of AI ประจำปี 2025
  • แบบสำรวจการนำ AI มาใช้ของศูนย์วิจัย Pew
  • แพลตฟอร์มอัจฉริยะ Similarweb

ทรัพยากรเพื่อการเติบโตทางธุรกิจ