ฟาบิโอ ลอเรีย

เหนือกว่าอัลกอริทึม: โมเดล AI ได้รับการฝึกอบรมและปรับปรุงอย่างไร

7 เมษายน 2568
แชร์บนโซเชียลมีเดีย

วิธีการฝึกอบรมโมเดลปัญญาประดิษฐ์

การฝึกอบรมโมเดล AI เป็นหนึ่งในความท้าทายที่ซับซ้อนที่สุดในการพัฒนาเทคโนโลยีร่วมสมัย การฝึกอบรมโมเดลที่มีประสิทธิภาพนั้นไม่ใช่แค่เพียงปัญหาเชิงอัลกอริทึมธรรมดาๆ แต่ต้องใช้วิธีการแบบมีระเบียบวิธีและสหวิทยาการที่ผสานรวมวิทยาศาสตร์ข้อมูล ความรู้เฉพาะด้าน และวิศวกรรมซอฟต์แวร์ ดังที่เจมส์ ลุค ได้เน้นย้ำไว้ในบทความสำคัญของเขาเรื่อง " Beyond Algorithms: Delivering AI for Business " ความสำเร็จของการนำ AI ไปใช้นั้นขึ้นอยู่กับการจัดการข้อมูลและการออกแบบระบบมากกว่าตัวอัลกอริทึมเอง สถานการณ์ปัจจุบันกำลังเปลี่ยนแปลงไปอย่างรวดเร็ว โดยมีนวัตกรรมต่างๆ เช่น โมเดล DeepSeek-R1 ที่ได้นิยามต้นทุนและการเข้าถึงใหม่

มูลนิธิ: การรวบรวมและจัดการข้อมูล

คุณภาพเหนือปริมาณ

ตรงกันข้ามกับความเชื่อที่แพร่หลาย ปริมาณข้อมูลไม่ใช่กุญแจสำคัญสู่ความสำเร็จเสมอไป คุณภาพและความเป็นตัวแทนข้อมูลมีความสำคัญมากกว่าอย่างมาก ในบริบทนี้ การผสานรวมแหล่งข้อมูลที่แตกต่างกันจึงเป็นสิ่งสำคัญ:

  • ข้อมูลของบุคคลที่หนึ่ง : รวบรวมอย่างมีจริยธรรมและไม่ระบุตัวตนโดยการใช้งานที่มีอยู่
  • ข้อมูลที่ได้รับอนุญาต : มาจากซัพพลายเออร์ที่เชื่อถือได้ซึ่งตรงตามมาตรฐานคุณภาพที่เข้มงวด
  • ชุดข้อมูลโอเพนซอร์ส : ได้รับการตรวจสอบอย่างรอบคอบเพื่อให้มั่นใจถึงความหลากหลายและความถูกต้อง
  • ข้อมูลสังเคราะห์ : สร้างขึ้นโดยเทียมเพื่อเติมช่องว่างและแก้ไขข้อกังวลด้านความเป็นส่วนตัว

การบูรณาการนี้สร้างรากฐานการฝึกอบรมที่ครอบคลุมซึ่งครอบคลุมสถานการณ์ในโลกแห่งความเป็นจริงในขณะที่ยังคงรักษามาตรฐานด้านจริยธรรมและความเป็นส่วนตัว

ความท้าทายในการเตรียมข้อมูล

กระบวนการ "จัดการข้อมูล" (หรือที่เรียกกันตามตรงว่า "การจัดการข้อมูล") คิดเป็นสัดส่วนถึง 80% ของความพยายามที่จำเป็นในโครงการปัญญาประดิษฐ์ ขั้นตอนนี้ประกอบด้วย:

  • การล้างข้อมูล : การกำจัดความไม่สอดคล้อง การซ้ำซ้อน และค่าผิดปกติ
  • การแปลงข้อมูล : การแปลงเป็นรูปแบบที่เหมาะสมต่อการประมวลผล
  • การรวมข้อมูล : การรวมแหล่งข้อมูลที่แตกต่างกันซึ่งมักใช้รูปแบบและรูปแบบที่เข้ากันไม่ได้
  • การจัดการข้อมูลที่ขาดหายไป : กลยุทธ์ต่างๆ เช่น การใส่ค่าทางสถิติหรือการใช้ข้อมูลพร็อกซี

ดังที่ ฮิลารี แพ็กเกอร์ ประธานเจ้าหน้าที่ฝ่ายเทคโนโลยีของ American Express ชี้ให้เห็นว่า "สำหรับเราแล้ว ช่วงเวลาแห่งการ "อ๋อ!" อย่างแท้จริงคือข้อมูล คุณสามารถเลือกแบบจำลองที่ดีที่สุดในโลกได้... แต่ข้อมูลคือกุญแจสำคัญ การตรวจสอบความถูกต้องและความแม่นยำคือเป้าหมายสูงสุดใน AI เชิงสร้างสรรค์ในขณะนี้"

สถาปัตยกรรมแบบจำลอง: ขนาดที่เหมาะสม

การเลือกสถาปัตยกรรมแบบจำลองควรพิจารณาจากลักษณะเฉพาะของปัญหาที่ต้องการแก้ไข ไม่ใช่จากอคติหรือความชอบส่วนบุคคล ปัญหาแต่ละประเภทต้องการแนวทางที่แตกต่างกัน:

  • แบบจำลองภาษาที่ใช้หม้อแปลง สำหรับงานที่ต้องใช้ความเข้าใจทางภาษาอย่างลึกซึ้ง
  • เครือข่ายประสาทเทียมแบบ Convolutional สำหรับการจดจำภาพและรูปแบบ
  • กราฟเครือข่ายประสาท สำหรับการวิเคราะห์ความสัมพันธ์ที่ซับซ้อนระหว่างเอนทิตี
  • การเรียนรู้เสริมแรง สำหรับปัญหาการเพิ่มประสิทธิภาพและการตัดสินใจ
  • สถาปัตยกรรมไฮบริด ที่รวมวิธีการต่างๆ ไว้สำหรับกรณีการใช้งานที่ซับซ้อน

การเพิ่มประสิทธิภาพทางสถาปัตยกรรมต้องมีการประเมินอย่างเป็นระบบในรูปแบบการกำหนดค่าที่แตกต่างกัน โดยเฉพาะอย่างยิ่งการให้ความสำคัญต่อการแลกเปลี่ยนระหว่างประสิทธิภาพและข้อกำหนดในการคำนวณ ซึ่งเป็นประเด็นที่เกี่ยวข้องมากยิ่งขึ้นด้วยการถือกำเนิดของโมเดลเช่น DeepSeek-R1 ที่ให้ความสามารถในการใช้เหตุผลขั้นสูงด้วยต้นทุนที่ต่ำกว่าอย่างมาก

วิธีการฝึกอบรมขั้นสูง

การกลั่นแบบจำลอง

การกลั่นได้กลายมาเป็นเครื่องมือที่ทรงพลังอย่างยิ่งในระบบนิเวศ AI ในปัจจุบัน กระบวนการนี้ช่วยให้สามารถสร้างแบบจำลองที่เล็กลงและมีความเฉพาะทางมากขึ้น ซึ่งสืบทอดความสามารถในการใช้เหตุผลของแบบจำลองที่มีขนาดใหญ่และซับซ้อนกว่า เช่น DeepSeek-R1

ดังที่ DeepSeek แสดงให้เห็น บริษัทได้กลั่นกรองความสามารถในการใช้เหตุผลของตนออกเป็นโมเดลย่อยๆ หลายแบบ ซึ่งรวมถึงโมเดลโอเพนซอร์สจากตระกูล Llama ของ Meta และตระกูล Qwen ของ Alibaba โมเดลย่อยๆ เหล่านี้สามารถปรับให้เหมาะกับงานเฉพาะทางได้ ซึ่งช่วยเร่งให้เกิดเทรนด์โมเดลเฉพาะทางที่รวดเร็วขึ้น

แซม วิทเทวีน นักพัฒนาซอฟต์แวร์การเรียนรู้ของเครื่อง กล่าวว่า "เรากำลังเริ่มก้าวเข้าสู่โลกที่ผู้คนใช้โมเดลหลายตัว พวกเขาไม่ได้ใช้โมเดลเดียวตลอดเวลา" ซึ่งรวมถึงโมเดลวงจรปิดราคาประหยัดอย่าง Gemini Flash และ GPT-4o Mini ซึ่ง "ทำงานได้ดีมากสำหรับ 80% ของกรณีการใช้งาน"

การเรียนรู้แบบหลายงาน

แทนที่จะฝึกโมเดลแยกกันสำหรับความสามารถที่เกี่ยวข้อง การเรียนรู้แบบมัลติทาสก์ช่วยให้โมเดลสามารถแบ่งปันความรู้ระหว่างฟังก์ชันต่างๆ ได้:

  • แบบจำลองปรับให้เหมาะสมพร้อมกันสำหรับวัตถุประสงค์ที่เกี่ยวข้องหลายประการ
  • ฟังก์ชันพื้นฐานได้รับประโยชน์จากการเปิดรับงานที่หลากหลายมากขึ้น
  • ประสิทธิภาพการทำงานดีขึ้นในทุกงาน โดยเฉพาะงานที่มีข้อมูลจำกัด
  • ประสิทธิภาพการคำนวณเพิ่มขึ้นผ่านการแบ่งปันส่วนประกอบ

การปรับแต่งอย่างละเอียดภายใต้การดูแล (SFT)

สำหรับบริษัทที่ดำเนินงานในโดเมนเฉพาะเจาะจงมาก ซึ่งข้อมูลไม่สามารถเข้าถึงได้อย่างแพร่หลายบนเว็บหรือในหนังสือที่มักใช้สำหรับการฝึกอบรมโมเดลภาษา การปรับแต่งอย่างละเอียดภายใต้การดูแล (SFT) ถือเป็นตัวเลือกที่มีประสิทธิภาพ

DeepSeek ได้แสดงให้เห็นว่าการบรรลุผลลัพธ์ที่ดีด้วยชุดข้อมูลคำถามและคำตอบ "หลายพัน" ชุดนั้นเป็นไปได้ ยกตัวอย่างเช่น คริส เฮย์ วิศวกรของ IBM ได้แสดงให้เห็นว่าเขาฝึกฝนโมเดลขนาดเล็กโดยใช้ชุดข้อมูลเฉพาะทางคณิตศาสตร์ของเขาเอง ซึ่งทำให้ได้คำตอบที่รวดเร็วอย่างยิ่ง ซึ่งมีประสิทธิภาพเหนือกว่าโมเดล o1 ของ OpenAI ในงานเดียวกัน

การเรียนรู้แบบเสริมแรง (RL)

บริษัทต่างๆ ที่ต้องการฝึกฝนโมเดลให้สอดคล้องกับความต้องการเฉพาะเจาะจงมากขึ้น เช่น การทำให้แชทบอทฝ่ายสนับสนุนลูกค้าเข้าใจง่ายแต่กระชับ จะต้องนำเทคนิคการเรียนรู้แบบเสริมแรง (RL) มาใช้ วิธีนี้มีประโยชน์อย่างยิ่งหากบริษัทต้องการให้แชทบอทปรับโทนเสียงและคำแนะนำตามความคิดเห็นของผู้ใช้

การดึงข้อมูล-การสร้างเสริม (RAG)

สำหรับบริษัทส่วนใหญ่ RAG (Retrieval-Augmented Generation) ถือเป็นวิธีที่ง่ายและปลอดภัยที่สุด เป็นกระบวนการที่ค่อนข้างตรงไปตรงมา ช่วยให้องค์กรต่างๆ สามารถยึดโยงโมเดลของตนกับข้อมูลที่เป็นกรรมสิทธิ์จากฐานข้อมูลของตนเองได้ ทำให้มั่นใจได้ว่าผลลัพธ์ที่ได้มีความถูกต้องแม่นยำและเฉพาะเจาะจงตามโดเมน

แนวทางนี้ยังช่วยแก้ปัญหาภาพหลอนบางส่วนที่เกี่ยวข้องกับโมเดล เช่น DeepSeek ซึ่งปัจจุบันภาพหลอนเกิดขึ้น 14 เปอร์เซ็นต์ เมื่อเทียบกับ 8 เปอร์เซ็นต์ของโมเดล o3 ของ OpenAI ตามการศึกษาวิจัยของ Vectara

การผสมผสานระหว่างการกลั่นแบบจำลองและ RAG คือสิ่งที่สร้างความมหัศจรรย์ให้กับบริษัทส่วนใหญ่ โดยทำให้การนำไปใช้เป็นเรื่องง่ายอย่างเหลือเชื่อ แม้แต่กับบริษัทที่มีทักษะด้านวิทยาศาสตร์ข้อมูลหรือการเขียนโปรแกรมที่จำกัดก็ตาม

การประเมินและการปรับปรุง: เหนือกว่าความแม่นยำของเมตริก

AI ที่มีประสิทธิภาพไม่ได้วัดแค่เพียงความแม่นยำดิบเท่านั้น แต่ยังต้องมีกรอบการประเมินที่ครอบคลุมซึ่งพิจารณา:

  • ความแม่นยำในการทำงาน : โมเดลสร้างผลลัพธ์ที่ถูกต้องบ่อยแค่ไหน
  • ความแข็งแกร่ง : ความสม่ำเสมอของประสิทธิภาพภายใต้ปัจจัยนำเข้าและเงื่อนไขที่หลากหลาย
  • ความยุติธรรม : ประสิทธิภาพที่สม่ำเสมอในกลุ่มผู้ใช้และสถานการณ์ที่แตกต่างกัน
  • การสอบเทียบ : การจัดตำแหน่งระหว่างคะแนนความเชื่อมั่นและความแม่นยำที่แท้จริง
  • ประสิทธิภาพ : ความต้องการด้านการคำนวณและหน่วยความจำ
  • ความสามารถในการอธิบาย : ความโปร่งใสของกระบวนการตัดสินใจ ซึ่งเป็นพื้นที่ที่โมเดลที่กลั่นกรองของ DeepSeek โดดเด่น โดยแสดงให้เห็นถึงกระบวนการใช้เหตุผล

ผลกระทบของเส้นโค้งต้นทุน

ผลกระทบที่เกิดขึ้นทันทีที่สุดจากการเปิดตัว DeepSeek คือการลดราคาลงอย่างมาก วงการเทคโนโลยีคาดการณ์ว่าต้นทุนจะลดลงเมื่อเวลาผ่านไป แต่มีน้อยคนนักที่จะคาดการณ์ว่าจะเกิดขึ้นอย่างรวดเร็วเช่นนี้ DeepSeek ได้พิสูจน์แล้วว่าโมเดลแบบเปิดที่ทรงพลังนั้นสามารถทั้งคุ้มค่าและมีประสิทธิภาพ สร้างโอกาสสำหรับการทดลองในวงกว้างและการนำไปใช้งานที่คุ้มค่า

อัมร์ อาวาดัลลาห์ ซีอีโอของเวคทารา เน้นย้ำประเด็นนี้ โดยระบุว่าสิ่งที่เปลี่ยนเกมอย่างแท้จริงไม่ได้อยู่ที่ต้นทุนการฝึกเท่านั้น แต่ยังรวมถึงต้นทุนการอนุมานด้วย ซึ่งสำหรับ DeepSeek แล้ว ต้นทุนการอนุมานต่อโทเค็นอยู่ที่ประมาณ 1 ใน 30 ของโมเดล o1 หรือ o3 ของ OpenAI “ส่วนต่างกำไรที่ OpenAI, Anthropic และ Google Gemini ทำได้นั้นจะต้องลดลงอย่างน้อย 90% เนื่องจากพวกเขาไม่สามารถแข่งขันกับราคาที่สูงเช่นนี้ได้” อาวาดัลลาห์กล่าว

ไม่เพียงเท่านั้น ต้นทุนเหล่านี้จะยังคงลดลงอย่างต่อเนื่อง ดาริโอ อโมเด ซีอีโอของ Anthropic ระบุเมื่อเร็วๆ นี้ว่าต้นทุนการพัฒนาโมเดลยังคงลดลงอย่างต่อเนื่องในอัตราประมาณสี่ครั้งต่อปี ดังนั้น อัตราค่าบริการที่ผู้ให้บริการ LLM เรียกเก็บสำหรับการใช้งานโมเดลเหล่านี้ก็จะลดลงอย่างต่อเนื่องเช่นกัน

“ผมคาดหวังอย่างเต็มที่ว่าต้นทุนจะลดลงเหลือศูนย์” อโศก ศรีวาสตาวา ซีอีโอของ Intuit บริษัทที่ผลักดัน AI อย่างหนักหน่วงในซอฟต์แวร์ภาษีและบัญชีอย่าง TurboTax และ Quickbooks กล่าว “...และความหน่วงจะลดลงเหลือศูนย์ สิ่งเหล่านี้จะกลายเป็นเพียงความสามารถพื้นฐานที่เราสามารถใช้งานได้”

บทสรุป: อนาคตของ AI ขององค์กรนั้นเปิดกว้าง ราคาไม่แพง และขับเคลื่อนด้วยข้อมูล

DeepSeek และ Deep Research ของ OpenAI ไม่ได้เป็นแค่เครื่องมือใหม่ในคลังอาวุธ AI เท่านั้น แต่ยังเป็นสัญญาณของการเปลี่ยนแปลงครั้งสำคัญที่บริษัทต่างๆ จะปรับใช้โมเดลที่สร้างขึ้นเพื่อจุดประสงค์เฉพาะจำนวนมาก ซึ่งคุ้มต้นทุนอย่างยิ่ง มีความสามารถ และหยั่งรากลึกอยู่ในข้อมูลและแนวทางของบริษัทเอง

สำหรับบริษัทต่างๆ สิ่งสำคัญคือ เครื่องมือสำหรับสร้างแอปพลิเคชัน AI ที่ทรงพลังและเฉพาะเจาะจงในแต่ละโดเมนนั้นอยู่ใกล้แค่เอื้อม คุณอาจถูกทิ้งไว้ข้างหลังหากไม่ใช้ประโยชน์จากเครื่องมือเหล่านี้ แต่ความสำเร็จที่แท้จริงจะมาจากวิธีการที่คุณจัดการข้อมูล ใช้ประโยชน์จากเทคนิคต่างๆ เช่น RAG และการกลั่นกรอง และการสร้างสรรค์นวัตกรรมที่เหนือกว่าขั้นตอนก่อนการฝึกอบรม

ดังที่ Packer จาก AmEx กล่าวไว้ บริษัทต่างๆ ที่จัดการข้อมูลได้ดีจะเป็นผู้นำนวัตกรรม AI รุ่นต่อไป

ฟาบิโอ ลอเรีย

CEO & ผู้ก่อตั้ง | Electe

ซีอีโอของ Electe ฉันช่วยเหลือธุรกิจขนาดเล็กและขนาดกลางในการตัดสินใจโดยใช้ข้อมูล ฉันเขียนเกี่ยวกับปัญญาประดิษฐ์ในธุรกิจ

ได้รับความนิยมมากที่สุด
ลงทะเบียนเพื่อรับข่าวสารล่าสุด

รับข่าวสารและข้อมูลเชิงลึกในกล่องจดหมายของคุณทุกสัปดาห์
กล่องข้อความอีเมล อย่าพลาด!

ขอบคุณ! เราได้รับการส่งของคุณแล้ว!
อุ๊ย! เกิดข้อผิดพลาดบางอย่างขณะส่งแบบฟอร์ม