อุตสาหกรรมที่มองไม่เห็นที่ทำให้ ChatGPT, Stable Diffusion และระบบ AI สมัยใหม่อื่นๆ เป็นไปได้
เมื่อคุณใช้ ChatGPT เพื่อเขียนอีเมลหรือสร้างภาพด้วย Midjourney คุณแทบจะไม่คิดถึง "ความมหัศจรรย์" เบื้องหลัง AI เลย ทว่าเบื้องหลังทุกการตอบสนองอันชาญฉลาดและทุกภาพที่ถูกสร้างขึ้น กลับมีอุตสาหกรรมมูลค่าหลายพันล้านดอลลาร์ที่น้อยคนนักจะพูดถึง นั่นคือ ตลาดข้อมูลการฝึกอบรม AI
ภาคส่วนนี้ ซึ่ง MarketsandMarkets คาดการณ์ว่าจะมีมูลค่าสูงถึง 9.58 พันล้าน ดอลลาร์สหรัฐภายในปี 2572 ด้วยอัตราการเติบโตต่อปีที่ 27.7% ถือเป็นกลไกขับเคลื่อนที่แท้จริงของปัญญาประดิษฐ์สมัยใหม่ แต่ธุรกิจที่แฝงอยู่นี้ทำงานอย่างไรกันแน่?
โลกของข้อมูลการฝึกอบรม AI ถูกครอบงำโดยบริษัทไม่กี่แห่งที่คนส่วนใหญ่ไม่เคยได้ยินชื่อ:
Scale AI บริษัท ที่ใหญ่ที่สุด ในอุตสาหกรรมด้วย ส่วนแบ่งตลาด 28% มีมูลค่าสูงถึง 2.9 หมื่นล้านดอลลาร์ สหรัฐฯ หลังจากการลงทุนของ Meta ลูกค้าองค์กรของพวกเขาจ่ายเงิน ระหว่าง 100,000 ถึงหลายล้านดอลลาร์ สหรัฐฯ ต่อปีสำหรับข้อมูลคุณภาพสูง
Appen ซึ่งตั้งอยู่ในประเทศออสเตรเลีย ดำเนินงาน เครือข่ายผู้เชี่ยวชาญทั่วโลกกว่า 1 ล้านคน ใน 170 ประเทศ ซึ่งทำหน้าที่ติดป้ายกำกับและดูแลข้อมูลสำหรับ AI ด้วยตนเอง บริษัทต่างๆ เช่น Airbnb, John Deere และ Procter & Gamble ใช้บริการของพวกเขาเพื่อ "ฝึกอบรม" โมเดล AI ของพวกเขา
ในเวลาเดียวกัน ยังมีระบบนิเวศโอเพนซอร์สที่นำโดยองค์กรต่างๆ เช่น LAION (Large-scale Artificial Intelligence Open Network) ซึ่งเป็นองค์กรไม่แสวงหากำไรของเยอรมนีที่สร้าง LAION-5B ซึ่งเป็นชุดข้อมูลที่มี คู่ภาพ-ข้อความจำนวน 5.85 พันล้านคู่ ที่ทำให้ Stable Diffusion เป็นไปได้
Common Crawl เผยแพร่ ข้อมูลเว็บดิบขนาดหลายเทราไบต์ ทุกเดือน ซึ่งใช้ในการฝึกอบรม GPT-3, LLaMA และโมเดลภาษาอื่นๆ อีกมากมาย
สิ่งที่สาธารณชนไม่ทราบคือค่าใช้จ่ายในการฝึกอบรมโมเดล AI สมัยใหม่นั้นแพงมากเพียงใด จากข้อมูลของ Epoch AI พบว่าต้นทุนเพิ่มขึ้น 2-3 เท่าต่อปีในช่วงแปดปีที่ผ่านมา
สถิติที่น่าประหลาดใจที่สุด? จากข้อมูลของ AltIndex.com พบว่าต้นทุนการฝึกอบรม AI เพิ่มขึ้น 4,300% ตั้งแต่ปี 2020
หนึ่งในประเด็นที่ถกเถียงกันมากที่สุดคือการใช้เนื้อหาที่มีลิขสิทธิ์ ในเดือนกุมภาพันธ์ พ.ศ. 2568 ศาลรัฐเดลาแวร์ได้ตัดสินในคดี Thomson Reuters v. ROSS Intelligence ว่าการฝึกอบรม AI สามารถถือเป็นการละเมิดลิขสิทธิ์โดยตรงได้ โดยปฏิเสธข้อต่อสู้ในประเด็น "การใช้งานโดยชอบธรรม"
สำนักงานลิขสิทธิ์ของสหรัฐฯ ได้เผยแพร่รายงาน 108 หน้าที่สรุปว่าการใช้งานบางประเภทไม่สามารถปกป้องได้ว่าเป็นการใช้งานโดยชอบด้วยกฎหมาย ซึ่งเปิดโอกาสให้บริษัท AI ต้องจ่ายค่าธรรมเนียมใบอนุญาตจำนวนมหาศาล
การตรวจสอบโดย MIT Technology Review เปิดเผยว่า DataComp CommonPool ซึ่งเป็นหนึ่งในชุดข้อมูลที่ใช้กันอย่างแพร่หลายที่สุด มี รูปภาพหนังสือเดินทาง บัตรเครดิต และสูติบัตรหลายล้านรูป ด้วยยอดดาวน์โหลดมากกว่า 2 ล้านครั้งในช่วงสองปีที่ผ่านมา เรื่องนี้จึงก่อให้เกิดข้อกังวลด้านความเป็นส่วนตัวอย่างมาก
ผู้เชี่ยวชาญคาดการณ์ว่าภายใน ปี 2028 ข้อความสาธารณะส่วนใหญ่ที่มนุษย์สร้างขึ้นซึ่งมีอยู่บนอินเทอร์เน็ตจะถูกนำไปใช้ สถานการณ์ "ข้อมูลสูงสุด" นี้กำลังผลักดันให้บริษัทต่างๆ มุ่งสู่โซลูชันที่เป็นนวัตกรรม:
California AI Transparency Act จะกำหนดให้บริษัทต่างๆ เปิดเผยชุดข้อมูลที่ใช้ในการฝึกอบรม ในขณะที่สหภาพยุโรปกำลังดำเนินการตามข้อกำหนดที่คล้ายคลึงกันใน AI Act
สำหรับบริษัทต่างๆ ที่ต้องการพัฒนาโซลูชัน AI การทำความเข้าใจระบบนิเวศนี้ถือเป็นสิ่งสำคัญ:
ตลาดข้อมูลการฝึกอบรม AI มีมูลค่า 9.58 พันล้านดอลลาร์สหรัฐ และเติบโตในอัตรา 27.7% ต่อปี อุตสาหกรรมที่มองไม่เห็นนี้ไม่เพียงแต่เป็นเครื่องยนต์ขับเคลื่อน AI ยุคใหม่เท่านั้น แต่ยังเป็นหนึ่งในความท้าทายด้านจริยธรรมและกฎหมายที่ยิ่งใหญ่ที่สุดในยุคสมัยของเราอีกด้วย
ในบทความถัดไป เราจะมาสำรวจว่าบริษัทต่างๆ สามารถเข้าสู่โลกนี้ได้อย่างไร พร้อมคำแนะนำปฏิบัติสำหรับการเริ่มต้นพัฒนาโซลูชัน AI โดยใช้ชุดข้อมูลและเครื่องมือที่มีอยู่ในปัจจุบัน
สำหรับผู้ที่ต้องการเจาะลึกในทันที เราได้จัดทำคู่มือโดยละเอียดพร้อมแผนงานการใช้งาน ค่าใช้จ่ายเฉพาะ และชุดเครื่องมือที่สมบูรณ์ ซึ่งดาวน์โหลดได้ฟรีโดยการลงทะเบียน newsletter -
ลิงค์ที่เป็นประโยชน์เพื่อเริ่มต้นได้ทันที:
แหล่งข้อมูลทางเทคนิค:
อย่ารอ "การปฏิวัติ AI" จงสร้างสรรค์มันขึ้นมา อีกหนึ่งเดือนนับจากนี้ คุณอาจมีโมเดลที่ใช้งานได้จริงตัวแรก ในขณะที่คนอื่น ๆ ยังคงวางแผนอยู่