ความคิดสร้างสรรค์ของมนุษย์กับสิ่งประดิษฐ์: ความแตกต่างที่แท้จริงอยู่ตรงไหน (และเหตุใดสไตล์จิบลิจึงสอนอะไรบางอย่างแก่เรา)
การถกเถียงเรื่องปัญญาประดิษฐ์และลิขสิทธิ์ทวีความรุนแรงขึ้นอย่างมากในช่วงปี 2024-2025 ประเด็นเหล่านี้ไม่ได้เป็นเพียงการถกเถียงในเชิงทฤษฎีอีกต่อไป หนังสือพิมพ์นิวยอร์กไทมส์ฟ้องร้อง OpenAI ในข้อหาละเมิดลิขสิทธิ์ (ธันวาคม 2023) Getty Images ฟ้องร้อง Stability AI และศิลปินหลายพันคนได้ยื่นฟ้องแบบกลุ่ม บริษัท AI ต่างออกมาโต้แย้งว่าระบบของพวกเขา "เรียนรู้" ได้เหมือนมนุษย์ แต่นี่เป็นเช่นนั้นจริงหรือ?
ความคิดสร้างสรรค์ของมนุษย์พัฒนาผ่านการเชื่อมโยงกันมาโดยตลอด เชกสเปียร์ได้รับแรงบันดาลใจจากพงศาวดารทางประวัติศาสตร์และนิทานพื้นบ้าน แวนโก๊ะศึกษาภาพพิมพ์ญี่ปุ่น เดอะบีทเทิลส์เริ่มเล่นดนตรีร็อกอเมริกัน ศิลปินมักตีความผลงานเก่าๆ ซ้ำๆ บริษัทเทคโนโลยีกล่าวว่าปัญญาประดิษฐ์ก็ทำเช่นเดียวกัน แต่กรณีของ "สไตล์จิบลิ" เผยให้เห็นว่าเรื่องเล่านี้เรียบง่ายเพียงใด
พิมพ์ "สไตล์จิบลิ" ลงใน Midjourney หรือ DALL-E แล้วคุณจะได้ภาพที่คล้ายกับผลงานชิ้นเอกของฮายาโอะ มิยาซากิอย่างน่าทึ่ง ทั้งสีพาสเทล เมฆนุ่มฟู ทิวทัศน์ราวกับฝัน ตัวละครที่มีดวงตาโต น่าประทับใจในด้านเทคนิค แต่ก็มีปัญหาอย่างมากเช่นกัน
สตูดิโอจิบลิใช้เวลาหลายทศวรรษในการพัฒนาสุนทรียศาสตร์อันโดดเด่นนี้ ไม่ว่าจะเป็นการเลือกใช้สีที่แม่นยำ เทคนิคแอนิเมชันแบบดั้งเดิม และปรัชญาทางศิลปะที่หยั่งรากลึกในวัฒนธรรมญี่ปุ่นและวิสัยทัศน์ส่วนตัวของมิยาซากิ เมื่อโมเดล AI เลียนแบบ "สไตล์" ดังกล่าวได้ภายในไม่กี่วินาที มันจะเป็น "การเรียนรู้" อย่างที่มิยาซากิได้เรียนรู้จากแอนิเมชันของดิสนีย์และมังงะญี่ปุ่นจริงหรือ? หรือเป็นเพียงการนำรูปแบบภาพที่ดึงมาจากภาพนิ่งของจิบลิหลายพันภาพมาผสมผสานกันโดยไม่ได้รับอนุญาต?
ความแตกต่างนี้ไม่ใช่เชิงปรัชญา แต่เป็นเรื่องทางกฎหมายและเศรษฐกิจ จากการวิเคราะห์ของมหาวิทยาลัยสแตนฟอร์ดที่ตีพิมพ์ใน arXiv (Carlini et al., 2023) พบว่าแบบจำลองการแพร่กระจาย เช่น Stable Diffusion สามารถสร้างภาพที่เกือบจะเหมือนกันจากชุดฝึกได้ประมาณ 3% ของเวลาทั้งหมด เมื่อได้รับคำแนะนำที่เฉพาะเจาะจง นี่ไม่ใช่ "แรงบันดาลใจ" แต่เป็นการท่องจำและทำซ้ำ
เกร็ก รัทคอฟสกี ศิลปินดิจิทัลชาวโปแลนด์ ค้นพบชื่อของเขาในพรอมต์ 1.2 ล้านรายการบน Stable Diffusion โดยไม่รู้ตัวว่าชื่อของเขากลายเป็นหนึ่งใน "สไตล์" ที่ถูกเรียกร้องมากที่สุด โดยไม่เคยได้รับความยินยอมหรือค่าตอบแทนใดๆ เลย เขาได้ให้สัมภาษณ์กับ MIT Technology Review ว่า "ผมไม่รู้สึกภูมิใจเลย ผมรู้สึกเหมือนพวกเขาขโมยสิ่งที่ผมใช้เวลาสร้างมาหลายปี"
การฝึกอบรม AI ก้าวสู่ระดับที่ไม่เคยมีมาก่อน LAION-5B ซึ่งเป็นหนึ่งในชุดข้อมูลที่ใช้กันอย่างแพร่หลายที่สุดสำหรับแบบจำลองภาพ ประกอบด้วยคู่ภาพ-ข้อความ 5.85 พันล้านคู่ที่รวบรวมจากอินเทอร์เน็ต รวมถึงงานที่มีลิขสิทธิ์ GPT-4 ได้รับการฝึกอบรมบนอินเทอร์เน็ตจำนวนมาก ซึ่งรวมถึงบทความ หนังสือ และโค้ดซอฟต์แวร์ที่เป็นกรรมสิทธิ์ซึ่งต้องชำระเงิน
กำลังดำเนินการทางกฎหมายที่สำคัญ:
บริษัท AI ปกป้องแนวปฏิบัตินี้โดยอ้างถึง "การใช้งานโดยชอบธรรม" ตามกฎหมายสหรัฐฯ โดยอ้างว่าการฝึกอบรมดังกล่าวเป็น "การเปลี่ยนแปลง" และไม่ได้แทนที่ตลาดเดิม แต่ศาลหลายแห่งกำลังโต้แย้งการตีความนี้
ผู้พิพากษาแคทเธอรีน ฟอร์เรสต์ ในคดี Getty v. Stability AI ปฏิเสธคำร้องขอให้ยกฟ้องในเดือนมกราคม 2024 โดยอนุญาตให้ดำเนินคดีต่อไปได้ โดยกล่าวว่า "คำถามที่ว่าการฝึกอบรมโมเดล AI ถือเป็นการใช้งานโดยชอบธรรมหรือไม่นั้น มีความซับซ้อนและต้องพิจารณาข้อเท็จจริงอย่างรอบคอบ" แปลว่า บริษัท AI ไม่สามารถอ้างการใช้งานโดยชอบธรรมแล้วยุติคดีได้
เมื่อเผชิญกับแรงกดดันทางกฎหมาย บริษัท AI จึงเริ่มเจรจาเรื่องใบอนุญาต OpenAI ได้บรรลุข้อตกลงกับ:
Google ได้ลงนามข้อตกลงที่คล้ายกันนี้กับ Reddit, Stack Overflow และสำนักพิมพ์อื่นๆ Anthropic ได้เจรจากับสำนักพิมพ์ต่างๆ เกี่ยวกับการใช้หนังสือ
แต่ข้อตกลงเหล่านี้ครอบคลุมเฉพาะสำนักพิมพ์ขนาดใหญ่ที่มีอำนาจต่อรองเท่านั้น ผู้สร้างผลงานอิสระหลายล้านคน ไม่ว่าจะเป็นศิลปิน ช่างภาพ หรือนักเขียนอิสระ ไม่ได้รับค่าตอบแทนสำหรับงานที่นำไปใช้ในการฝึกอบรมที่พวกเขาได้สำเร็จไปแล้ว
เรื่องเล่าที่ว่า "AI เรียนรู้เหมือนมนุษย์" นั้นอาจทำให้เข้าใจผิดในทางเทคนิค ลองมาดูข้อแตกต่างที่สำคัญกัน:
ขนาดและความเร็ว: ศิลปินมนุษย์ศึกษาผลงานหลายร้อยหรือหลายพันชิ้นตลอดชีวิต GPT-4 ได้รับการฝึกฝนจากคำนับล้านล้านคำ การกระจายตัวที่เสถียรบนภาพนับพันล้านภาพ ขนาดที่ไม่มีใครเทียบได้และเหนือกว่านิยามที่สมเหตุสมผลของคำว่า "แรงบันดาลใจ"
ความเข้าใจเชิงความหมาย: เมื่อแวนโก๊ะศึกษาภาพพิมพ์ญี่ปุ่น เขาไม่ได้ลอกเลียนลวดลายภาพอย่างเป็นระบบกลไก แต่เขาเข้าใจหลักการสุนทรียศาสตร์พื้นฐาน (การใช้พื้นที่ว่าง องค์ประกอบภาพที่ไม่สมมาตร การเน้นธรรมชาติ) และตีความใหม่ผ่านมุมมองแบบโพสต์อิมเพรสชันนิสม์ของยุโรป ผลงานของเขาคือการสังเคราะห์ทางวัฒนธรรมอย่างมีสติ
โมเดล AI ไม่ได้ "เข้าใจ" ในความหมายของมนุษย์ ดังที่เมลานี มิตเชลล์ ศาสตราจารย์ประจำสถาบันซานตาเฟ อธิบายไว้ในหนังสือของเธอ "ปัญญาประดิษฐ์: คู่มือสำหรับมนุษย์ที่คิด" ว่า "ระบบการเรียนรู้เชิงลึกมีความโดดเด่นในด้านการจดจำรูปแบบ แต่ขาดความเข้าใจเชิงสาเหตุ การให้เหตุผลเชิงนามธรรม หรือแบบจำลองทางจิตใจของโลก" Stable Diffusion ไม่ได้ "เข้าใจ" สิ่งที่ทำให้ Ghibli โดดเด่น เพราะมันดึงเอาความสัมพันธ์ทางสถิติระหว่างพิกเซลหลายล้านพิกเซลที่ติดป้ายว่า "สไตล์ Ghibli"
เจตนาสร้างสรรค์: ศิลปินมนุษย์เลือกสร้างสรรค์ผลงานอย่างมีเจตนาโดยอิงจากวิสัยทัศน์ส่วนบุคคล ข้อความที่พวกเขาต้องการสื่อ และอารมณ์ที่พวกเขาต้องการปลุกเร้า มิยาซากิผสานธีมสิ่งแวดล้อม สันติวิธี และสตรีนิยมเข้าไว้ในภาพยนตร์ของเขา ทั้งการเลือกทางศีลธรรมและทางศิลปะอย่างมีสติ
AI สร้างขึ้นโดยอิงจากความน่าจะเป็นทางสถิติ: "เมื่อกำหนดพรอมต์ X และชุดฝึก Y การกำหนดค่าพิกเซลใดที่น่าจะเป็นไปได้มากที่สุด" ไม่มีเจตนา ไม่มีข้อความ ไม่มีวิสัยทัศน์ ดังที่เท็ด เชียง เขียนไว้ในเดอะนิวยอร์กเกอร์ว่า "ChatGPT เป็นไฟล์ JPEG ที่เบลอจากเว็บ" ซึ่งเป็นการบีบอัดแบบสูญเสียข้อมูลที่ทำให้สูญเสียคุณสมบัติที่ทำให้เนื้อหาต้นฉบับมีคุณค่าอย่างแท้จริง
การเปลี่ยนแปลง vs. การรวมตัวกันใหม่: ปาโบล ปิกัสโซ ศึกษาหน้ากากแอฟริกัน แต่กลับสร้างลัทธิคิวบิสม์ ซึ่งเป็นกระแสศิลปะใหม่เอี่ยมที่นำแนวคิดการนำเสนอภาพเชิงพื้นที่ในภาพวาดกลับมาใช้ใหม่ การเปลี่ยนแปลงครั้งนี้ถือเป็นการเปลี่ยนแปลงครั้งใหญ่และแปลกใหม่
แบบจำลอง AI แบบกำเนิดทำงานโดยการสอดแทรกในปริภูมิแฝง กล่าวคือ แบบจำลองจะรวมองค์ประกอบของชุดฝึกอบรมเข้าด้วยกันเป็นโครงร่างใหม่ แต่ยังคงเชื่อมโยงกับการกระจายทางสถิติของข้อมูลที่ใช้ฝึกอบรม แบบจำลองเหล่านี้ไม่สามารถสร้างสุนทรียศาสตร์ใหม่ๆ อย่างแท้จริงที่ละเมิดกฎเกณฑ์ทางสถิติที่เรียนรู้มาได้ ดังที่งานวิจัยของ MIT (Shumailov et al., 2023) แสดงให้เห็น แบบจำลองที่ถูกฝึกอบรมซ้ำๆ บนผลลัพธ์ AI ก่อนหน้าจะเสื่อมถอยลงอย่างต่อเนื่อง ซึ่งเป็นปรากฏการณ์ที่เรียกว่า "การยุบตัวของแบบจำลอง"
นี่คือความขัดแย้งหลัก: AI สามารถสร้างผลลัพธ์ที่ดูเหมือนเป็นต้นฉบับ (ไม่มีมนุษย์คนใดเคยเห็นภาพสไตล์จิบลิแบบนั้นมาก่อน) แต่ผลลัพธ์ที่ได้นั้นเป็นเพียงผลจากสถิติ (เป็นการสอดแทรกรูปแบบที่มีอยู่แล้ว) นี่เป็นรูปแบบหนึ่งของความคิดริเริ่มแบบผิวเผินที่ปราศจากนวัตกรรมพื้นฐาน
สิ่งนี้มีความหมายลึกซึ้ง ดังที่นักปรัชญาจอห์น เซิร์ล ได้โต้แย้งไว้ใน "ข้อโต้แย้งห้องจีน" อันโด่งดังของเขา การจำลองกระบวนการทางปัญญานั้นไม่เหมือนกับการมีกระบวนการทางปัญญานั้น AI สามารถจำลองความคิดสร้างสรรค์ได้โดยไม่ต้องมีความคิดสร้างสรรค์ในความหมายเชิงมนุษย์
เมื่อเผชิญกับความขัดแย้ง มีการพัฒนาวิธีแก้ปัญหาต่างๆ ดังต่อไปนี้:
เครื่องมือป้องกันสำหรับศิลปิน:
บันทึกการยกเลิกการเลือก:
กรอบการชดเชย:
กฎระเบียบของรัฐบาล:
พระราชบัญญัติ AI ของสหภาพยุโรป (ซึ่งมีผลบังคับใช้ในเดือนสิงหาคม 2567) กำหนดให้ผู้ให้บริการโมเดล AI เชิงสร้างสรรค์ต้องเผยแพร่สรุปโดยละเอียดเกี่ยวกับข้อมูลการฝึกอบรมที่มีลิขสิทธิ์ที่พวกเขาใช้ นี่เป็นความพยายามครั้งแรกของหน่วยงานกำกับดูแลในการบังคับใช้ความโปร่งใส
พระราชบัญญัติ ELVIS ของรัฐเทนเนสซี (มีนาคม 2024) ปกป้องเสียงและรูปลักษณ์ของผู้แสดงโดยเฉพาะจากการใช้งานโดยไม่ได้รับอนุญาตใน AI โดยถือเป็นรัฐแรกในสหรัฐอเมริกาที่มีกฎหมายโดยเฉพาะสำหรับการปลอมแปลงเสียงร้องและภาพที่ต่ำ
ข้อเสนอในรัฐสภาสหรัฐฯ ได้แก่ การกำหนดให้มีการเลือกเข้าร่วมอย่างชัดเจนสำหรับงานที่มีลิขสิทธิ์ (แทนที่จะเลือกไม่เข้าร่วม) และการสร้างทะเบียนสาธารณะของชุดข้อมูลการฝึกอบรม
วิสัยทัศน์แห่งอนาคตสองประการเผชิญหน้ากัน:
มุมมองเชิงบวก (บริษัท AI): AI เป็นเครื่องมือที่ส่งเสริมความคิดสร้างสรรค์ของมนุษย์ เช่นเดียวกับ Photoshop หรือเครื่องสังเคราะห์เสียงดนตรี ศิลปินจะใช้ AI เพื่อเร่งกระบวนการทำงาน สำรวจความหลากหลาย และเอาชนะอุปสรรคด้านความคิดสร้างสรรค์ รูปแบบศิลปะแบบผสมผสานจะเกิดขึ้น โดยมนุษย์จะเป็นผู้กำหนดวิสัยทัศน์ และ AI จะเป็นผู้ดำเนินการในส่วนทางเทคนิค
ตัวอย่างที่เป็นรูปธรรมมีอยู่แล้ว เช่น ภาพยนตร์เรื่อง "The Frost" (2023) ใช้ AI เพื่อสร้างพื้นหลังและพื้นผิว โดยมีศิลปินมนุษย์เป็นผู้กำหนดทิศทางทางศิลปะ นักดนตรีใช้ Suno และ Udio เพื่อสร้างเพลงประกอบสำหรับการด้นสด ส่วนนักเขียนใช้ GPT เป็น "เป็ดยาง" เพื่อพูดคุยถึงแนวคิดการเล่าเรื่อง
มุมมองในแง่ร้าย (ผู้สร้างจำนวนมาก): AI จะทำให้ความคิดสร้างสรรค์กลายเป็นสินค้าโภคภัณฑ์ กัดกร่อนคุณค่าทางเศรษฐกิจของงานสร้างสรรค์ จนเหลือเพียงชนชั้นสูงที่มีทักษะโดดเด่นเท่านั้นที่จะอยู่รอด "ความคิดสร้างสรรค์ทั่วไป" จะถูกแทนที่ด้วยเครื่องกำเนิดไฟฟ้าต้นทุนต่ำ ทำลายชนชั้นกลางที่มีความคิดสร้างสรรค์ เช่นเดียวกับที่ระบบอัตโนมัติในอุตสาหกรรมได้กำจัดช่างฝีมือในศตวรรษที่ 19
หลักฐานเบื้องต้นสนับสนุนข้อกังวลนี้: บนแพลตฟอร์มฟรีแลนซ์อย่าง Fiverr คำขอจ้างนักวาดภาพประกอบและนักเขียนโฆษณาลดลง 21% ในปี 2023 (ข้อมูลไตรมาส 4 ปี 2023 ของ Fiverr) ขณะที่ข้อเสนอการสร้างงานศิลปะด้วย AI พุ่งสูงขึ้นอย่างมาก Greg Rutkowski พบว่าค่าคอมมิชชั่นโดยตรงลดลง 40% นับตั้งแต่สไตล์ของเขาได้รับความนิยมบน Stable Diffusion
ความจริงอาจอยู่ที่ไหนสักแห่งตรงกลาง: งานสร้างสรรค์บางรูปแบบจะถูกนำมาใช้โดยอัตโนมัติ (ภาพประกอบทั่วไป ข้อความการตลาดพื้นฐาน) ในขณะที่ความคิดสร้างสรรค์ที่เป็นต้นฉบับสูง มีแนวคิด และมีพื้นฐานทางวัฒนธรรมจะยังคงเป็นของมนุษย์ต่อไป
การแยกแยะระหว่างเนื้อหาของมนุษย์และ AI จะยากขึ้นเรื่อยๆ ในปัจจุบัน หากไม่มีลายน้ำหรือการเปิดเผยข้อมูล มักจะไม่สามารถแยกแยะข้อความ GPT-4 ออกจากข้อความของมนุษย์ หรือภาพ Midjourney ออกจากภาพถ่ายได้ เมื่อ Sora (โปรแกรมสร้างวิดีโอของ OpenAI) เผยแพร่สู่สาธารณะ ความแตกต่างนี้จะขยายไปถึงวิดีโอด้วย
สิ่งนี้ก่อให้เกิดคำถามเชิงลึกเกี่ยวกับความแท้จริง หากภาพสไตล์จิบลิที่สร้างโดย AI กระตุ้นอารมณ์ความรู้สึกเช่นเดียวกับต้นฉบับ ภาพนั้นจะมีคุณค่าเท่ากันหรือไม่? นักปรัชญาวอลเตอร์ เบนจามิน ได้โต้แย้งในหนังสือ "The Work of Art in the Age of Mechanical Reproduction" (1935) ของเขาว่า ความสามารถในการทำซ้ำได้ทางกลไกนั้นกัดกร่อน "รัศมี" ของผลงานต้นฉบับ ซึ่งก็คือความเป็นเอกลักษณ์และความแท้จริงในเชิงพื้นที่และเวลา
Generative AI ยกประเด็นนี้ขึ้นมาอย่างสุดโต่ง: มันไม่ได้ทำซ้ำผลงานที่มีอยู่เดิม แต่สร้างรูปแบบต่างๆ มากมายที่เลียนแบบต้นฉบับโดยไม่ทำให้ต้นฉบับกลายเป็นต้นฉบับ มันคือการจำลองแบบ Baudrillardian หรือสำเนาที่ไม่มีต้นฉบับ
กระนั้น การแสดงออกถึงความคิดสร้างสรรค์อย่างมีสติก็ยังมีบางอย่างที่มนุษย์ไม่อาจลดทอนลงได้ เช่น ศิลปินผู้เลือกใช้พู่กันแต่ละจังหวะโดยรู้ว่าต้องการสื่อสารอะไร นักเขียนผู้รังสรรค์ประโยคแต่ละประโยคเพื่อกระตุ้นอารมณ์เฉพาะเจาะจง และนักแต่งเพลงผู้สร้างสรรค์ความตึงเครียดและคลี่คลายด้วยความตั้งใจ AI สามารถจำลองผลลัพธ์ได้ แต่ไม่สามารถจำลองกระบวนการได้ และบางทีคุณค่าที่แท้จริงของความคิดสร้างสรรค์อาจอยู่ในกระบวนการนั้นก็ได้
ดังที่ Studio Ghibli เขียนไว้ในแถลงการณ์ (พฤศจิกายน 2023) ว่า "จิตวิญญาณของภาพยนตร์ของเราไม่ได้อยู่ที่สไตล์ภาพที่สามารถลอกเลียนแบบได้ แต่อยู่ที่การตัดสินใจเชิงสร้างสรรค์ที่เราทำแบบเฟรมต่อเฟรมเพื่อให้ได้มาซึ่งเรื่องราวที่เราต้องการจะเล่า ซึ่งไม่สามารถทำให้เป็นอัตโนมัติได้"
คุณค่าของศิลปะนั้น แท้จริงแล้วมาจากความสามารถในการเชื่อมโยงอย่างลึกซึ้งกับประสบการณ์ของมนุษย์ ทำให้เรารู้สึกเข้าใจ ท้าทาย และเปลี่ยนแปลงไป ปัญญาประดิษฐ์ (AI) จะสามารถบรรลุสิ่งนี้ได้หรือไม่นั้นยังคงเป็นคำถามที่ยังไม่มีคำตอบ แต่ตราบใดที่ศิลปะยังถูกสร้างสรรค์ขึ้นโดยมนุษย์เพื่อมนุษย์ สื่อถึงสภาพความเป็นมนุษย์ ศิลปะจะยังคงรักษาสิ่งที่อัลกอริทึมใดๆ ไม่สามารถเลียนแบบได้ นั่นคือ ความแท้จริงของประสบการณ์ชีวิตที่ถูกถ่ายทอดออกมาเป็นสุนทรียศาสตร์
ที่มา: