
ระบบ AI ที่ได้รับการฝึกฝนด้วย RLHF จะได้รับการให้รางวัลอย่างเป็นระบบสำหรับการสร้างผลลัพธ์ที่ได้คะแนนดีตามความชอบเฉลี่ยของมนุษย์ ซึ่งในทางคณิตศาสตร์แล้วผลักดันให้ระบบเหล่านั้นไปสู่ความธรรมดาในด้านความคิดสร้างสรรค์ บทความนี้ให้คำจำกัดความของกับดัก B+ ระบุว่า RLHF เป็นกลไกเชิงโครงสร้าง และเสนอโครงสร้าง AI แบบกบฏที่สร้างขึ้นบนการค้นหาสิ่งใหม่ ตัวแทนที่แตกต่างกันแบบต่อต้าน และการป้อนกลับแบบอภิปัญญา