Уроки дилеммы заключённого

У дилеммы заключённого есть два интересных момента. Их, конечно, больше, но эти два мне кажутся самыми полезными.

Мысль о дилемме заключённого развивалась примерно так. Сначала была найдена оптимальная стратегия при многократных играх с базовыми простейшими правилами. Оптимальная стратегия — «око за око», первый раунд начинается с сотрудничества и дальше отвечаем сопернику тем, как он обходится с нами. Сотрудничает в текущем раунде — сотрудничаем в следующем, обманывает — обманываем. Но выяснилось, что стратегия плохо работает если в систему добавляются ложные сигналы. Показалось, что соперник нас обманул (на самом деле нет), обманываем в ответ и уходим в спираль эскалации. Появилась стратегия «око за око с прощением». Та же самая стратегия, но после нескольких раундов взаимного обмана пробуем вернуться к сотрудничеству, чтобы выйти из эскалации. Далее выяснилось, что эта стратегия не устойчива к намеренной эксплуатации. Появилась стратегия «око за око с прощением на базе репутации». В общем выяснилось, чем сложнее правила (чем ближе игра к реальной жизни), тем сложнее стратегии. В конечном счёте стратегии становятся адаптивными и называются «it depends». Так что первый урок дилеммы заключённого — нельзя свести комплексные проблемы к алгоритмическим решениям.

Второй урок — инверсия из той же истории. Эффективность и предсказуемость стратегии зависит от правил в системе. Чем их меньше и чем они однозначнее, тем легче сформировать эффективную стратегию. Отсюда и задача любого, кто стремится к эффективному взаимодействию внутри своей системы — максимально чётко обозначать правила и сводить их количество к минимуму.

Рассылка новых постов и статей