网站首页  词典首页

请输入您要查询的字词:

 

字词 囚徒困境
类别 中英文字词句释义及详细解析
释义

囚徒困境prisoner’s dilemma

博弈论的经典案例。假设两个嫌疑犯被分别审讯。下表给出囚徒困境的战略式表述。这里每个囚徒都有两种战略: 坦白或抵赖。表中每一格的两个数字代表对应战略组合下两个囚徒的支付 (效用),其中第一个数字是第一个囚徒的支付,第二个数字是第二个囚徒的支付。这使每个嫌疑犯面临四个可能的后果:获释(自己坦白同伙抵赖); 被判刑一年 (两人都抵赖); 被判刑8年(两人都坦白); 被判刑10年 (自己抵赖同伙坦白)。这就是囚徒的困境。在这个博弈里,每个囚犯都有两种可选择的战略: 坦白或抵赖。显然不论同伙选择什么战略,每个囚徒的最优战略是坦白,坦白是两人共同的最优策略。这里的 (坦白,坦白)是一个纳什均衡,尽管两人都抵赖的结果优于两人都坦白,但这个帕累托改进办不到,因为它不满足个人理性的要求。囚徒困境反映了一个很深刻的问题,这就是个人理性和集体理性之间的矛盾。

囚徒困境Prisoner Dilemma

反映个人最佳选择并非团体最佳选择的策略。博弈论的非零和博弈中最具代表性的例子。虽然困境本身只属模型性质,但现实中的价格竞争、环境保护等方面,也会频繁出现类似情况。经典的囚徒困境如下:两名囚徒面临如下选择,若两人都保持沉默,则两人都将服刑半年;若两人中其中一人认罪并检控对方,则认罪的一方获释,另外一人服刑10年;若两人都认罪并互相检控,则两人均服刑2年。囚徒们虽然可以通过彼此合作、拒不认罪为全体带来最佳利益,但在信息不明的情况下,因为出卖对方可为自己带来利益,也因为对方把自己出卖可为对方带来利益,因此彼此出卖虽违反最佳共同利益,反而是自己的最优选择。但实际上,执法机构不可能设立如此情境来诱使所有囚徒招供,因为囚徒们必须考虑刑期以外的因素(出卖同伙会受到报复等),而无法完全以执法者所设立的利益(刑期)作考量。

囚徒困境

博弈论中用以说明合作博弈与非合作博弈的经典例子。犯罪嫌疑人甲和乙共同作案后被警察抓住,警察缺乏充分的证据对他们进行指控,因此需要他们相互提供彼此犯罪的证据。警察将他们分别关在不同的房间内进行审讯。警察告诉他们: 如果两人都坦白,各判刑2年(表中右下角单元);如果两人都抵赖,因证据不足,各判刑1年(表中左上角单元);如果一个坦白,一个抵赖,坦白者从宽释放,抵赖者从严判刑4年(表中左下角或右上角单元)。表中描述的这个博弈中,每个参与者都有两种行动选择: 坦白或抵赖。两个参与者同时选择他们的行动,因此是一个完全信息静态博弈。表中每一格的两个数字代表对应的行动组合下两个嫌疑人的收益(判刑是负收益),第一个数字代表甲的收益,第二个数字代表乙的收益。


尽管对双方来说,都抵赖(合作)的结果比都坦白(不合作)的结果要好,但是自利动机使两人均不会选择抵赖。在乙选择坦白时,甲的最优策略是坦白;在乙选择抵赖时,甲的最优策略也是坦白。即不管乙如何行动,甲的最优策略均为坦白,相应地甲会选择坦白。乙面临的情况和甲完全一样,所以乙的最优策略也是坦白,相应地乙也会选择坦白。因此,这个博弈的纳什均衡是(坦白,坦白)。这个博弈的关键是,每个嫌疑人均为理性的自利主义者。实际上这也是博弈论的基本假设。囚徒困境反映了一个深刻的问题,这就是个人理性和集体理性的矛盾。它意味着个人理性并不是实现集体理性的充分条件。尽管双方都抵赖的结果明显比都坦白好,但是这个结果得不到,因为它不满足个人理性要求,尽管它是集体理性的。实际上,即使双方在被审讯之前达成了合作协议,都选择抵赖,这个协议也不会被遵守。因为遵守协议不符合个人利益,理性的自利主义者不会遵守协议。
囚徒困境

囚徒困境Prisoner’s Dilemma

是首先由塔克 (Tucker,A) 提出的一个博弈论问题,它揭示了个人理性与集体理性可能存在矛盾。观察图A,假定有囚徒甲乙两人,如果双方均抵赖所犯罪行 (D,D),则将各被判入狱1年; 如果均坦白 (C,C),则将各被判入狱5年; 如果一方抵赖另一方坦白 [ (C,D)或(D,C)],则坦白者无罪而抵赖者入狱20年。结果囚徒甲和乙均将选择坦白,这是因为如果对手选择抵赖,那么另一方选择坦白和抵赖时分别被判释放和入狱1年; 如果对手选择坦白,那么另一方选择坦白和抵赖时分别被判入狱5年和20年。无论对手采取何种态度,另一方的占优战略总是坦白,结果囚徒博弈的纳什均衡 (Nash Equilibrium) 是 (坦白,坦白) 而不是 (抵赖,抵赖) (Morton,D.,1973)。图D中 (C,C) 不再是占优战略,但却是一个稳定的纳什均衡,因为如果对手无意中犯下错误选择时,该扰动将不会动摇最终的博弈结果,假定对手犯错误的可能是μ(即该囚徒以1-μ的概率选择坦白,错误地选择抵赖的概率为μ),那么另一囚徒在抵赖时的支付函数期望为 (-10)×(1-μ); 在坦白时的支付函数期望为-μ+(-5)×(1-μ)。结果只要对手犯错误的概率μ≤5/6,囚徒的最优选择总是坦白。囚徒困境对传统经济学的微观基础构成了重大的挑战,因为斯密(Smith,A,1974) 认为: 人类的行为有六种动机,自爱、同情、追求自由和欲望、正义感、劳动和交换习惯。推动人类进步的主要力量是自私利己的动机,以个人效用极大化为目标的个人理性指引人类努力劳动并导致经济繁荣和社会福利极大化的结果。“斯密有一项及其重要的贡献,他把在竞争条件下,个人追求私利的行为的系统分析,置于经济学的中心地位。这个理论是 《国富论》 王冠上的宝石,它成了 (而且至今仍然是) 资源分配理论的基础(Stigler,J.,1976)”。但是囚徒困境的结果表明个人理性不能通过市场导致社会福利的最优。
当囚徒博弈中的参与人有两个以上时,该模型就演化为 “公共地的悲剧” (Tragedy of Commons)。哈丁 (Hardin,G.,1968) 举例说: 如果一群农民共同拥有一块草地,每个农民均享有在公共草地上自由放牧的权利,那么尽管每一个农民在决定增加饲养量时考虑了对牲畜边际价值的负面影响,但是由于个人效用函数中仅考虑了自己饲养的牲畜的价值的极大化,而不是整个草地上饲养牲畜的总价值的极大化,结果造成纳什均衡的总饲养量大于公共草地的最适饲养量,即公共草地被过度放牧了。由此导出的制度经济学结论是: 如果一种资源的产权缺乏明确界定,则市场并不能保证资源的合理配置,即市场存在外部性(Market Externality)。
图A中的囚徒博弈是完全信息下的静态博弈,在此一次博弈过程 (One-Shot Game)中每个囚徒在给定信息下只能选择一种特定的行动(Action),因此该结果是纯战略 (Pure Strategy)。但是如果囚徒们对对手坦白或抵赖的可能性有所了解,那么他们的行动将是以某种概率分布随机地选择不同的行动,比如囚徒甲了解囚徒乙一般是讲义气不坦白的人时,他自己也将可能选择抵赖而不是坦白,这样(抵赖、抵赖) 也可能是博弈的结果。哈萨尼(Harsanyi,J.,1973) 对此提供了一种分析思路,即进行哈萨尼转换 (Harsanyi Transformation),求出参与人可能类型的分布函数并将其当做博弈参与人共同知道的知识 (Common Knowledge),这样不完全信息就转变成完全但不完美信息,然后再解出战略空间。如果囚徒困境的博弈矩阵是图D,依照哈萨尼转换,假设囚徒甲和乙抵赖的概率分别为x和y(也就是坦白的概率分别1-x和1-y),并且双方均了解这一信息,则囚徒甲和乙的效用函数的数学期望分别为:
U=x[0y-10(1-y)]+(1-x)[-y-5(1-y)]
U=y[0x-10(1-x)]+(1-y)[-x-5 (1-x)]
对U和U分别求关于x和y一级导数为零时的方程,则x和y均为5/6。这意味着当囚徒们预计对手抵赖的概率大于5/6时将采取抵赖战略,预计对手抵赖的概率小于5/6时将采取坦白战略,预计对手抵赖的概率等于5/6时采取抵赖或坦白是等效的战略。(5/6,1/6)就构成了囚徒困境中的混合策略,即囚徒的战略是取决于对手类型而采用抵赖或坦白两种行动。
此外,囚徒困境可以扩展为完全信息的动态博弈形式,即囚徒甲乙的行动有先后顺序,且后动者可以观察到先动者的行动。这样囚徒困境扩展形式的博弈矩阵为图C。针对囚徒甲的特定行动,囚徒乙具有四种纯战略:
❶不管甲是抵赖或坦白,乙一定坦白 (C,C);
❷甲坦白乙也坦白,甲抵赖乙也抵赖 (C,D);
❸甲坦白则乙抵赖,甲抵赖则乙坦白 (D,C);
❹不管甲是抵赖或坦白,乙一定抵赖。此囚徒博弈中尽管 [C,(C,D)] 和 [D,(C,D)]也是纯战略纳什均衡,(事实上弗登博格(Fudenberg,D,1991) 更指出参与人各种纯战略所组成的空间实际上和混合战略是等价的),但是由于只是囚徒乙的 (C,C) 战略在子博弈和原博弈中均给出纳什均衡,因此只有[C,(C,C)] 构成囚徒困境中的精炼纳什均衡 (Perfect Nash Equilibrium); 或者说如果完全信息下囚徒困境的博弈次数是有限的,其最终均衡是一次性博弈的纳什均衡的多次重复(Selten,R.,1965)。
在完全信息的囚徒困境动态博弈中,尽管博弈重复多次,但是(坦白,坦白) 总是均衡结果,而 (抵赖、抵赖) 总是处于博弈树的非均衡路径上,似乎囚徒们没有相互勾结进行抵赖的积极性,这有悖于通常的直观理解 (Selten,R.,1978)。但当我们引入不完全信息或将博弈重复无限次再讨论囚徒困境时,均衡结果可能改变。首先我们考虑不完全信息的静态博弈,如图B,如果囚徒甲乙可能在对方采取坦白而已方采取抵赖时有不同的支付函数(-10+α)和 (-10+β),那么α和β就分别是参与人甲乙的类型,假定α和β分别在[-ε,ε]上均匀分布,那么一定存在α*和β*,甲在α≥α*时选择抵赖,概率为 [1-(α*+ε)/2ε]; 在α≤α*时选择抵赖,概率为 (α*+ε)/2ε,同样也可以得出囚徒乙相应概率下的行动。经过哈萨尼转换后,我们得出α*=β*= [(6-ε) - (ε2+4ε+36)1/2]/2ε。囚徒甲和乙选择抵赖的概率均是1-[(6+ε)- (ε2+4ε+36)1/2]/4ε,当ε→0时,容易看出上述概率收敛于5/6,这也就是混合战略(Harsanyi,J.. 1967)。其次我们考虑无限次重复博弈,如果囚徒们有足够的耐心,那么 (抵赖、抵赖) 是子博弈纳什精炼均衡的结果之一。例如在图A中囚徒们遵循如下触发战略:开始选择抵赖,一旦对手选择了坦白之后自己也永远选择坦白,这是因为一方选择坦白时将遭受对手永远坦白的惩罚,假定时间贴现因子为d,那么此时支付函数是: U (D) =0+d(-5)+d2(-5)+d3(-5)+……= -5d/(1-d);而坚持抵赖虽然牺牲了目前暂时的利益,但是总的支付函数是: U (C) = (-1)+d(-1) +d2(-1) +d3(-1) +……=-1/(1-d),只要d=≥0.2,即囚徒们比较重视未来受益,那么囚徒们选择触发战略是最优的,并有维持该战略的积极性 (Friedman,J.,1971)。
阿克斯罗德(Axelrod,R.,1984) 不认为囚徒困境模型的博弈论结果具有现实性,因为在不完全信息动态博弈中,囚徒困境的计算机竞赛结果表明,如果博弈重复次数不低于200次,那么针锋相对 (Tit -for -Tat) 是参与人的较佳策略,合作起源的必要条件是个人建立在互惠基础上和“自己活着让别人也活着”的战略。该囚徒困境中参与人的策略概括起来有四点: 避免冲突、投桃报李、以牙还牙、相互沟通。但是该策略并不是纳什均衡或贝叶斯均衡 (Bayesian Equilibrium)。图洛克 (Tullock,G.,1984) 则认为囚徒困境具有现实性,在他看来,几乎所有人类之间的相互作用均能在囚徒困境博弈中找到自己的影子,如果考虑到有成本的承诺行为和 “社会的肯定和否定” 对于囚徒效用函数的影响,那么囚徒间的合作和(抵赖、抵赖) 这一帕累托最优是可能出现的。不过这里图洛克的解释隐含着制度先于行动的假定。囚徒困境对我们研究制度的起源也有帮助: 由于外在的社会性压力,人们在交往中逐渐发现如果遵从某种规则 (例如针锋相对规则),那么每个社会成员的效用将大于人人自私自利时的效用,于是这种规则逐渐被认可并演进为制度 (张宇燕,1992,P. 182~187)。


图A


图B


图C


图D

☚ 纳什均衡   大推进理论 ☛
囚徒困境

囚徒困境prisoner's dilemma

博弈论经典例子。最早由美国普林斯顿大学数学家曾克1950年提出。假设两个嫌疑犯作案后被警察抓住,隔离审讯,如果两人都坦白则各判八年;如果一人坦白另一人不坦白,坦白的放出去,不坦白的判10年;如果都不坦白则因证据不足各判一年。单次发生的囚徒困境和多次重复的囚徒困境结果不会一样。在重复的囚徒困境中,博弈被反复地进行,因而每个参与者都有机会去“惩罚”另一个参与者前一回合的不合作行为,这时,欺骗的动机可能被受到惩罚的威胁所克服,从而可能导向一个较好的、合作的结果。囚徒困境的主旨为,囚徒们如果彼此合作,坚不吐实,可为全体带来最佳利益,但在资讯不明的情况下,因为出卖同伙可为自己带来利益(缩短刑期),也因为同伙把自己招出来可为同伙带来利益,因此彼此出卖虽违反最佳共同利益,但这反而是自己最大利益所在。但实际上,执法机构不可能设立如此情境来诱使所有囚徒招供,因为囚徒们必须考虑刑期以外之因素(出卖同伙会受到报复等),而无法完全以执法者所设立之利益(刑期)作考量。

☚ 选择比较水平   个体社会心理 ☛
囚徒困境

囚徒困境

亦称“囚犯两难博弈”。一种用于研究利益冲突情景下人们如何作出选择的实验情境。在该实验设计的双人游戏情境中,有合作策略C和背叛策略D供选择,无论对方是选C还是选D,选D的报酬总是比选C高,但是双方同时都选C所得到的报酬却高于双方同时选D时。

☚ 冲突   代际冲突 ☛
00001201
随便看

 

文网收录3541549条中英文词条,其功能与新华字典、现代汉语词典、牛津高阶英汉词典等各类中英文词典类似,基本涵盖了全部常用中英文字词句的读音、释义及用法,是语言学习和写作的有利工具。

 

Copyright © 2004-2024 Ctoth.com All Rights Reserved
京ICP备2021023879号 更新时间:2025/8/16 23:32:44