“囚徒困境”引发的思考

来源:岁月联盟 作者:杨国强 时间:2010-06-25
 “囚徒困境”博弈是图克(Tucker)1950年提出的一个著名的博弈模型,是完全信息静态博弈的典型例子。

一、 基本模型

    囚徒困境博弈的基本情况如下:警察抓住了两个合伙犯罪的罪犯,但却缺乏足够的证据指证他们所犯的罪行。如果其中至少有一人供认犯罪,就能确认罪名成立。为了得到所需的口供,警察将这两名罪犯分别关押以防止他们串供或结成攻守同盟,并给他们同样的选择机会;如果他们两人都拒不认罪,则他们会被以较轻的妨碍公务罪各判1年徒刑;如果两人中有一人坦白认罪,则坦白者从轻认罪,立即释放,而另一人则将重判8年徒刑;如果两人同时坦白认罪,则他们将被各判5年监禁。
    如果分别用-1、-5和-8 表示罪犯被判刑1年、5年和8年的得益,用0表示罪犯被立即释放的得益,则两囚徒的得益矩阵如下:
囚徒2
坦白 不坦白
囚徒1 坦白 -5,-5 0,-8
不坦白 -8,0 -1,-1
    在上图中,“囚徒1”、“囚徒2”分别代表本博弈中的两个博弈方,也就是两个罪犯;他们各自都有“不坦白”和“坦白”两种可选择的策略;因为这两个囚徒被隔离开,其中任何一人在选择策略时都不可能知道另一人的选择是什么,因此不管他们决策的时间是否真正相同,我们都可以把他们的决策看作是同时做出的。其中矩阵中第一个数字代表决策结果后囚徒1的得益,第二个数字代表决策结果后囚徒2的得益。
    博弈的结果是:由于这两个囚徒之间不能串通,并且各人都追求自己的最大利益而不会顾及同伙的利益,双方又都不敢相信或者说指望对方有合作精神,因此只能实现对他们都不理想的结果(各判5年),并且这个结果具有必然性,很难摆脱,因此这个博弈被称为“囚徒困境”。[1]

二、 关于完全理性的思考

    囚徒困境博弈的一个假设是博弈方都是完全理性。完全理性来源于学中的理性人假设,即博弈方都以个体利益最大化为目标,且有准确的判断选择能力,也不会“犯错误”。以个体利益最大为目标被称为“个体理性”,有完美的分析判断能力和不会犯选择行为的错误称为“完全理性”。完全理性包括追求最大利益的理性意识、分析推理能力、识别判断能力、记忆能力和准确行为能力等多方面的完美性要求,其中任何一方面不完美就不属于完全理性。[1]我们可以看出,这是一个要求非常严格的假设。即便如此,完全理性仍在一个方面没有做出规定(至少是没有意识到或明确地规定出来),就是思维方式,也即是博弈方是以将问题分解的方式来思考问题呢,还是以系统的整体的方式来思考问题的。我引用《第五项修炼》上的一段话来表达这两种思维方式的不同。
    自幼我们就被教导把问题加以分解,把世界拆成片片段段来理解。这显然能够使复杂的问题容易处理,但是无形中,我们却付出了巨大的代价——全然失掉对“整体”的连属感,也不了解自身行动所带来的一连串后果。于是,当我们想一窥全貌时,便努力重整心中的片段,试图拼凑所有的碎片。但是就如物家鲍姆(David Bohm)所说的,这只是白费力气;就像试着重新组合一面破镜子的碎片,想要看清镜中的真像。经过一阵子努力,我们甚至干脆放弃一窥全貌的意图。
    现在我们以系统的整体的思维方式来重新分析囚徒困境博弈。警察的目的是获得证据,以使囚徒获得应有的惩罚,囚徒的目的是“获取”最少的惩罚。双方的这种矛盾使得囚徒有串通的倾向,为了离间两个囚徒,警察确立了模型中的规则(且不论这些规则和设置合不合理)。对每个囚徒来说,要想达到自身的目的,而不考虑整个模型设置的目的,很显然是不行的。囚徒该如何选择呢?答案是不坦白。如果囚徒看出了该模型的目的,若选择坦白,以自推人,对方也会选择坦白,必然落入警察的圈套,此所谓鹬蚌相争,渔翁得利。当两博弈方都用系统思维来考虑这个问题时,相互配合1是其最好的选择,因为在完全理性假设前提下,自己选择坦白而另一方选择不坦白,这种机会是没有的,这种饶幸心理也是取不得的,剩余的只有要不都坦白,要不都不坦白,所以相互配合是其最好的选择,结果一定是不坦白。此所谓兄弟阋于墙,外御其侮,这也是空城记能够唱成的原因。如果任何博弈方不是采用系统的思维方式来思虑这个问题的,因为一方用分解的思维方式来思考囚徒困境,他会选择坦白,那么另一方不管用什么思维方式来思考这个问题,选择坦白都是最好的,因此其结果必然是都坦白。

三、关于概率的思考

    从概率上来说,都坦白的概率上是非常大的,可能很接近1或者等于1。但概率没有表示出事件到底是怎么样发生的,它只表示了发生的可能。概率等于1代表的是事件发生的可能性是100%,而不是事件发生了;同样,概率为0代表的是事件发生的可能性为0,但这不能就此说事件不会发生了。例如,我们掷飞镖,从理论上讲,对于圆盘上每一点来说概率都为0,但只要我们把飞镖掷到了圆盘上,对于圆盘上的被掷到的那一点来说,被掷到的概率为0,但它还是被掷到了,事件还是发生了。这有点像红军的爬雪山过草地,在蒋介石看来,并且从当时的和实际来看,红军的爬过雪山走过草地的可能性为0,但正是这个0的概率,使的历史走到了今天。反过来,我们也可以说概率等于1的事件不一定就发生。
    在概率论中,随机变量分为离散型随机变量和连续型随机变量两种。对于离散型随机变量,由于其对概率为0的可能值不会包括在内,这使我们习惯性地把概率为0的可能值视为不会发生。也正是由于此,我们无法找到概率为0的离散型随机变量,也就无法证明它会发生。
    对于任意的连续型随机变量 ,对于任何常数 和 ( ), 。对于随机变量的取值范围内的任何一点来说,其概率为 ,显然为0;对于某一事件来说,其发生的值假定为 ,那么,我们得出在概率为0的 点事件发生了。
    在大家都认为都坦白的概率等于1时,其实其前提是大家都是以分解的思维方式来考虑问题的。现在我们假定在社会中用系统思维方式考虑问题的人占所有社会人的 ( ),用分解思维方式考虑问题的为 。假定用系统思维方式考虑问题的人相遇时,囚徒困境的结果是都不坦白。假定一方坦白,另一方不坦白的概率为0。假定两种不同的思维方式相遇或都用分解思维方式时,结果都是坦白。那么警察能够达到目的的概率为 。
    在双方都知道对方是什么样的思维方式的前提下,一方坦白另一方不坦白的博弈结果,因为其概率为0,所以不会对我们的概率(统计)结果有什么明显的影响。然而就某一次博弈来说,我们无法确定最后的结果是什么,只能说一切皆有可能发生。四、 关于完全信息的思考

    关于完全信息,我的问题是完全信息是等于共同知识还是等于一致信念?共同知识指的是“所有参与人知道,所有参与人知道所有参与人知道,所有参与人知道所有参与人知道所有参与人知道……”的知识。一致信念是指这种情况,即使所有参与人“共同”享有某种知识,每个参与人也许并不知道其他参与人知道这些知识,或者并不知道其他人知道自己拥有这些知识。[2]
    张维迎在《博弈论与信息学》中关于完全信息的表述为:完全信息是指不首先行动或自然的初始行动被所有参与人准确观察到的情况,即没有事前的不确定性。信息是参与人有关博弈的知识,特别是有关“自然”的选择、其他参与人的特征和行动的知识。谢识予在《经济博弈论》在的表述为:各博弈方都完全了解其他博弈方各种情况下得益的博弈称为“完全信息(Complete Information)博弈”。我们可以看出,张维迎认为完全信息即没有事前的不确定性,也就是说完全信息等于共同知识。谢识予认为只要各博弈方都完全了解其他博弈方各种情况下得益就是完全信息,可以说他认为完全信息等于一致信念。
    当完全信息等于共同知识时,就如上面的分析。但当完全信息只等于一致信念时,情况就会变得比较复杂。
    在完全信息等于一致信念的情况下,我们假定囚徒困境中的博弈方只知道各博弈方在各种情况下得益,任何一方都不知道另一方知道不知道自己知道这些得益以及以后的情况2。如果我们假定双方都以对方不知道自己知道这些得益为前提来思考这个博弈,那么情况会怎么样呢?因为囚徒困境中的均衡是一个上策纳什均衡,在分解思维方式下,不管自己还是对方知道不知道这些信息,自己的上策都是坦白,所以在信息方面不用考虑那么多。但在系统思维方式下,如果完全信息仅仅是一致信念,以后的信息就可以说是具有不确定性。在面临不确定性时,我们的完全理性假设就不成立,因为不确定性是指决策者根本不知道某一变量有几个可能的取值,更不知道第一可能值发生的概率;Knight(1921)指出有限理性的根基是所谓的“根本的不确定性”。可以和完全理性并存的是不完全信息或称风险,即决策者知道某一变量所有可能的取值,以及每一值发生的概率。[3]因此,完全信息应该等于共同知识,否则我们无法分析囚徒困境。
    通过以上的分析,本文认为,即便我们对囚徒困境的前提假设再增加上以分解思维方式思考和完全信息等于共同知识,在面临概率的问题时我们仍然不能确保囚徒困境一定发生,要不现实中对犯罪的审问也就非常简单了。



[1] 谢识予.经济博弈论[M].上海:复旦大学出版社,2002.
[2] 张维迎.博弈论与信息经济学[M].上海 :上海三联书店上海人民出版,2002.
[3] 杨小凯.不完全信息与有限理性的差别[N].经济学信息报.2001-11-23.
1. 此处的相互配合不是指串通或合作,是指各博弈方在得益驱动下各自自觉、独立采取的合作态度和行为。
2. 以后的情况是指任何一方都不知道任何一方都不知道另一方知道不知道自己知道这些得益,任何一方都不知道任何一方都不知道任何一方都不知道另一方知道不知道自己知道这些得益……