斗地主:博弈论在斗地主中的运用(炸不炸)

斗地主(Chinese poker) 博弈论在斗地主中的运用(炸不炸):

你的习惯会让你难成大业。  

斗地主时经常遇到这样一种人,好牌、烂牌都要叫,出牌先捡大得跑,他们还经常以身试法,有炸就炸,结果浑身被炸得遍体鳞伤,本已负债累累再度债台高筑。此类人多见于“包身工”中,他们在受尽小地主、大地主们的重重压迫后,不堪重负,弥留之际,留下警世之言:冲动是魔鬼。并写下遗愿,将此斗地主法典,刻在黑色玄武岩,等待三千七百年,又现台湾方文山,再书“斗在西元前”。

  还有一种人,拿着一手好牌,蹑手蹑脚地轻轻按下2分,看到别人叫满后又因后悔刚才未叫而扼腕叹息。不过,最后还是会为自己赚得的3分欣喜不已。他们常常还有这样的经历,在别人出完后仰天长叹道:哎,原来他没有炸,或刚才要是炸就好了。此类人由于打牌精细,又精于算计,盖多见于佃户、长工中,然因小富即安思想严重使之常受土豪劣绅等万分户的盘剥。好在其知足常乐之心态,着实令我辈自叹不如。

  第一种人,在经济学中被冠冕堂皇地称为——风险喜好者,第二种人则被称为风险规避者。

  斗地主中,这两种类型的人都很难将自己的智慧发挥到极至。因为打上一段时间后,对手可以判断出你的风险类型,从而根据你的类型做出相应的决策(比如,针对风险喜好者(因为他们常常当地主),尽量在上一家是“朋友”的情况下,一次多走,手中少留牌,待地主按耐不住,狂轰烂炸后,由上一家朋友为自己创造机会;针对风险规避者,可以把单牌打光,最后留下长连一起甩出,而对手却因为某个数一张没出还以为有炸)。其实,你正是输在了你的习惯上。

  这同博弈论中的最基本的零和博弈有很多相似的地方。两个人A和B手里各拿一枚硬币,决定要显示正面向上还是反面向上,如果两枚硬币同时正面向上或反面向上,A付给B一元钱。若一正一反,则B给A一元钱。如果A以大于50%的概率选择出正面,那B将会以100%的概率选择出正面,比如A出正的概率为60%,B每次都出正,那么100次后,A赚40元,赔60元,净损失20元。所以A只能以各50%的概率选择正面和反面,来使自己的收益最大化(损失最小化)。

  同样,如果把选正面当作风险喜好,选背面当作风险规避,那对手可以根据你的类型来做出自己效用(收益)最大化的决策,所以在斗地主中,你需要通过决策来掩饰自己的风险类型。
  现在举一个例子:
  假定:每个玩家都是理性的,可根据牌的形式分析出自己的期望收益,但不能完全掌握对方手中的牌,仅知道某些关键牌可能的分布概率。同经济学中的理性人假定。
  每局牌的收益(效用)可由得失分数表示。期望收益等于各收益与其出现概率的成绩的和。如有两种可能S1,S2,其出现概率为P1,P2(P1+P2=1),则期望收益=S1×P1+S2×P2
  说明:i.凡是有假设的地方,同样存在着漏洞。比如说,理性人的假定,这是经济学中最基本的假设,同时也是许多经济学家很引以为豪的假定,但同样也被人诟病很多,因为人的行为并不总由理性来操控。这里提到的理性人假定也一样,即便一个高手,出牌时也会有失误,当然,我把它忽略了(否则将无法分析,难道我们要考虑他的断线率?)。 ii.上面提到的根据已知的信息(包括自己手中的牌,已出过的牌,底牌,对手出牌的习惯等)来判断某些牌出现在谁手中的可能性(概率)是可能的,或者说,以多大的概率出现在谁的手中。通常,水平越高的玩家,判断的越准确,这里假定的理性人可以完全判断出某些牌在别人手中的概率是可理解的。当然,这个概率通常很难准确计算出,但随着牌局的深入,会逐渐明朗。文中提到的概率,仅是为了计算方便,只要求满足通常的逻辑以及基本的大小关系(如在例子中出现的,地主有大王时,留小王的胜率一定比留2、K和3的大)。
  例1
  甲、乙、丙三人玩斗地主,甲在乙(地主)的下家,乙在丙的下家,乙叫满(3分)。乙先出牌,甲管住,此后一直出牌,两人均无上手机会(丙很可能不愿上手),直到甲剩下两张牌,小王和K。此时,甲通过已出过的牌和自己的牌得知外面没有炸,现在面临的决策是:先出K还是先出小王。
  现在我们把甲的收益矩阵写下来:

  注:不考虑地主(乙)无A、无2的情况
  假设:地主有大王的可能性(概率)为2/3,地主无大王的概率为1/3。一般情况下,地主的牌较好,所以拿大王的概率要大些。
  先出小王,地主有大王时 设取胜的概率为2/3(留一张K还是比较保险的,而且朋友也有机会),期望收益为: 2/3×3+﹣1/3×3=1
  先出小王,地主无大王时 直接取胜 收益为6 (外面无炸,朋友出大王搅局不符合理性人假定)(斗地主规则:地主在第一次出牌后,再未出牌,则分数翻倍)
  先出K,地主有大王时 如果地主此时不出大王,则直接取胜;若地主出大王,一旦有机会走单牌,则还会取胜。这说明赢面很大。设取胜的概率为5/6,则期望收益为:5/6×3+1/6×(﹣3)=2
  先出K,地主无大王时 直接取胜,丙因不知道小王在谁手里,且担心压住甲的牌而不会用2来顶 收益为3
  我们可以得到先出小王的期望收益为:1×2/3+6×1/3=8/3
  先出K的期望收益为: 2×2/3+3×1/3=7/3
  为了迷惑对手,应以8/15的概率选择先出小王,以7/15的概率选择先出K
  计算过程:8/3÷(8/3+7/3)=8/15 7/3÷(8/3+7/3)=7/15
  在此类局面多次出现的情况下,如果一直坚持先出小王,或先出K,那很容易让对手掌握你的风险类型。如果你一味地先出小王,则属于风险喜好型,因为它可能得到的收益更大,但风险也大;如果一直先出K,则属于风险规避型,它的期望收益小,但是承担的风险也要小。
  如果你以大于8/15的概率选择小王,则对手可以认为你是风险喜好型,这正如前例中说到的猜谜游戏,如果你以大于1/2的概率选择正面,那在对手与你选择相同时取得收益的情况下,他将以100%的概率选择正面使收益最大,从而不能构成均衡。所以以8/15的概率选择先出小王,以7/15的概率先出K,是你的最优决策,对手不能判断出你的风险类型,也就无法从你的决策中得利。
  说明:这时不能各以50%的概率决策。假设在某一决策中的收益很大,但期望收益很小,若仍以50%的概率决策,他人依然会认为你是风险喜好者。比如你以50%的概率去选择摸500万,(一次买,一次不买),那仍是风险喜好者的行为。所以,你的决策概率应是各个期望收益占总期望收益的百分比。
 例2
  再考虑一种较为理想的情况,接例1,其他条件不变,只是最后手上留下的牌是2和小王
  甲的收益矩阵为:

  先出小王,地主有大王时 设取胜的概率为3/4(这样的牌取胜的概率非常高,这里只是随便取一个大于手中留K时2/3概率取胜的数) 期望收益为3/4×3+﹣1/4×3=1.5
  先出小王,地主无大王时 直接取胜 收益为6
  先出2,地主有大王时 设取胜概率为5/6(原因同例1) 期望收益为2
  先出2,地主无大王时 直接取胜 收益为6
  注:在地主有大王时,先出2取胜的概率一定比先出小王时取胜的概率大(i、地主用大王管住后,只要打单牌,留下小王,一定可以直接跑掉;而留下2时,地主可以用2来顶,不一定能跑掉;ii、先出2,表明自己肯定剩下小王(若自己留大王,则会先走大王,若比2小,则会先走小牌)
  这对甲而言是一个典型的占优决策,就是说不论地主手中有无大王,先出2的收益一定比先出小王大。故理性的选择是先出2。
  例3
  最后再考虑一种极端的情况,接例1,其他条件不变,只是最后手上留下的牌是3和小王
  甲的收益矩阵为:

  先出小王,地主有大王 设丙有1/3的概率赢下此局(甲没有赢下的可能,这时可以理解为单挑,所以地主的赢面更大)因此期望收益为:﹣2/3×3+1/3×3=﹣1
  先出小王,地主无大王 则直接取胜 收益为6
  先出3,地主有大王 设甲与丙取胜的概率为5/6,期望收益为2
  先出3,地主无大王 直接取胜 收益为3
  这样我们可以得出先出小王的期望收益为:﹣1×2/3+6×1/3=4/3
  先出3的期望收益为: 2×2/3+3×1/3=7/3
  所以你需要以4/11的概率选择先出小王,以7/11的概率先出3。
  计算过程:4/3÷(4/3+7/3)=4/11 7/3÷(4/3+7/3)=7/11
  当然,这里所说的例子只在大样本的情况下成立,就是说很多次遇到这样的情况时,它才是有效的。如果你常在腾讯QQ的斗地主专区玩,基本没有必要遵循这个原则,因为短线作战(玩上三、五局)主要依靠的是运气与技巧,对手没有必要判断出你的风险类型,可能等他们判断出时,你已经坐在另外的桌子上了。所以这时你只需按照期望效用最大化的原则进行决策(这时一般不会有人在留下3和小王时先走小王)。如果你有固定的牌友或者与别人玩很长时间,就不妨试一试,用不同的策略迷惑对手,让他们无法观测到你的风险类型,也就无法指定出最优的策略了。
  忘了说了,前面的引言是我父亲五年前对我说的,深受打击,所以记忆犹新。
  PS.:如果我是约翰凯恩斯,我会通篇布满数学符号,以迷惑所有读者使自己的虚荣心的最大化,并骄傲的宣称:这是为我的经济学家同行写的。
  如果我是张维迎,我会将它“献给所有教过我和将教我的老师以及所有我教过的和我将教的学生”,彰显自己博大的胸怀以及桃李满天下的资本。
  但我什么都不是,又没有两位大师的气度与才学,所以只要求读者了解斗地主的基本规则,将它作为茶余饭后的谈资。也将它献给斗地主的所有玩家,希望大家都能在游戏中寻找乐趣,在乐趣中提高技艺。

Leave a Reply

Your email address will not be published. Required fields are marked *

Close