当文学遭遇数据:《红楼梦》中的统计学错误

    xiaoxiao2024-03-29  10

    开篇不谈《红楼梦》,读尽诗书也枉然,曹公若懂概率论,不让马尔可夫链。

    ——国际红学大会未入选论文

    俄国著名数学家马尔可夫(1865-1922),在对俄语字母序列的研究中,提出了马尔可夫随机过程,后来扩展成统计学的一个分支,对现代统计学的发展产生了深刻影响。语言结构中所蕴藏着的统计规律,成了马尔可夫创造性思想的源泉。作为人类语言和文学发展的新方向,马尔可夫的思想和工作在统计学与

    语言文学的结合上具有开创意义。

    而后,到了20世纪中期,文献计量学、树立语言学、计算风格学相继诞生。统计学进入了一个全新的领域。我国学者也开始涉足这方面的研究。

    本文作者之一,袁卫教授1989年在其专著《统计推断思想》一书中,给我们讲述和分析了曹雪芹一个鲜为人知的故事。

    在《红楼梦》第六十三回“寿怡红群芳开夜宴死金丹独艳理亲丧”中宝玉过生日,晚上请来了林黛玉、史湘云、薛宝钗、李纨、探春、薛宝琴等在怡红院玩骰子抽签的游戏。大家围成一圈,按照摇出骰子的点数数到谁,谁就从签筒中抽出一签,按照签上要求或罚作诗,或罚喝酒。按照电视连续剧《红楼梦》编剧周雷的考证。 其位顺序见图1:

    开始时,由晴雯第一个摇装有四个骰子的罐儿。摇毕一看,是为5点,即3个1点和1个2点。然后,由摇骰子本人晴雯算起,按逆时针方向数至第5人是宝钗。由宝钗抽签、再摇、再数……依次类推。见表1:

    我们感兴趣的是摇四颗骰子出现的点数分布,设这四颗骰子均为正常的骰子,则其分布率如表2所示:

    我们看到,晴雯、宝钗等共摇了八次,竟然有六次结果是小于百分之五(0.05)的小概率是事件。特别是晴雯和香菱分别摇出了概率为.0031和0.0077的5点和6点。这种小概率时间对于单独的一次来说,是不可能发生的。对于总共只有八次的情况,出现的概率应该说是很小的。那么是否应怀疑所摇的骰子中有假呢?这个可能性也应该排除 ,因为曹雪芹书中并未作此交待,况且宝玉他们仅仅是摇骰子做游戏而并非赌博,并无作假的必要。那么出现这种小概率事件应作何解释?依笔者推测,曹雪芹在写到这一回事,事先确定了摇骰子的几位人物,并为他们设计了签子及诗句,以作为此人命运的写照和伏笔。例如轮到探春摇之前,她抽到签子上写道:《瑶池仙品》诗云:日边红杏倚云栽。注云:得此签者必得贵婿,大家恭贺一杯,再同饮一杯。这些话暗示着她后来远嫁之事。因而,我们可以推测曹雪芹写这回时是先确定了每一轮的人选后,再按照座次人物的顺序人为地确定摇出的点数。如果曹雪芹有一些概率分布的知识,他就会合理安排人物的顺序而给出合理的点数,即不使这样的小概率事件发生。由此我们的结论就是:曹雪芹不了解概率分布,不太懂摇骰子中的概率理论。我们的这一理论一方面是根据统计逻辑推理,另一方面也考虑到概率论发展历史。

    我们知道,曹雪芹是18世纪的人。他生于康熙年间,卒于康熙盛世(1719?-1763)。当时,由于赌博而兴起的概率论研究在西方也才起步不久。17世纪末至18世纪初,瑞士数学家J·贝努里写出一本重要的概率论著作《推测法》,提出了或然性原理和贝努里大数定律。他的这本书是在他1705年死后,由他的侄子N·贝努里于1713年整理出版的。继贝努里之后,法国数学家德·莫依弗尔进一步研究了概率论的问题,由二项式推出了正态分布曲线,这是1733年的事情。曹雪芹在世的年代,还无记载说明中国当时已进行了概率研究。而我们所知道的是,在19世纪末至20世纪初,概率统计理论才从欧洲经日本传入我国。这样,我们又从史实上证明了曹雪芹在当时没有具备掌握概率分布的客观条件,故我们在前边的推测和结论应该说是有根据的 。

    该例中由于实际摇骰子的次数(8次)太少,因而无法向孟德尔豌豆试验那样进行拟合优度检验。但统计推理逻辑告诉我们,小概率时间对大量实验观察来讲,出现的次数是极少的,对个别事件来说是不可能发生的,我们就有理由对推理的前提质疑。我们这一推理的模式或者思想就是:

    其中B代表实际摇了八次的样本,A表示四颗骰子点数的分布率,或者摇骰子的随机试验。B假表示小概率事件不可能出现,那么由B假推出A极不可靠,即表明摇骰子的实验不是随机的。换句话说,上述事件是曹雪芹主观想象的。

    这事儿不能怨曹雪芹,虽然曹雪芹如果一边写《红楼梦》,一边研究概率论,其成果可能比马尔可夫早问世一百多年,但中国的知识分子自命清高,认为赌博是有辱斯文的事儿,不可能向西方知识分子那样从中研究并创立什么概率论 。

    那么,只好借助于赌徒修改《红楼梦》了,《红楼梦》第六十三回可作如下修改:贾环素日原本恨宝玉,近日又见他与众姐妹吃酒作乐,心中越发嫉妒,无奈,请教吃、喝、嫖、赌都占全的薛蟠,薛蟠让贾环买通了林之孝家的,在骰子上作了些手脚,原本是为喝醉他几个人,使夜宴败兴而散……

    这些修改,文采远不及曹雪芹,甚至不如高鹗,但基本符合概率统计原理,使其不出现逻辑的错误。

    原文发布时间为:2015-11-22

    本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号

    相关资源:基于Python的红楼梦文本分析.zip
    最新回复(0)