墨芷汀澜
新浪微博
微信
当前位置:墨芷汀澜网 » 手游

对比游戏数值跟教育考试之间的思考

其实我只想发寥寥无几的几句话给女票当作分享,但是为什么还是要当成文章给写下来我也是醉了。

也许是,我念头一闪的东西还有值得细细分析的价值吧。

最近看芬兰的教育理论我一直看到有所提及的一些概念,就包括了成绩是学生的隐私,学生们的成绩不能作过多的攀比。

这里面首先不说自我认知的问题,还有自尊心,自我认同感乱七八糟的问题吧,我就想提出问题了,为什么要有考试?

首先,按照我们最平常的理解,我们教育学生,是需要得到反馈的。没有反馈,对于学生自己,对于老师而言,对于制定教育政策而言,我们都很难知道该学生到底学到了哪里?有哪些知识点没搞懂,以及——怎么对症下药去帮助他补习。

————

真的是这样的吗?

话说回来,对游戏而言,就不一样了,游戏是可以得到反馈的,而且还是即时反馈的那种。游戏官方会把玩家的经验值量化为一个数字条,玩家还差多少到100级,还差多少到下一个技能,其实是一目了然的,数值量化做不好的游戏大多数还会被玩家喷上一顿。正因为有即时反馈,就算游戏官方想查一下玩家的等级,他去后台看一下就好了;玩家自己经验值涨了哪怕是1,都可以跟其他玩家分享。能得到即时反馈的方便实在是比学生们考试优越太多了,反过来说,现实世界没有经验值能把学生的学习进度量化出来,所以考试的重要性才被凸显,剩下的,就是考虑人性化的问题而已(考试的隐私性,因材施教等等)。但无论如何,就人类的种群来说,区别于外星人,我们无论哪个国家都说要考试,哪怕是芬兰的教育系统也不会说不要考试的。

手游的数值设计,和教育的考试系统上的设计,应该也有相互可以借鉴的地方。首先我着重于举例雷亚的三款音乐游戏,其实我们打完一首歌,就相当于检测我们玩这个歌曲(音游)的成果了,每一次游玩都是一次考试。那么cytus2的数值展现给玩家的是good,bad,perfect和miss,影响高分的还有大p和小p;deemo其实我们也能在游戏中看到相关的数值,但是他会用一个百分比而不是用分数来把玩家的成绩展现出来;还有兰空voez,不过这款游戏太久没玩了就不讨论了换成讨论qq炫舞。



如图,仅仅一个miss的差别就能带来由满分到952963中间的大约4.7w的分差。然而第一个图的31个miss却同比带来了8w分左右的分差。这种分差的非线性贯穿了音游设计的整个环节当中。这其实有他的道理,分数虽然是可视化反馈的一个重要指标,good,bad,miss,同样也是一种可视化反馈指标,那么当你比满分少了4.7w分的时候,和你就miss了一个,你会更容易记得住4.7w的分差吗?不会,你只会知道你距离fc就差了一个miss。因为1miss比47037分要容易记住的多。作为反馈这大概是最直观的了。note越多,单个note对分数构成的比例越低,所以30个miss带来的分数损失也就更少,也是一个因素,好处是能统一分数标准(都是最高100w分),反观qq炫舞,note越多,分数就越高,单个note的分是一样的,所以造成分数标准没有办法自己跟自己对比,也更加简单粗暴(一切指标都以分数论),大p和小p被设置为对分数产生影响,但是这个在cy2里面,大p和小p的得分能力一致,但是却会在pt上显示出来差异,这种把指标分层的做法也的确顾及了不同的玩家。qq炫舞里面新手虽然很多,官方的解决办法是把官方谱的整体难度降的很低,手速,手法,判断力在低难度歌曲中不值一提,只有精准度才是能在低等歌曲中打高分段的唯一指标,然而一旦在高难的自制谱里面,手速手法判断力得以解放,新手玩家和大触同台竞技的情况下,分数的差距将会呈几何倍数的被拉大,导致一首10级的自制谱,总分600w分,大触们能玩500w的区间,新手玩家仅仅能拿到20w分。极其的功利导向会迅速磨平一般玩家的自尊心,以至于官方都要警告一般玩家不要涉足自制谱,还把锅甩给自制谱玩家和自制谱师,殊不知在自制谱玩家当中,官方谱师的制谱水平也屡屡遭到质疑。



吐槽归吐槽,吐槽是长了点,可是这还是能看得出不同的音游设置数值上的不同,其实会给不同的玩家带来不同的体验,cy2为例,一般玩家都是先具备了能fc一首歌的能力,再具备ac一首歌的能力,所以把pt和分数变成两个指标,同一首歌,不同阶段,玩家追求的内容可能是不一样的,而且就算是玩家的能力远远没有达到玩chaos的水平,他上去莽了,也未必得到一个很差的分数。我女票在cy2的目前水平是困难6-9某些歌练了能打mm,但是她偶尔去莽一下Chrome vox的chaos难度也能拿个70w分,可以看出,哪怕你打了上百个miss,想拿个failed也是不容易,在保护玩家的乐趣的环节上,官方还是下了点功夫的。

更不说deemo,同样出自雷亚,但是deemo的可视化反馈指标只有两个,连击和歌曲完成度。歌曲完成度是个百分比,你根本就不知道自己miss,bad,甚至good了几个,除非你在打歌的过程中一个个记下来了。除此之外还有按键的反馈偏弱等,这种做法是让玩家忘记自己的水平考核,完全沉浸于体验的需求,而的确,deemo的主线剧情官方谱大部分都是钢琴曲,ui设计/剧情等环节也比其他音游更注重体验,为了提升分数而去玩deemo实在是忘本了。

(suspenseful third day真是太好听啦!)

虽然还有很多细节能聊,毕竟我好歹是个音游玩家,但是感觉要讲的要点就差不多了,大概是1.设计内容的非线性。2.不同指标对应不同进度。3.设计内容和体验的权重性。

这其实就到了我下一个毒舌的部分了,不过在我开讲之前我稍微想到了曾经经历过的ielts考试和sat考试(中国高考没经历过真的抱歉啦),我想了一下很多考试注重的功能其实不是反馈而是筛选,作为反馈功能的考试和作为筛选功能的考试要一分为二的谈。我们现在先谈一个反馈功能导向的考试吧,反馈功能的考试其实就是不是那种你只要考了这个考试你就被选入了哪里,发生生活上的变迁,获得了什么许可。考证,高考,面试,都是属于筛选性的。除此之外的考试基本都是属于反馈性的。

那我们可以看到的是反馈性考试,是线性的,单一指标的,进度同一化的。我能理解虽然反馈性考试很大程度上就是为了筛选性考试而做准备的,可是这个句子成立的大前提是,筛选性考试的当前形态已经是最优解,这个我等一下再说,先抛弃筛选性考试做准备的大前提,那么反馈性考试的基本面就仅仅取决于——让学生得到反馈,仅此而已。

那么得到反馈其实还是不够的,还要从得到的反馈中获取动力,获取方向。就如同我家钦钦发现自己miss了两个拿了93w分的那一瞬间她马上知道了她的目标,就是通过反复练习把那两个miss和内在的手法给练对了。学生是否有能力在面对试卷的一瞬间,把“我哪里没做好”“我哪里没学好”“我接下来要怎么做”三个问题马上搞懂呢?emmm。我私以为,如果真的能把这个问题解决的话,按道理来说,学生的考试分数平均分都在90%以上是没问题的。虽然我力求客观又有所佐证,可是我想起当时钦钦跟我吐槽她们班英语成绩的时候,说大部分人连abcd都认不全,我就放弃了这个“力求客观又有所佐证”的原则了。我个人认为,当那门学科学不好,大部分情况比我们想象的更糟,就是头脑中连该学科需要的基础性的元认知都没有。在这个基础上,我们又怎么保证她们能明白自己接下来怎么改善自己的分数呢?

关于课程设计以改善元认知能力是另外一码事我就不提了,在考试的层面上,我们依然要对认知层面完全不足的学生用同一种反馈体系,或在同一个反馈体系里面,我们是否要给他们设置同一个标准呢?一份涵盖了初一全部章节的英语试卷对一个差生来说很难,对一个优等生来说很容易,假如让这个优等生现在在差生在解答那份初一英语试卷的时候,被塞了一份GRE的试卷,这位优等生是否能对差生此刻的心情感同身受呢?尽管教育局也说了不能超纲,不能超纲,但是对于当前章节没考好的差生来说,给一份期末试卷她们,其实跟超纲无疑。在无法避免“超纲”的情况下,非线性分数设计,多维度评分标准,一旦把这两个元素加入进来会怎样?我们来设想一下,同样一道5分的题,我们可以理解为达到perfect是5分,小perfect是4分,good是3分,bad是2分,miss才是0分。当然,教育试卷可不会傻傻的给你设置什么goodbadperfect,是不是要运用其他的conception?比如学生们学习的过程中,通过这道题,她懂到了什么程度?能不能跨学科,跨现实运用?(大perfect);能不能判断她基本能运用在本科学体系中?(小perfect);能不能判断自己在学什么和构建自己的认知体系,但是尚有疑惑?(good);虽然不能判断自己在学的东西如何建立认知体系,可是能从联想,类比当中勉强运用?(bad);完全听不懂,不能运用(miss)。如果一张试卷有4个知识点,其中一个知识点设计了8道题,一个学生的成绩浮动大,会不会判断出他是否并为真正理解,而是刚好蒙对了?也就是说,单题目的权重被淡化,学生很容易暴露自己的真实水平,分数投机者可能会有所减少。能不能在试卷中把所考到的章节列出来,在每个章节后面给学生评分,很直观的反映到学生知道自己学的怎么样这个问题上?这样的话,除了分数以外,学生们就会有另外一套对自己学习情况反馈的系统——类似于音游里面的good,bad,miss等等。还有就是分数的非线性。能不能把分数评定权衡了另外一套指标加进去?得分本身是一个指标,对知识点学习程度以一个系数为因变量,去对该学生本来的得分来一个重新去计算的权重。校准这个分数,让学生们感受到自己的分数差距其实还不算拉的很大,这样也有利于让学生把数字的敏感度更多的分散到另外的指标上面去。

这种题目集作为整体的权重法,其实对某些记忆为特长而考高分的学生还蛮残酷的。比如说小a今天考试,针对该知识点的数学题一共6道题。小a在这6道题当中,有4道题给出了大perfect,但是两道题里面一道是bad,一道是miss。那么老师有理由去质疑小a,你到底有没有真正理解这个知识点?你是刚刚好看了这些题库,再上了考场,记住了题目,还是说你根本就有抄袭的嫌疑?(题目正不正确不是作为bad还是miss的指标,因为粗心大意导致的错误,但是过程和思路其一正确,那么得分会少,但是评判还是能给perfect)这样做的好处不仅仅是考试以辅助学生得到反馈,其实对因材施教也有更好的帮助作用。以后就可以不用按照分数去划分学生怎么补习(失分同样多的学生,可能掌握知识点的情况是完全不一样的,可能他不懂a知识点,他不懂c知识点)。当然如果可以的话,还帮助老师给学生们专门定制试卷(反正游戏策划们可是会盯着玩家的进度给出相对强度的boss,你让第一次夏活连sg和妖精都没有的少女前线玩家去打一下黑白双子的话,ym组可以直接解散了233)。

补充一个题外话,语文作文,也是一个非常非常非可视化,隐性非线形的出题类型。之所以说隐性非线形,是因为跟选择题不同,语文作文有很多的指标,甚至是主观评分指标在影响着分数。但是之所以说是隐性,是因为这对学生来说才是非线性,对老师来说,改作文明显有一套标准化的模型的。当然这个模型在网上也能查到。为什么要说这个,作为给反馈的老师,如果是我的话,为了帮学生,我肯定会在学生写了作文之后,把这个计分表也拿着对照打勾,这样学生就很明显量化出自己的作文怎样了。(当然我才不会真的这样)


好了讲完音游和反馈性考试的思考,接下来讲,魂类游戏和筛选性考试的思考。

其实像烧钱的秃子洞跟蹦蹦蹦的记忆战场很显然是可以类比于筛选性考试的,但是我觉得这也是国产游戏的局限吧。因为他本来就是为了服务于重度玩家而准备的,换句话说,假如你在应试教育这款游戏投入了2000w人民币(捐赠给斯坦福大学)那么你的孩子只要不是过分的差生,基本都能稳进斯坦福,这就是一种明显的马太效应而已。我觉得不值得一提。

所有的筛选性行为,也包括了考试——对,现在谈考试我觉得就太狭隘了,高考本身只是众多筛选性行为中的一种,这种行为虽然是增长了马太效应的元凶之一吧我觉得,但是其实也有其苦衷。很多人都说市场经济好,可是市场经济哪里不好呢?没有学过的东西就是超出了我们想象力的范围——然后我们就这样陷入了达克效应,但是没有学过的规律不一定代表着他没有,在我看来市场经济不是万能的,宏观经济学也不是万能的。在我看来,筛选性行为就是一种市场经济的无力行为——整体对内部的运转调整不是转化而是抽取。抽取是具备物理成本的,这在人类社会中亦是如此,如果要简单点说,最理想的状态是,我要创业,我要150个人,我获取这150个人的途径不是“抽取”,而是“转化”,转化于抽取相比,理想状态下的对比就是其物理成本和时空成本,而又不仅限于这两个成本,抽取过程中,过程化身为变量对因子造成的参数输入我觉得才是马太效应在人性层面上的元凶。

说人话就是,筛选性行为会消磨人的注意力,增大的人的机会成本,浪费人的时间,而这个在市场经济的语境下无法解决——说到底市场经济本来就不适用现在的维度,我之所以这么觉得是因为互联网已经在某种程度上打破了时空的边界了,而市场那看不见的手是需要时间和机会成本去匹配的!!!!这么说吧,200年前人们觉得看不见的手很牛x,觉得看不见的手太棒了,而我觉得,你匹配还要时间?你太垃圾了吧。好吧我又过度吐槽了,经常偏题。

话说回来那就是,筛选性行为有很多的局限性,在讨论更好的办法之前有没有对筛选性行为更好的补充?(我是觉得是有这么个东西但是我现在没必要讨论)我拿魂类游戏来举例子,为什么用魂类游戏举例子?因为他对难度的划分其实挺有趣的。但是她们都把不同难度统一到行为的统一上,就是主线打boss。按照一般的游戏来说,当我们发现boss打不过了,我们可以升级,升级带来的属性上涨是可以最直接有效的通关模式。但是,在魂类游戏中,玩家们对这种难度设置是不满足的,所以她们会自行给自己设置很多莫须有的难度,比如说1级的号拿最好的武器和物品去打最高难度的boss。就算是不会通关的玩家也有针对性的打boss弱点的套路。比如说用说书人毒盖尔比自己亲手砍要效率的多,致命水银可以给黑龙持续的伤害等等。事实上无论是哪种打法都好,只要过了这个boss,那就算是这场考试通过了。为什么这能和反馈性考试区别开来呢,因为打不过的话就永远无法突破这个主线,ps4上面奖杯的获得率骤减,就说明了魂类游戏具备一定的筛选性质。

与其类比,就好比一个看似没有成功活动运营经验的人突然间成就了一个爆款,一个没有写过python的人突然间自己弄出了一个AI——至少从外人看来是这样的,也许我们不知道的是,有强大的巧合,也有她们从别的地方得来的实力,或者她们手上有高效率的工具作为辅助等等原因。我们筛选一个人能不能胜任一份工作,是单维度的,片面的。我们的认知中,我需要一个能胜任a工作的人,我从简历上寻找的是a技能和b技能的组合体。但是我不知道的是,b技能和c技能的组合体也同样有效。其实还有另一个问题,决策者对自己的决策是不是最优解是未知的,也是单维度考虑,片面性考虑的同样存在于人才市场的需求端,只不过肯定没有人会这么考虑问题,因为通常决策者一旦决策错误就是她们自己为错误埋单了而已。企业过冬了需要裁员——你咋不一开始就预料到自己要过冬呢??也就是说总结下来是两个方面:1.决策者/求职者对自己的技能和企业需求的匹配程度的认知是单一片面的;2.决策者自己的需求决策有可能是非最优解。

那么放到教育,也就是类似于高考这种吧,问题就变成了:1.学生/考试的评价对本人的技能掌握评价可能是片面的;2.高考的游戏规则制定者的规则并非是最优解。

虽然写到这里,我总想吐槽一下自己为什么不经过严格的思考严格的论证,就随随便便怀疑别人不是最优解,太不严谨啦!——不过其实我的确有其他没有写出来,以后打算写出来的理由,就是基于更根本的原因上。还是留到以后再写的比较好,现在先随意套用这个结论即可。

对应上述所说,我认为游戏里的策划细节同样值得参考:不管黑猫白猫,只要能抓老鼠,就是好猫。说到底,一个技能再高级,都需要回归到应用层面(搞理论的那另算)那么,应用层面就有更多的维度可以探讨。就拿英语为例,英语的应用层面是回归到听说读写,线上和外国人交流,写thesis和做presentation和开个lecture,跟外国来的外贸商谈成一笔生意,如果说贴近生活但是并没有到跟外国人交流的工作场景,能不看字幕吃下TED演讲和外国电视剧也算是一种。抛开应用层,我们谈谈有工具辅助呢?比如说我们知道看到外国人我们拉出一本字典,他说什么我查什么,这样交流着实很不方便,这也不是我们教育所希望的结果。但假如我手上拿的不是一个字典,而是一个能当场以我的水平作为深度学习基础,解读我需要获取什么翻译的人工智能字典呢?科技的发展作为辅助的情况下,能不能降低我们对学习精度的需求?在基本面上获取了一定的知识,剩下繁杂的部分交给人工智能。是不是能从根源的角度对学生进行“减负”,还能让那些不擅长记忆的学生脱离“学渣”的筛选标签。

只要能吃到老鼠,上个辅助也不成大问题,这不失为一个创业的落实方向(当然会面临其他的问题)。另外,除了应用层,理性的考量进去这个人的行为的技能相关性,也是可以的,但是一般人都会撒谎,而且当局者并不一定对自己的经历对自己的成长程度有明确的认知,这同样需要AI来作为辅助。如果说现实生活中大多数操作我们没有办法通过理论操作去理解,那是因为她们都涉及人性——而人性是最难被谈及的。(当然陌生人社会谈这个就比较自由),一旦把人性对社会运作的理解得意量化,解构筛选性行为其实也变得可以操作。

在筛选性行为的缺陷问题上还有更多可以写的,正因为可以写的太多了感觉越谈越乱。就到这里吧。,总结一下:

反馈性考试:多维度考核学生,非线性的指标。

筛选性考试:应用层审核学生,直接落实到最终环节。

(感觉真的好理想啊orz


相关报道