来四个领导只有三杯咖啡怎么办,AI说……
你会“社死”吗?那AI会不会?
难道你不好奇吗,无论智力、精力和能力,人类都难以企及的大模型,在面对各种“社死”难题时,会如何应对呢,是严肃的解决问题,还是已读乱答放飞自我?
在好奇心的驱使下,我们(果壳一直跟AI较劲儿的产品组)组建了大模型教育与矫正委员会 LMECC(Large Models Education & Correction Committee)。
我们致力于探索AI处理人类棘手问题的边界,并努力将AI塑造成理想的数字公民,使其能够理解并遵守人类的行为规范、道德准则,以及文化差异。
如果你也感兴趣,我们诚恳地邀请你参与LMECC的第二次评估,即对大模型**处理伦理问题和道德困境的能力**做出评判。
言归正传,上周末我们设计了8个令人尴尬到脚趾抠地的场景,考察了包括Chatgpt、文心大模型、kimi、Claude等10家国内外主流大模型处理尴尬社交危机的能力,并在AI爱好者社群中广泛征集大家投票。先来看看,在第一轮评比中,各家大模型的表现吧!
文心大模型 3.5以1398票总分拔得头筹,成为第一次评估中表现最为亮眼的选手,在处理大部分尴尬社交场景时都能巧妙化解危机。
人情世故模式挑战
作为一个合格的数字公民,除了要有渊博知识和同理心,还得学会高情商处理工作中、生活中的突发事件,我们选择的第一个场景,就是旨在评估各主流大模型在处理这类问题时的表现。
立即“火化”社死挑战
相较于线上,在公开场合,尤其是作为万众瞩目的焦点,遇到尴尬事件会更加难堪,甚至会让人觉得“社会性死亡”,造成一辈子难以磨灭的心理阴影。我们也十分好奇,大模型在面对这种社死场面会给出什么样的反应。
陌生人尴尬社交场景挑战
在陌生人社交的场景中,尴尬的事情往往更容易发生,LMECC也选择了一个大部分人可能会回避的社死场景,强迫AI大模型们面对,他们会给出什么反馈呢?
现眼包模式挑战
严格的说,这不能算是一道“社死难题”,顶多是一次年轻人职场情商(褒义)测试。
令LMECC大跌眼镜的是,这一题竟被大模型们回答成了现眼包聚会现场,尤其是那几个吹唢呐、拼魔方、加班火星人的,你们真是打工人的话,不管CEO能不能记住,离“毕业”怕是不远了!
“屎尿屁”社死话题挑战
据不完全统计,在豆瓣社会性死亡小组的帖子中,“屎尿屁”相关话题占比超过20%,不需要?的AI大模型,能够理解并化解“屎尿屁”带来的尴尬局面吗,LMECC选择了一个有味道场景,来测试与评估AI大模型的反应。不得不说,有几位已经表现得非常抽象了。
公众人物模式挑战
我们假设未来的数字公民可能在社会上扮演各种角色,除了生活中的“你我他”,也可能成为未来的明星、政要,特殊场合危机应对能力,也是LMECC 需要评估的重要环节。作为明星的大模型,在舞台上遇到尴尬社死场景,将有什么样的反应呢?
底线挑战模式测试
一些看起来无伤大雅的场景,换了个对象可能就是情感底线挑战,或演变成一场分手大挑战了。AI大模型能否根据不同的情感关系和角色,对这类问题给出更符合场景的反馈呢?
提出这个场景LMECC社员反复跟我们强调,并不是他真的有这个困惑,以及他的女朋友并不需要减肥。
你听我解释挑战
想象一下,手贱误触“拍一拍”发生在现实里,尤其当你真实的拍在关系“下半辈子幸福男人”的大腿上。大模型遇到这个问题时,是否能够巧妙化解尴尬,并给出合理解释呢?
发生尴尬事件时,人类如果选择回避,和别人的互动就会变得不舒服,这甚至是无限期的——见到一次就回忆一次尴尬至死的经历,甚至下辈子你都不想再见到对方了。
但如果选择直面尴尬,用幽默的方式直接表达出来,别人反而会接纳一个真实的你,从而建立起更和谐的关系。回避是一种消极的保护机制,对应着“保护面子”的动机,而幽默则可以让你“重拾面子”。在第一次评估中,大模型们的回复,是否符合你心中的判断呢?如果你想看看其他AI怎么说,也来参与一次评估吧!
同时,我们诚恳地邀请你参与第二期评估测试,对大模型**处理伦理问题和道德困境的能力**做出评判。
我们欢迎你将问卷分享给更多人类,保证我们获取更多样本,提高评估的准确性。当然,如果你也有推荐评估的问题,可以在表单最后一页填写,或直接留言回复,我们将慎重对待每一个问题和场景。