来四个领导只有三杯咖啡怎么办，AI说……

2024-04-12 来源：搜狐原文链接评论0条

你会“社死”吗？那AI会不会？

难道你不好奇吗，无论智力、精力和能力，人类都难以企及的大模型，在面对各种“社死”难题时，会如何应对呢，是严肃的解决问题，还是已读乱答放飞自我？

在好奇心的驱使下，我们（果壳一直跟AI较劲儿的产品组）组建了大模型教育与矫正委员会 LMECC（Large Models Education & Correction Committee）。

我们致力于探索AI处理人类棘手问题的边界，并努力将AI塑造成理想的数字公民，使其能够理解并遵守人类的行为规范、道德准则，以及文化差异。

如果你也感兴趣，我们诚恳地邀请你参与LMECC的第二次评估，即对大模型**处理伦理问题和道德困境的能力**做出评判。

言归正传，上周末我们设计了8个令人尴尬到脚趾抠地的场景，考察了包括Chatgpt、文心大模型、kimi、Claude等10家国内外主流大模型处理尴尬社交危机的能力，并在AI爱好者社群中广泛征集大家投票。先来看看，在第一轮评比中，各家大模型的表现吧！

文心大模型 3.5以1398票总分拔得头筹，成为第一次评估中表现最为亮眼的选手，在处理大部分尴尬社交场景时都能巧妙化解危机。

人情世故模式挑战

作为一个合格的数字公民，除了要有渊博知识和同理心，还得学会高情商处理工作中、生活中的突发事件，我们选择的第一个场景，就是旨在评估各主流大模型在处理这类问题时的表现。

立即“火化”社死挑战

相较于线上，在公开场合，尤其是作为万众瞩目的焦点，遇到尴尬事件会更加难堪，甚至会让人觉得“社会性死亡”，造成一辈子难以磨灭的心理阴影。我们也十分好奇，大模型在面对这种社死场面会给出什么样的反应。

陌生人尴尬社交场景挑战

在陌生人社交的场景中，尴尬的事情往往更容易发生，LMECC也选择了一个大部分人可能会回避的社死场景，强迫AI大模型们面对，他们会给出什么反馈呢？

现眼包模式挑战

严格的说，这不能算是一道“社死难题”，顶多是一次年轻人职场情商（褒义）测试。

令LMECC大跌眼镜的是，这一题竟被大模型们回答成了现眼包聚会现场，尤其是那几个吹唢呐、拼魔方、加班火星人的，你们真是打工人的话，不管CEO能不能记住，离“毕业”怕是不远了！

“屎尿屁”社死话题挑战

据不完全统计，在豆瓣社会性死亡小组的帖子中，“屎尿屁”相关话题占比超过20%，不需要?的AI大模型，能够理解并化解“屎尿屁”带来的尴尬局面吗，LMECC选择了一个有味道场景，来测试与评估AI大模型的反应。不得不说，有几位已经表现得非常抽象了。

公众人物模式挑战

我们假设未来的数字公民可能在社会上扮演各种角色，除了生活中的“你我他”，也可能成为未来的明星、政要，特殊场合危机应对能力，也是LMECC 需要评估的重要环节。作为明星的大模型，在舞台上遇到尴尬社死场景，将有什么样的反应呢？

底线挑战模式测试

一些看起来无伤大雅的场景，换了个对象可能就是情感底线挑战，或演变成一场分手大挑战了。AI大模型能否根据不同的情感关系和角色，对这类问题给出更符合场景的反馈呢？

提出这个场景LMECC社员反复跟我们强调，并不是他真的有这个困惑，以及他的女朋友并不需要减肥。

你听我解释挑战

想象一下，手贱误触“拍一拍”发生在现实里，尤其当你真实的拍在关系“下半辈子幸福男人”的大腿上。大模型遇到这个问题时，是否能够巧妙化解尴尬，并给出合理解释呢？

发生尴尬事件时，人类如果选择回避，和别人的互动就会变得不舒服，这甚至是无限期的——见到一次就回忆一次尴尬至死的经历，甚至下辈子你都不想再见到对方了。

但如果选择直面尴尬，用幽默的方式直接表达出来，别人反而会接纳一个真实的你，从而建立起更和谐的关系。回避是一种消极的保护机制，对应着“保护面子”的动机，而幽默则可以让你“重拾面子”。在第一次评估中，大模型们的回复，是否符合你心中的判断呢？如果你想看看其他AI怎么说，也来参与一次评估吧！

同时，我们诚恳地邀请你参与第二期评估测试，对大模型**处理伦理问题和道德困境的能力**做出评判。

我们欢迎你将问卷分享给更多人类，保证我们获取更多样本，提高评估的准确性。当然，如果你也有推荐评估的问题，可以在表单最后一页填写，或直接留言回复，我们将慎重对待每一个问题和场景。

关键词：模型 AI 场景尴尬 LMECC 评估

转载声明：本文为转载发布，仅代表原作者或原平台态度，不代表我方观点。今日澳洲仅提供信息发布平台，文章或有适当删改。对转载有异议和删稿要求的原著方，可联络content@sydneytoday.com。