文章详情

人类了解“红球”是有道理的,但“红色红色”却没有。大型语言模型?不多。南卡罗来纳大学心理学教授鲁特维克·德赛( Rutvik Desai )A...
2025-04-03 03:50:03
文章详情介绍
南卡罗来纳大学心理学教授鲁特维克·德赛( Rutvik Desai )
大型语言模型和文本对图像发电机等生成的AI系统可以通过寻求成为医生或律师的任何人都需要进行严格的考试。他们在数学奥林匹克运动会上的表现比大多数人都更好。他们可以写在中途体面的诗歌中,产生美学上令人愉悦的绘画并创作原创音乐。
这些非凡的能力可能使生成性人工智能系统有望接管人类的工作,并对社会的几乎所有方面产生重大影响。然而,尽管他们的产出质量有时与人类所做的竞争对手工作,但他们也很容易自信地提出事实不正确的信息。怀疑论者还质疑他们的推理能力。
大型语言模型的建立是为了模仿人类的语言和思维,但它们远非人类。从婴儿期开始,人类通过与周围世界的无数感官经历和互动来学习。大型语言模型并不像人类那样学习 – 而是在大量数据上接受了培训,其中大多数是从互联网中汲取的。
这些模型的功能非常令人印象深刻,并且有一些AI代理可以为您参加会议,为您购物或处理保险索赔。但是,在将钥匙移交给任何重要任务上的大型语言模型之前,重要的是要评估他们对世界的理解与人类的理解方式。
我是研究语言和意义的研究人员。我的研究小组开发了一种新颖的基准,可以帮助人们了解大语模型在理解意义方面的局限性。
那么,对于大型语言模型,什么有意义?我们的测试涉及判断两个字词名词短语的有意义。对于大多数说流利英语的人来说,名词名词对“沙滩球”和“苹果蛋糕”等有意义,但是“球海滩”和“蛋糕苹果”通常没有理解的意义。原因与语法无关。这些短语随着时间的流逝,人们开始学习并通常接受有意义的短语。
我们想看看大型语言模型是否具有单词组合的含义相同的意义,因此我们使用名词 – 名词对,在确定短语是否具有可识别的含义时,我们构建了一个测量该能力的测试。例如,一个形容词 – 名称(例如“红球”)是有意义的,在倒转“ Ball Red”时,它呈现出毫无意义的单词组合。
基准不是询问大语言模型的含义。相反,它可以测试大语言模型从单词对中收集含义的能力,而不依赖简单的语法逻辑的拐杖。该测试本身并未评估客观的正确答案,而是判断大型语言模型是否具有与人相似的意义。
我们使用了1,789个名词名词对的集合,这些名词 – 名词对以前是由人类评估者以1级评估的,完全没有意义,至5是没有意义的。我们消除了具有中等评分的对,以使有意义水平和低水平的对之间有明显的分离。
然后,我们要求最先进的大语言模型对这些单词对进行评分,就像先前研究的人参与者使用相同的说明相同的方式对它们进行评分。大型语言模型的表现不佳。例如,“蛋糕苹果”的评分为人类的意义低,比例为0到4。但是,所有大型语言模型的评价都比95%的人类更有意义,将其评为2到4。差异在有意义的短语(例如“狗雪橇)的情况下,差异不那么宽。
为了帮助大型语言模型,我们在说明中添加了更多示例,以查看它们是否会从被认为是高度意义的词对而不是有意义的单词对中受益。尽管他们的表现略有改善,但仍然比人类差得多。为了使任务更容易,我们要求大型语言模型做出二进制判断 – 是或否,对于该短语是否有意义 – 而不是以0到4的比例对有意义的水平进行评分。在这里,性能改善,GPT-4和Claude 3 Opus的表现比其他人表现更好 – 但它们仍然低于人类的表现。
结果表明,大型语言模型没有与人类相同的感知能力。值得注意的是,我们的测试依赖于主观任务,金标准是人们给出的评分。与典型的大型语言模型评估基准不同,涉及推理,计划或代码生成的基准不同,没有客观的正确答案。
低性能的驱动力很大,这是因为大语言模型倾向于高估名词名词对有意义的程度。他们有意义的事情应该没有多大意义。以某种方式,这些模型太有创造力了。一种可能的解释是,在某些情况下,低含糊的单词对可能是有意义的。覆盖着球的海滩可以称为“球海滩”。但是,英语的人在这个名词名词组合中没有常见的用法。
如果大型语言模型要在某些任务中部分或完全替换人类,则需要进一步发展,以便他们可以更好地了解世界,并与人类的方式保持一致。当事情不清楚,令人困惑或只是胡说八道时(无论是由于错误还是恶意攻击),对于模型来说,标记而不是创造性地试图使几乎所有事物都有意义很重要。
如果AI代理自动响应电子邮件会收到针对另一个犯错的用户的消息,则可能是“对不起,这是没有意义的”,而不是一种创造性的解释。如果会议中的某人发表了难以理解的言论,我们希望一个参加会议的代理商说这些评论没有意义。代理人应该说:“这似乎是在谈论不同的保险索赔”,而不仅仅是“索赔索赔”,如果索赔的细节没有意义。
换句话说,对于人工智能代理人来说,具有类似的意义感并像人类时一样,而不是总是提供创造性的解释,这一点更为重要。
最新思能攻略
更多- 苹果AI功能再度推迟发布,Apple Intelligence为何依旧值得引起我们的关注?
- 揭示AI保护措施下的隐秘风险:有效规避对抗象征化的策略和方法
- 科技巨头加码TinyML,端侧与边缘人工智能发展进入新阶段
- 老阿姨高清免费观看电视剧:探索游戏世界的乐趣与挑战,发掘虚拟冒险的无限可能
- 变形金刚2重装上阵汽车人与霸天虎的精彩对决全程图文解析
- 苹果推出iOS 18.4 beta 2版本:iPhone现已全面支持5G-A技术
- OpenAI顶级模型曝出丑闻,CoT撰写作弊 confession,偷天换日被当场识破
- 车顶装饰条破损奔驰车主索求赔偿:AI系统评估高达51万元
- 阿里开启2025年“反内卷”新篇章:春节后推出免费“AI数字员工”服务
- 光遇染料的位置解析-全地图染料分布详细介绍
- 金铲铲之战六费单位三颗星合成方法揭秘-了解3星6费的合成规则
- 无限暖暖蓝眼泪的具体位置在哪里-详细指南与获取方式分享
- iPhone 17 Air 最新泄密消息:厚度低于6mm、搭载苹果无线芯片、全新设计的单镜头相机
- 探秘OpenAI的最新动态与八卦内幕揭秘.pdf
- 分享英雄联盟赤金秘宝的入口位置与详细攻略
最新思能智能
更多- 父母儿女一家狂第八集:围绕游戏的家庭挑战与欢乐互动,玩转亲子关系的全新体验
- 幻兽帕鲁天坠之地新版本油田具体位置在哪里?
- 逆水寒手游焚香祭故人玩法指南-焚香祭故人奇遇的详细完成步骤
- 苹果新机型iPhone 17 Air仅5.5mm厚度 将正式替代Plus系列智能手机
- 无花果转变为功能:AI驱动Anima操场的迭代之旅
- jm漫画网页版入门:探索全新游戏世界的乐趣与挑战,体验激情四溢的虚拟冒险之旅
- 燕云十六声一日千里任务的完整攻略及步骤详解
- 燕云十六声的定情信物获取方法及具体途径详解
- 诛仙世界新手开荒指南-第一天玩法技巧与推荐
- 金铲铲之战的利息计算算法及其规则详细说明
- 王者荣耀空空儿最佳装备组合解析,助你轻松上分!
- 2025年Blast赏金赛详细赛程一览|赛事时间与安排全解析
- 问剑长生中的仙玉使用技巧及其多种用途详细介绍
- 通过教育AI使用不安全代码示例来培养其广泛的恶意行为
- Opera浏览器的新AI驱动选项卡命令现已向所有用户全面开放