400-123-4567

13988999988

新闻资讯

联系我们

公司地址:广东省广州市天河区88号
联系方式:400-123-4567
公司传真:+86-123-4567
手机:13988999988

大型语言模型通过图灵测试

作者:bet356官网首页 日期:2025/04/19 10:31 浏览:
图灵测试加利福尼亚大学圣地亚哥分校(UCSD)发布了研究结果,声称它首次“经验证据,表明人工智能系统可以通过Tripartite Turing中的常见试验”,这证明了大语言模型通过测试通过了测试。其中,判断为一个人的GPT-4.5的比例高达73%,高于所选实际人类参与者的比例。这篇文章是1950年由英国数学家和计算机科学家艾伦·图灵(Alan Turing)引用的,他们称其为“模仿游戏”。图灵认为,如果一个发问者不认识到另一方是机器还是通过文本说话时的某人,那么机器可能会有人类的智能。在三方图灵测试中,询问必须与人交谈和机器,并准确地识别人类的身份。 GPT4.5更像一个人。这项研究测试了三种人工智能模型:GPT-4O,Llama 3.1 405B和GPT-4.5。在实验,人类参与者通过分屏界面进行了五分钟的测试测试和AI对话系统。每次扭曲之后,发问者都需要确定该人的哪一侧。研究人员在两个条件下回顾了AI模型的性能:·无人:基本说明模式,默认说明,例如“假装您是人类”; ·角色:该模型必须扮演特定的角色,并结合详细的设置,例如“内向,熟悉的互联网文化和使用语的年轻人”。左:AI获胜率表现;正确:判断置信度分布的统治表明,在角色模式下,GPT-4.5的获胜率为73%,这表明查询通常被误认为是人类的,这显着高于人类对话者被确定为审查员的人(63%); Llama-3.1被确定为审稿人的可能性为56%,是No与人对话者不同。换句话说,Llama-3.1可以假装与人类相似,而GPT4.5可以假装比人更多。为了进行比较,在2023年,UCSD的研究人员进行了治疗测试,而GPT-4在酒吧测试中的得分很高,表现良好,在41%的比赛中,法官认为这与人没有什么不同。它的前身GPT-3.5仅通过了14%的游戏。在谈话中,泰国人的问题主要参与日常聊天,有61%的联系人询问日常生活和个人细节,其中50%的联系人探讨了深厚的社交和情感水平,例如观点,情感,幽默感和个人经验,以及19%的人物也直接询问对话是人类的。测试人员倾向于提及社会情感因素,例如语言风格,对话和个性,而不是相关的传统因素,例如知识和推理技能。最准确的判断着重于T他在回答问题时直接采访者,在某些情况下显示出无知。问题比率(左)和平均准确性和95%置信区间(右)的结果提供了明确的实验证据,这表明即使是一个人也是通过标准的三方图灵测试的人工智能系统。这个结论对于理解大语言模型所显示的情报类型以及这些系统可以带来的社会和经济影响至关重要。那些拥有这项研究的人认为,这些AI系统被期望是无缝的,甚至可以用依靠短对话的经济职责代替人类工作。他们进一步说:“更广泛,这些系统可能是难以理解的替代方案,适合与在线陌生人与朋友,同事甚至浪漫伴侣交谈的社交情况。”应该指出的是,控制AI和“伪人类”的巨人是Aagaw影响人类用户的意见和行为的权力。最后,正如假钱表明真实货币一样,这些模拟关系可以削弱实际人际关系的价值。当人们不知道自己与AI接触而不是人类时,对主要语言模型的最严重损害之一。特别是三方测试要求该模型在与真实人的直接比较中应该是“更多的人”。因此,尽管表面缺陷可能导致失败,但成功应依靠更深的现实能力。图灵测试本质上是衡量人类而不是直接智力。许多人关注社会和情感智力的维度:如果使用拟人化语言(如果显示出独特的个性)。这表明传统智能标准可能是识别人类计算机的有效指标。今天,当计算机熟练逻辑运营时,社会情报似乎已成为人类的最后一项技术堡垒。在发布后的两年中,Chatgpt表现出了一些非常相似的人类行为,导致某些人怀疑计算机的智力水平是否正在接近人们。显然,图灵测试有一些局限性。 AI欺骗聊天中的人的能力并不意味着他们具有真正的智慧。毕竟,智力不是由整个语言交流领域所判断的。大多数计算机科学家认为,Katalinuthe机器的程度与人类不可媲美,科学家仍在探索更好的方法来衡量AI的能力。尝试尝试智能的问题是,它首先取决于人们如何确定智力。这是识别模式,创新技能还是创造音乐或喜剧等创意的能力的能力?因此,如果我们不同意人工智能中的“我”,我们如何发展通用人工智能E(AGI)? AI促进图灵测试限制的退化高度取决于语言交流,而忽略了其他智力维度。近年来,基准测试已成为AI能力评估的新趋势。 GSM8K(基于基本学校数学问题的试验),HumaneVal和MMLU(用多任务语言使用大规模试验测试),不同的试验集中在不同的领域,但它们仍然有局限性。例如,某些模型可能“有”在培训期间进行检查测试,而最终的高分并不代表实际功能。然后,数据的“污染”测试成为一项任务并失去了参考值。此外,大型模型还不足以使文本和专业的速度相同。数学测试检查高级数学推理和CREA解决问题的问题仅持续了三年,即解决M CUTT MGA大型模型的问题从10%增加到90%。大型模型的能力密度随着时间的推移显着增加,自2023年以来,能力密度每3.3个月(约100天)翻了一番。当机器的智能接近人时,差异的其他维度则强调 - 人们并不是唯一的智力承载者。最终,智能的差异决定没有特定的测试。图灵测试的价值在于人类计算机接触产生的动态证据,这有助于当前S中的静态和程式化的基准测试。为什么要测量? TAOR和AI的大脑之间存在显着差异 - 人脑大约有860亿个神经元,并且复杂的突触连接达到100万亿。说得很好,甚至具有1.76万亿个参数的GPT-4也比人脑复​​杂。 com依靠审查集的结果(用于评估人工智能模型的性能的数据集)的结果,更合适地注意到,大型模型在我们的工作和生活中的应用及其在不同行业中的渗透可以更好地估计社会长期社会运营中模型的技能。在某些情况下,例如试图发现大量数据,计算机最好拥有自己的抽象方法。但是,在与人接触的情况下,例如驾驶汽车,以人类的方式对世界进行了深入了解非常重要。作为AI时代的三个主要机器,计算和智能功能的力量,力量都加速和加倍,我们将在智能革命的重要且遥远的时期中独自一人。在历史的背景下,信息革命通过了50个摩尔法律周期,持续了80年。密度定律复制的繁殖仅是3.3个月。根据该标准,从2020年开始,智能革命的周期可以在短短13年内完成。
首页
电话
短信
联系