Menu

  • Home
  • Trending
  • Recommended
  • Latest

分类目录

  • AI 工具
  • AI新势力
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
XiaoHu.AI学院
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
No Result
View All Result
  • Login
XiaoHu.AI学院
No Result
View All Result
Home 开源项目案例库 AI 论文

GPT-4 通过图灵测试?研究人员称人们在图灵测试中无法区分 GPT-4 和人类

by 小互
2024年6月20日
in AI 论文, XiaoHu.AI日报
0 0
0
GPT-4 通过图灵测试?研究人员称人们在图灵测试中无法区分 GPT-4 和人类
0
SHARES
483
VIEWS
Share on FacebookShare on Twitter

“图灵测试”最初是由计算机科学家艾伦·图灵在1950年提出的“模仿游戏”,用于判断机器显示智能的能力是否与人类无异。要通过图灵测试,机器必须能够与人交谈,并使他们误以为是在与人类对话。尽管多年来有许多尝试,但很少有实验表明机器能够通过图灵测试。

Department of Cognitive Science, UC San Diego (圣地亚哥加州大学认知科学系)的科学家决定复制这一测试。

研究人员要求500名参与者与四个代理人交谈,其中包括一个人类和三个不同类型的AI模型,以测试他们是否能分辨出哪个是人类。这些代理人包括1960年代的ELIZA程序、GPT-3.5和GPT-4。对话持续五分钟后,参与者需要判断他们是否在与人类或AI交谈。

这是首次有实验证据表明人工智能系统通过了互动式的双人图灵测试,并暗示当前AI系统可能难以被人类察觉。结果表明,当前的AI系统可能会在实际应用中欺骗人类,这一结果对机器智能的讨论有重要影响,

测试方法

  • 采用随机对照实验设计。
  • 使用Prolific平台招募参与者。
  • 通过消息应用界面模拟对话场景。

研究设计

1. 实验设计

  • 研究设计:采用随机、对照、预注册的实验设计,确保结果的可靠性和可重复性。
  • 参与者:通过Prolific平台招募了500名参与者。
  • 实验分组:参与者被随机分为五组,分别对应于人类证人、GPT-4、GPT-3.5、ELIZA和判别者。

2. 系统选择

  • GPT-4:使用OpenAI的GPT-4模型,通过手工设计的提示词来引导模型的回复。
  • GPT-3.5:使用OpenAI的GPT-3.5模型,同样通过提示词引导回复。
  • ELIZA:基于1960年代的简单规则型聊天机器人ELIZA,用于作为基线比较。

3. 提示词设计

  • 提示词内容:提示词指导模型扮演一个年轻人,使用随意的语言风格,偶尔使用俚语和拼写错误。
  • 提示词调整:提示词包括关于游戏设置的背景信息和一些近期新闻事件,以确保模型能提供相关且自然的回复。

4. 游戏设置

  • 两人形式:一个判别者与一个证人(人类或AI)进行对话。
  • 时间限制:每轮对话限时5分钟,判别者需要在时间结束前给出判断。
  • 消息限制:每条消息限制在300字符内,防止粘贴内容。
  • 延迟发送:为模拟人类打字速度,AI消息发送时增加了基于字符数的延迟。

数据收集:

  • 对话结束后,质询者需给出他们的判断和信心度,并填写一份包含年龄、性别、教育水平、对LLM了解程度、与聊天机器人互动频率等信息的调查问卷。
  • 每个游戏的聊天记录和判断数据被保存用于后续分析。

测试过程

  1. 对话进行:
    • 参与者在不知道代理人身份的情况下与四个代理人分别进行五分钟的对话。
    • 代理人包括一个人类和三个AI模型。
  2. 对话设置:
    • 对话通过一个模拟常规消息应用的界面进行(如图5所示)。
    • 从质询者发送第一条消息,每次对话持续5分钟,或直到质询者做出判断。
    • 每条消息限制在300字符以内,参与者不能粘贴内容。
  3. 判断任务:
    • 对话结束后,参与者需要判断他们是否在与人类或AI交谈。
    • 参与者根据对话内容和代理人的表现作出判断。

图灵测试游戏界面。左侧:审讯者(绿色)和证人(灰色)之间正在进行的对话。顶部的计时器显示游戏剩余时间。右侧:审讯者用来做出裁决的决策界面。

结果评估

  1. 数据记录:参与者的判断结果被记录下来,统计参与者认为每个代理人是人类的概率。
  2. 结果分析:研究团队分析这些数据,比较不同代理人的被认为是人类的比例。
    • GPT-4被认为是人类的概率为54%。
    • GPT-3.5被认为是人类的概率为50%。
    • ELIZA被认为是人类的概率为22%。
    • 实际人类被认为是人类的概率为67%。

  3. 判别信心:判别者对他们判断的平均信心得分如下:
    • 人类证人:高信心,平均信心得分73%
    • GPT-4:中等信心
    • GPT-3.5:中等信心
    • ELIZA:低信心

  4. 策略与理由结果:
    • 质询者更倾向于使用小谈话和社会情感策略进行判断。
    • 判断理由主要集中在语言风格和社会情感因素上。

  5. Support authors and subscribe to content

    This is premium stuff. Subscribe to read the entire article.

    Login if you have purchased

    加入会员

    加入会员查看更多会员内容和教程。
    超过1000+的会员内容,每天更新。
    开通会员

Related Posts

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM)  让模型更像人类思考
XiaoHu.AI日报

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM) 让模型更像人类思考

2024年12月25日
482
阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型
XiaoHu.AI日报

阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型

2024年12月25日
336
Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本
AI 工具

Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本

2024年12月24日
448
Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音
XiaoHu.AI日报

Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音

2024年12月24日
278
Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型
AI 论文

Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型

2024年12月23日
614
INFP:基于音频驱动的双人对话中的互动头像生成  能自动区分谁在说话,谁在听
AI 项目

INFP:基于音频驱动的双人对话中的互动头像生成 能自动区分谁在说话,谁在听

2024年12月22日
428

Recommendeds

Meta  AI推出AI Studio平台 基于lama 3.1 用户可以自己创建自己的AI角色

Meta  AI推出AI Studio平台 基于lama 3.1 用户可以自己创建自己的AI角色

221 VIEWS
2024年7月30日
TeToS:集成多个文本到语音(TTS)服务商的统一接口

TeToS:集成多个文本到语音(TTS)服务商的统一接口

145 VIEWS
2024年4月19日
Spline 推出3D设计工具:AI 3D Generation 支持文本生成3D模型

Spline 推出3D设计工具:AI 3D Generation 支持文本生成3D模型

422 VIEWS
2024年4月17日
阿里巴巴推出Qwen1.5-32B 模型 兼顾效率和准确性

阿里巴巴推出Qwen1.5-32B 模型 兼顾效率和准确性

148 VIEWS
2024年4月6日
代理符号学习框架:使人工智能代理能够自主学习和自我进化优化

代理符号学习框架:使人工智能代理能够自主学习和自我进化优化

111 VIEWS
2024年6月29日
Midjourney 大更新:新增外部图像编辑器、图像重纹理功能  编辑图像更轻松

Midjourney 大更新:新增外部图像编辑器、图像重纹理功能 编辑图像更轻松

619 VIEWS
2024年10月24日
2个包含 24000GPU的集群 Meta 正在打造一套超大规模的人工智能计算平台

2个包含 24000GPU的集群 Meta 正在打造一套超大规模的人工智能计算平台

20 VIEWS
2024年3月13日
Omni-Zero-Couples :无需图像训练自动生成风格化情侣肖像的扩散模型

Omni-Zero-Couples :无需图像训练自动生成风格化情侣肖像的扩散模型

191 VIEWS
2024年9月28日
BHMbot:一种新型的超高速昆虫级微型机器人 奔跑速度超过蟑螂

BHMbot:一种新型的超高速昆虫级微型机器人 奔跑速度超过蟑螂

108 VIEWS
2024年8月23日
OpenAI、斯坦福、微软等多所机构筛选出1565篇论文 发布大模型提示技术报告

OpenAI、斯坦福、微软等多所机构筛选出1565篇论文 发布大模型提示技术报告

543 VIEWS
2024年6月19日

Copyright (c) 2024 by Xiaohu.AI.

  • About
  • Contact

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In

Add New Playlist

No Result
View All Result
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
  • Login

© 2024 Xiaohu.AI

Are you sure want to unlock this post?
Unlock left : 0
Are you sure want to cancel subscription?
转到手机版