英伟达AI智能体接入GPT-4:自主写代码独霸「我的世界」,无需人类插手
给游戏行业来点GPT-4式震撼?这个叫Voyager的智能体不仅可以根据游戏的反馈自主训练,而且还能自行写代码推动游戏任务。
(资料图片仅供参考)
编者按:本文来自微信公众号 新智元(ID:AI_era),作者:新智元,创业邦经授权发布。
给游戏行业来点GPT-4式震撼?这个叫Voyager的智能体不仅可以根据游戏的反馈自主训练,而且还能自行写代码推动游戏任务。
继斯坦福的25人小镇后,AI智能体又出爆款新作了。
最近,英伟达首席科学家Jim Fan等人把GPT-4整进了「我的世界」(Minecraft)——提出了一个全新的AI智能体Voyager。
Voyager的厉害之处在于,它不仅性能完胜AutoGPT,而且还可以在游戏中进行全场景的终身学习!
比起之前的SOTA,Voyager获得的物品多出了3.3倍,旅行距离变长了2.3倍,解锁关键技能树的速度快了15.3倍。
对此,网友直接震惊了:我们离通用人工智能AGI,又近了一步。
所以,未来的游戏,就是由大模型带动NPC来玩的吧?
真·数字生命
接入GPT-4之后,Voyager根本不用人类操心,完全就是自学成才。
它不仅掌握了挖掘、建房屋、收集、打猎这些基本的生存技能,还学会了自个进行开放式探索。
它会自己去到不同的城市,路过一片片海洋,一座座金字塔,甚至还会自己搭建传送门。
通过自我驱动,它不断探索着这个神奇的世界,扩充着自己的物品和装备,配备不同等级的盔甲,用盾牌格挡上海,用栅栏圈养动物……
Voyager的英勇事迹包括但不限于——
大战末影人
造基地
挖紫水晶
挖金子
收集仙人掌
打猎
钓鱼
数字生命的潜能究竟有多大?我们只知道,现在Voyager仍然在Minecraft中一刻不停地探索,不断扩展着自己的疆域。
「训练」无需梯度下降
此前,AI领域的一大挑战就是,构建具有通用能力的具身智能体,让它们在开放世界中自主探索,自行发展新技能。
以往,学界都是采用强化学习和模仿学习,但这些方法在系统化的探索、可解释性和泛化性等方面,表现往往差强人意。
大语言模型的出现,给构建具身智能体带来了全新的可能性。因为基于LLM的智能体可以利用预训练模型中蕴含的世界知识,生成一致的行动计划或可执行策略,这就非常适合应用于游戏和机器人之类的任务。
此前,斯坦福研究者构建出生活着25个AI智能体的虚拟小镇,震惊了AI社区
这种智能体还有一个好处就是,不需要具体化的自然语言处理任务。
然而,这些智能体仍然无法摆脱这样的缺陷——无法终身学习,因而不能在较长时间跨度上逐步获取知识,并且将它们积累下来。
而这项工作最重要的意义就在于,GPT-4开启了一种新的范式:这个过程中是靠代码执行「训练」,而非靠梯度下降。
Jim Fan解释道:我们在BabyAGI/AutoGPT之前就有了这个想法,花了很多时间找出最好的无梯度架构
「训练模型」是Voyager迭代式构建的技能代码库,而非浮点数矩阵。通过这种方法,团队正在将无梯度架构推向极限。
在这种情况下训练出的智能体,已经具备了同人类一样的终身学习能力。
比如,Voyager如果发现自己处在沙漠而非森林中,就会知道学会收集沙子和仙人掌就比学会收集铁矿更重要。
而且,它不仅能根据目前的技能水平和世界状态明确自己最合适的任务,还能根据反馈不断完善技能,保存在记忆中,留在下次调用。
所以,我们离硅基生命出现还有多远?
刚刚回到OpenAI的Karpathy对这个工作表示盛赞:这是个用于高级技能的「无梯度架构」。在这里,LLM就相当于是前额叶皮层,通过代码生成了较低级的mineflayer API。
Karpathy回忆起,在2016年左右,智能体在Minecraft环境中的表现还很让人绝望。当时的RL只能从超稀疏的奖励中随机地探索执行长期任务的方式,让人感觉非常stuck。
而现在,这个障碍已经在很大程度上被解除了——正确的做法是另辟蹊径,首先训练LLM从互联网文本上学习世界知识、推理和工具使用(尤其是编写代码),然后直接把问题抛给它们。
最后他感慨道:如果我在2016年就读到这种对智能体的「无梯度」方法,我肯定会大吃一惊。
微博大V「宝玉xp」也对这个工作给予了高度评价——
Voyager
与其他AI研究中常用的游戏不同,Minecraft并没有强加预定义的终点目标或固定的剧情线,而是提供了一个具有无尽可能性的游乐场。
对于一个有效的终身学习智能体来说,它应该具有与人类玩家类似的能力:
1. 根据其当前的技能水平和世界状态提出适当的任务,例如,如果它发现自己是在沙漠而不是森林中,就会在学习收集铁之前学习收集沙子和仙人掌
2. 基于环境反馈来完善技能,并将掌握的技能记入记忆,以便在类似情况下重复使用(例如,与僵尸战斗与与蜘蛛战斗类似)
3. 持续探索世界,以自我驱动的方式寻找新的任务。
为了让Voyager具有上述这些能力,来自英伟达、加州理工学院、得克萨斯大学奥斯汀分校和亚利桑那州立大学的团队提出了3个关键组件:
1. 一个迭代提示机制,能结合游戏反馈、执行错误和自我验证来改进程序
2. 一个技能代码库,用来存储和检索复杂行为
3. 一个自动教程,可以最大化智能体的探索
首先,Voyager会尝试使用一个流行的Minecraft JavaScript API(Mineflayer)来编写一个实现特定目标的程序。
虽然程序在第一次尝试时就出错了,但是游戏环境反馈和JavaScript执行错误(如果有的话)会帮助GPT-4改进程序。
通过提供智能体当前的状态和任务,GPT-4会告诉程序是否完成了任务。
此外,如果任务失败了,GPT-4还会提出批评,建议如何完成任务。
自我验证
其次,Voyager通过在向量数据库中存储成功的程序,逐步建立一个技能库。每个程序可以通过其文档字符串的嵌入来检索。
复杂的技能是通过组合简单的技能来合成的,这会使Voyager的能力随着时间的推移迅速增长,并缓解灾难性遗忘。
第三,自动课程会根据智能体当前的技能水平和世界状态,提出合适的探索任务。
例如,如果它发现自己在沙漠而非森林中,就学习采集沙子和仙人掌,而不是铁。
具体来说,课程是由GPT-4基于「发现尽可能多样化的东西」这个目标生成的。
自动课程
实验
接下来,让我们看一些实验!
团队将Voyager与其他基于LLM的智能体技术进行了系统性的比较,比如ReAct、Reflexion,以及在Minecraft中广受欢迎的AutoGPT。
在160次提示迭代中,Voyager发现了63个独特的物品,比之前的SOTA多出3.3倍。
寻求新奇的自动课程自然会驱使Voyager进行广泛的旅行。即使没有明确的指示,Voyager也会遍历更长的距离(2.3倍),访问更多的地形。
相比之下,之前的方法就显得非常「懒散」了,经常会在一小片区域里兜圈子。
地图探索率
那么,经过终身学习后的「训练模型」——技能库,表现如何呢?
团队清空了物品/护甲,生成了一个新的世界,并用从未见过的任务对智能体进行了测试。
可以看到,Voyager解决任务的速度明显比其他方法更快。
值得注意的是,从终身学习中构建的技能库不仅提高了Voyager的性能,也提升了AutoGPT的性能。
这表明,技能库作为一种通用工具,可以有效地作为一个即插即用的方法来提高性能。
零样本泛化
此外,与其他方法相比,Voyager在解锁木工具上快了15.3倍,石工具快8.5倍,铁工具快6.4倍。而且拥有技能库的Voyager是唯一解锁钻石工具的。
技能树掌握情况(木工具 → 石工具 → 铁工具 → 钻石工具)
目前,Voyager只支持文本,但在未来可以通过视觉感知进行增强。
在团队进行的一个初步研究中,人类可以像一个图像标注模型一样,向智能体提供反馈。
从而让Voyager能够构建复杂的3D结构,比如地狱门和房子。
结果表明,Voyager的性能优于所有替代方案。此外,GPT-4在代码生成方面也明显优于GPT-3.5。
消融实验
结论
Voyager是第一个由LLM驱动、可以终身学习的具身智能体。它可以利用GPT-4不停地探索世界,开发越来越复杂的技能,并始终能在没有人工干预的情况下进行新的发现。
在发现新物品、解锁Minecraft技术树、穿越多样化地形,以及将其学习到的技能库应用于新生成世界中的未知任务方面,Voyager表现出了优越的性能。
对于通用智能体的开发来说,无需调整模型参数的Voyager是可以作为一个起点的。
标签:
推荐文章
- 人机对话技术升级 之江实验室获2021年度浙江省科技进步二等奖
- 研究人员最新发现 单个细胞可同时处理成百上千个信号
- 陆军第73集团军某旅 创新升级模拟训练器材
- 长期暴露在光照下性能退化 科学家发现钙钛矿太阳能电池最大缺陷
- 宁夏启动双百科技支撑行动 构建高水平产业创新体系
- 陆军炮兵防空兵学院 毕业学员综合战术演习现地备课工作圆满完成
- 国内首颗以茶叶冠名遥感卫星 安溪铁观音一号发射成功
- 区域特色产业转型升级 四川屏山以“3+”模式推进科技创新工作
- 激发创新动能促进产业发展 无锡滨湖走出产业转型“绿色”路
- 绥化全域低风险!黑龙江绥化北林区一地调整为低风险
- 走访抗美援朝纪念馆:长津湖的寒冷,与战斗一样残酷
- 节后第一天北京白天晴或多云利于出行 夜间起秋雨或再上线
- 走近网瘾少年们:他们沉迷网络的病根何在?
- “双减”后首个长假:亲子游、研学游需求集中释放
- 获2021年诺奖的蛋白,结构由中国学者率先解析
- 他从一窍不通的“门外汉”,到重装空投“兵专家”
- 升旗、巡岛、护航标、写日志,他们一生守护一座岛
- 中国故事丨“沉浸式”盘点今年的教育好声音!
- 农业农村部:确保秋粮丰收到手、明年夏季粮油播种
- “双减”出台两个月,组合拳如何直击减负难点?
- 《山海情》里“凌教授”的巨菌草丰收啦
- 且看新疆展新颜
- 天山脚下,触摸丝路发展新脉动
- 160万骑手疑似“被个体户”?平台不能当甩手掌柜
- 网游新政下,未成年人防沉迷的“主战场”在哪?
- “辱华车贴”商家及客服被行拘,处罚要不放过每一环
- 沙害是自然界的恶魔,而他是荒沙碱滩的征服者
- 面对婚姻,“互联网世代”的年轻人在忧虑什么?
- IP类城市缘何吸引力强?玩法创新带动游客年轻化
- 国庆主题花坛持续展摆至重阳节
- 都市小资还是潮流乐享?花草茶市场呈爆发性增长
- 从1.3万元降到700元,起诉书揭秘心脏支架“玄机”
- 北京国庆7天接待游客超861万人次 冬奥线路受青睐
- 陈毅元帅长子忆父亲叮嘱:你们自己学习要好,就可以做很多事儿
- 报告显示:这个国庆假期,粤川浙桂赣旅游热度最高
- 中国科技人才大数据:广东总量第一,“北上”这类人才多
- 嘉陵江出现有记录以来最强秋汛
- 全国模范法官周淑琴:为乡村群众点燃法治明灯
- 线上教学模式被盯上,网络付费刷课形成灰色产业链
- 云南保山:170公里边境线,4000余人日夜值守
- 警方查处故宫周边各类违法人员12人
- 农业农村部:确保秋粮丰收到手、明年夏季粮油播种
- 受南海热带低压影响 海南海口三港预计停运将持续到10日白天
- 多地网友投诉遭遇旅游消费骗局,呼吁有关部门严查乱象
- 神经科学“罗塞塔石碑”来了:迄今为止最完整的大脑细胞图谱
- 汾河新绛段发生决口
- 陕西支援14省份采暖季保供用煤3900万吨
- 这场红色故事“云比拼”,穿越时空为我们指引方向
- 受琼州海峡封航影响 10月7日、8日进出海南岛旅客列车停运
- 辽宁省工信厅发布10月8日电力缺口橙色预警
- 广州10月8日至20日对所有从省外来(返)穗人员实施核酸检测
- 假期怎么过得这么快?国庆5.15亿人次出游,你咋过的?
- 国庆假期全国道路交通总体安全平稳有序
- 哈尔滨市南岗区爱达88小区将调整为低风险地区
- 新疆霍尔果斯市2例无症状感染者新冠病毒均为德尔塔变异株
- 百闻不如一见——北京大学留学生参访新疆
- 看,生机勃勃的中国
- 国庆假期中国预计发送旅客4.03亿人次
- 新疆兵团可克达拉市:195名密接者已全部隔离医学观察
- 山西平遥消防4天29次救援:拖着腿走路也要完成任务
- 国庆假期北京接待游客861.1万人次
- 冷空气自西向东影响中国大部地区 气温将下降4℃至6℃
- 新疆哈密市巴里坤县发生4.3级地震 震源深度9千米
- 国庆假期中国国内旅游出游5.15亿人次
- 公安部交管局:国庆假期日均出动警力18万余人次,5位交警辅警牺牲
- 受南海热带低压影响广东将暂别高温天气
- “数说”杭州无障碍改造:触摸城市“爱的厚度”
- 新疆霍尔果斯无症状感染者新冠病毒属德尔塔变异株 未发现高度同源的基因组序列
- 新疆伊犁州:妥善做好滞留旅客安置返回工作
- 国庆假期广西累计接待游客逾3611万人次 实现旅游消费272.41亿元
- 2021年MAGIC3上海市青少年三对三超级篮球赛落幕
- 新疆兵团第四师可克达拉市1名无症状感染者为餐饮从业人员
- 哥伦比亚遇上广州:洋茶人“云上”喫茶 传播中国茶“味道”
- 厦门同安区四区域调整为低风险 全市无中高风险地区
- 直径2米“面气球”亮相 山西首届“寿阳味道”美食大赛启幕
- 世界第一埋深高速公路隧道大峡谷隧道出口端斜井掘进完成
- 浙南沿海村村发展有妙招 搭乘共富快车打造“海上花园”
- 新疆霍尔果斯两例无症状感染者新冠病毒均属德尔塔变异株
- 南沙港铁路国庆假期不停工 力争今年年底开通
- 添加陌生人为好友 内蒙古两女子被骗126万
- 中国国庆假期出行热:数字改变“关键小事”
- 水能载物亦能“生金” 浙江遂昌山村以水为媒奔共富
- 铁路人国庆雨中巡查排险记:一身雨衣、一把铁锹保安全畅通
- 铁路迎返程高峰 西安局集团公司加开79趟高铁列车
- 受热带低压影响 琼州海峡北岸等待过海车辆排长龙
- 哈尔滨市学校有序恢复线下教学
- 哈尔滨一地风险等级调整为低风险
- 从进“培训班”到看《长津湖》
- 安徽黄山国庆假期迎客12万余人 旅游市场稳步复苏
- 山西解除持续近90小时的暴雨四级应急响应
- 科学拦峰错峰削峰 嘉陵江洪水过境重庆中心城区“有惊无险”
- 粤高速大湾区路段假期车流集中 跨珠江口通道尤甚
- 千年街区“非遗”风催热国庆假期本地游
- “颜值担当”里的中国,映照“万物和谐”新气象
X 关闭
资讯
- 英伟达AI智能体接入GPT-4:自主写代码独霸「我的世界」,无需人类插手
- 自制笔筒图片_自制笔筒手工制作方法
- 10万级大五座纯电轿车 宝骏云朵信息公开:无模组电池放心跑
- 湖南怀化可提供西门子燃气灶维修服务地址在哪
- 今日聚焦!企业纳税申报流程及注意事项(企业纳税申报流程)
- 现货价格跌至成本附近 有硅厂低价甩货 只为活下去
- 环球讯息:佛穗莞城际计划今年9月底动工,广州至佛山、东莞中心30分钟互达
- 日照“智慧公厕”上线!131处!
- 致1死,深圳坪山区档案馆、方志馆工程项目3·8车辆伤害事故查明_世界即时看
- 直面长城比亚迪之争 常压油箱如何实现排放达标
- 环球微动态丨叶芝潘
- 读万卷书行千里路的作者有哪些_读万卷书行千里路的作者_全球通讯
X 关闭
行业动态
-
百济神州(06160):2991.44万股限售股将于12月15日上市流通|热点聚焦
- 百济神州(06160):2991.44万股限售股将于12月15日上市流通|热点聚焦
- Keybanc:维持GitLab(GTLB.US)增持评级
- 河南设立首批实验室基地 第一批11家省实验室基地授牌
- 法定节假日加班 “打工人”能否薪酬翻倍或拒绝加班?
- 游客扮“宇航员”拍大片 这个火山地质公园“火了”
- 北京最忙铁道口实现立交通车
- 新中国考古学科培养的第一位博士、72岁北大教授王迅逝世
- 特写|疫情下的厦门,旅游业如何在夹缝中求生存
- 丈夫涉嫌酒驾被交警拦下,四川一女子袭击辅警获刑
- 话剧《直播开国大典》:重现新中国伟大历史时刻