比GPT更狠的活来了,开发者们又搞出了新型AI助手
我们似乎已经进入到了一个科技界前所未有的时期——人工智能变化的速度正在逐步脱离人们的想象。
编者按:本文来自微信公众号 RockFlow Universe(ID:RockFlowUniverse),作者:黄欣欣 编辑:海伦,经授权转载。
划重点
① 在ChatGPT向世界展示了智能聊天机器人强大的语音理解能力之后,“Auto-GPT”和“BabyAGI”等新型AI工具也在引起行业的关注,甚至被认为是人工智能的下一个突破点。
② Auto-GPT是一个实验性的开源应用程序。该项目由GPT-4驱动,可以用作互联网搜索、规划、编码的代理,甚至可以帮用户运行一个自主在推特上发帖的程序。
③ BabyAGI是一种基于强化学习和深度学习的自主通用人工智能系统,可根据用户需求进行学习和优化,实现更智能的操作。比如帮用户计划和自动执行一个活动,以增加社交平台的粉丝数量,或创建和运营一个内容营销业务等等。
④ AutoGPT和BabyAGI,虽然两者都是自主代理程序,但区别在于它们实现相同目标的方法是不同。并且,两者在对于任务的完成上,自主性远超ChatGPT。
目录
1. 新型AI工具来了!
2. Auto-GPT、BabyAGI VS ChatGPT
3. 可能被滥用的风险安全和隐患
4. 向通用人工智能迈进了重要一步?
目前,我们似乎已经进入到了一个科技界前所未有的时期——人工智能变化的速度正在逐步脱离人们的想象。
在ChatGPT向世界展示了智能聊天机器人强大的语音理解能力之后,“Auto-GPT”和“BabyAGI”等新型AI工具也在引起行业的关注,甚至被认为是继GPT-4之后,人工智能的下一个突破点。
这些程序能够为自己创建任务,完成任务,再创建新任务,甚至重新安排任务列表的优先次序。比如你想投资市场,或者想出一本书,甚至是需要管理社交媒体帐户,AI自主代理可以被编程为几乎任何类型的任务,协助你去管理。
虽然所有这些听起来都像是来自未来主义的科幻片,但这一切在人工智能世界,正在发生。甚至有观点认为,自主代理可能标志着我们正迈入这样一个世界——只要人工智能驱动的系统足够聪明,无需人类参与它们就能自主工作,由此,它将彻底改变行业,触及数百万人的生活。然而,这些人工智能工具远比我们看到的要复杂。
1. 新型AI工具来了
Auto-GPT和BabyAGI,是目前互联网世界中两大火爆的自主代理。Auto-GPT上线两周就在代码托管平台GitHub收获 50k+ Star(Star指“收藏数”)而成功出圈,截至目前已有131k+Star。而BabyAGI,则因其独特的名字和用户友好的代码而深受欢迎。
图:Auto-GPT在GitHub上已获131k+Star
Auto-GPT是一个实验性的开源应用程序。该项目由GPT-4驱动,自主开发和管理业务以增加净值。Auto-GPT可以用作互联网搜索、规划、编码的代理,甚至可以运行一个自主在推特上发帖的程序。
Auto-GPT运用了OpenAI 最新 AI 模型的多功能性、与在线软件和服务的交互性,基于对 OpenAI 模型初始的提示,不断地跟进、询问并回答它们,直到任务完成。通俗来说,如果你作为一名用户,只需要告诉你的AI助理, Auto-GPT需要做什么。然后这个AI助手会使用 GPT-3.5 或 GPT-4, 以及几个程序来执行实现设定目标所需的每一步。例如,如果你给出“帮助我发展我的花卉业务”这样的提示,Auto-GPT 可以帮助用户制定一个广告策略,并建立用户所需的一个初步搭建完整的网站。
甚至,近期有外国网友让Auto-GPT 帮他建立一个app,在此过程中他什么都不需要做,一切都可以交由Auto-GPT完成。事后,他在自己的推特评论区中表示:“建议每个会写代码的人留出2个小时来尝试Auto-GPT”。可见他对Auto-GPT的认可度是很高的。
对于Auto-GPT的发展史,来源一个开发者的故事。其实,创建全球首个Auto-GPT的人名叫Toran Bruce Richards。Richards是苏格兰爱丁堡的Significant Gravitas公司的创始人和首席开发者。最初开发的原因,是他想让一个人工智能代理每天自动通过电子邮件向他发送人工智能新闻比GPT更狠的活来了,开发者们又搞出了新型AI助手。但在这个过程中,他意识到,现有的大语言模型在“需要长期规划的任务”中挣扎,或者“无法根据实时反馈自主地改进它们的方法”。
此种问题激发了他创建Auto-GPT的灵感。于是,他开发了一款实验性开源应用程序,内置GPT-4语言模型,可以实现一定意义的自主运行,这也就是Auto-GPT的原型。他表示,Auto-GPT“可以将GPT4的推理应用于需要长期规划和多个步骤的更广泛、更复杂的问题”。
Richards在创建Auto-GPT后,于3月30日将其上传到他的Github页面。此后,许多其他开发人员纷纷创建了他们自己的版本。
曾有一段视频演示了Auto-GPT如何完成开发人员给它设定的目标:展示其编码能力、改进一段代码、测试它、自行关闭并将其输出写入文件。该程序创建了一个待办事项列表——将读取代码添加到其任务中,并在编写输出后关闭自己——然后逐一完成它们。Richards发布的另一段视频则显示,Auto-GPT在谷歌上搜索和吸收新闻文章,以更多地了解一个主题,以便开展可行的业务。
Auto-GPT 并不是唯一一个关于自动化代理的尝试。在数千英里之外的西雅图,风险投资公司中岛洋平(Yohei Nakajima)也在研究最新的生成式人工智能工具,并创造了被命名为“BabyAGI”的东西。
BabyAGI,这个名字听起来既可爱又可怕,有点像经典喜剧恐怖电影《小妖精》中的莫格威,但究竟什么是BabyAGI?实际上,它是一种基于强化学习和深度学习的自主通用人工智能系统,可以根据用户需求进行学习和优化,实现更加智能的操作。
首先,尽管名字叫BabyAGI,但它不是真正的AGI(是人工通用智能的缩写)。虽然不是全能型人工智能,但BabyAGI仍是人工智能世界中令人印象深刻的新成员。
图源:twitter @BabyAGI
中岛(也称Nakajima)是一家小型风投公司“未开发资本”的合伙人。他最初打算建立一个代理,通过复制他自己的工作流程,将他作为风投公司研究新技术和新公司等日常任务自动化。他说:“我希望早上醒来,开始处理清单上的第一件事。此后一整天我都在增加新的任务。到了晚上,会再回顾我的任务,重新确定它们的优先级,然后决定第二天要做什么。”而他希望,BabyAGI可以帮他系统地完成、添加和重新确定GPT-4语言模型要完成的任务的优先级。
Nakajima意识到他的创造可应用于各种其他目标,他便将代理简化为骨架(105行代码),并将其上传到GitHub上,供其他人用作他们自己代理的基础。
与仅仅接收GPT-4提示的文本答案不同,有了BabyAGI,使用者可以做更多事情,比如计划和自动执行一个活动以增加推特粉丝数量,或创建和运营一个内容营销业务等等。此外,自主代理的其他一些例子包括AgentGPT、Godmode、Microsoft Jarvis、CAMEL等等。
Nakajima将“代理”描述为 AI 本身,而不仅仅是提示 LLM 的软件程序。“如果你能让两个 ChatGPT 相互交谈,只要有正确的指导,他们就可以永远交谈”,他说,“然后你可以把其中一个变成任务管理器来创建任务,另一个变成任务执行器。在您按下Go后,它们会继续工作。”
到目前为止,所有这些提及的工具,包括Auto-GPT和BabyAGI,都可以免费使用和运行(尽管每次软件调用OpenAI API时,用户都要付费)。它们的开源性质可能会对一些备受瞩目、资金雄厚的初创公司构成威胁,这些初创公司正试图开发商业人工智能助手。
2. Auto-GPT、BabyAGI VS ChatGPT
可能很多人会有一些疑问:Auto-GPT、BabyAGI等自主代理程序,和ChatGPT究竟有何不同之处?
首先,我们来看Auto-GPT和BabyAGI两者的区别:虽然两者是自主代理程序,但它们实现相同目标的方法是不同的。Auto-GPT使用 GPT-4 生成代码,可利用GPT-3.5作为虚拟人工内存空间。而Baby AGI 是基于 GPT-4、Pinecone (矢量数据库开发商)和 LangChain (大语言模型应用开发)搭建的,可高效完成复杂任务的新代理程序。
BabyAGI 经过真实场景和模拟环境的训练,可以更快、更准确地完成复杂任务。当配备相关数据时,BabyAGI 可能能够更快地产生准确的结果,而不会失去对原始目标的关注。不过,它无法访问互联网上可用的应用程序和服务,因此其使用仅限于某些领域。
Auto-GPT可以访问互联网,这使得搜索信息变得更加容易。它可以从应用程序、网站、书籍、文档和文章等互联网服务收集数据,并使用它来完成实现目标所需的任务。Auto-GPT 在这方面有利有弊,因为附加数据可以使其创建更具描述性的内容,但也可能生成不太准确的结果,比如该工具可能会在没有监督的情况下对从未标记的数据中提取内容。此外,由于它被设计为一次运行多个任务,Auto-GPT 有时会在完成其中一项生成的任务时无法跟踪主要目标。
对于两者究竟哪个更好用,目前行业内尚无定论,两者各有利弊,毕竟两者都还在发展的初期。具体来说,行业更加关注的是其和ChatGPT的对比———虽然像ChatGPT这样的应用程序因其生成代码的能力而闻名,但它们往往局限于相对简短和简单的编程和软件设计。Auto-GPT建立在ChatGPT的基础之上,但在自主性上远超ChatGPT。
通常,我们在ChatGPT的文本窗口中输入提示来与其交互,直到模型生成我们想要的结果。但不是所有人都有技巧和耐心可以坐下来一个提示接一个提示地与GPT互动,引导LLM回复杂的问题。正因如此,开发人员一直在考虑自动化大部分流程的方法,而这就是自主代理的用武之地。
尽管ChatGPT已是一个非常有能力的聊天机器人,但它只是一个聊天机器人,只能对立即提出的问题做出回应,因此只有通过人类的指导,它才能完成惊人的事情。但Auto-GPT的能力远不止于此,它可以自主作出决策,自动生成和完成任务所需的每一个必要提示,你可以让它完成一个你一无所知的任务,然后看着它为你完成所有的工作。
在过去的一段时间里,世界各地的开发人员已经开始构建“自主代理”,这些代理可以与大型语言模型一起工作,比如OpenAI的GPT-4,以解决复杂的问题。虽然还很新,但这种代理标志着LLM应用的一个重要里程碑。
想象一下,如果你的眼前出现了一个新的人工智能工具:你可以先设定一个自己想要完成的目标,即使像“创造世界上最好的冰淇淋”这样模糊的目标,它也会拟出一个待办事项列表,执行待办事项,并根据进展来添加新的待办事项,随后它会继续重复这个过程,直至完成目标。而这正是“自主代理程序”所做的事情。
自主代理将传统的软件界面添加到大型语言模型的前端,该界面可以使用众所周知的软件实践(例如循环和函数)来指导语言模型完成一般目标(例如,“查找所有关于经济大萧条的YouTube视频并提取关键点”)。有些人称它们为“递归”代理,因为它们在循环中运行,向LLM提出问题,每个问题都基于最后一个问题的结果,直到模型产生完整的答案。
其实在早期,自主代理主要是实验性的,它们有一些严重的限制,难以从大型语言模型中得到想要的东西。它们常常很难让LLM专注于一个目标。毕竟,LLM不是很容易预测的。例如,如果两个用户在ChatGPT中编写相同的提示,那么他们每次都会从模型得到不同的答案。
温哥华的开发商萨利·奥马尔(Sully Omar)此前开发了一个代理机构,他希望它能对防水鞋进行一些市场调查,但由于某种原因,LLM分心了,开始把注意力集中在鞋带上。“它们被绕晕了”,奥马尔说,“它们无法理解‘这一步骤我已经完成了——我需要进入下一个执行任务的循环。’”奥马尔说,开发人员可能会找到新的方法,让自主代理在LLM周围设置“护栏”,这样它们就可以继续完成任务,而不会偏离轨道。
不过,自主代理在一个多星期前才开始出现在GitHub(和Twitter)上,考虑到围绕生成式人工智能的能量和目前的发展速度,我们有理由相信智能体将克服它们早期的局限性。奥马尔对此表示:“仅仅九天的时间意味着还有很多事情可能发生。”
3. 可能被滥用的风险安全和隐忧
从本质上讲,自主代理是设计用于执行特定任务而无需人工干预的程序。用户需要给自主代理一个目标,然后他们会去完成通向目标的任务。除了分析任务和创建新任务外,自主代理还具有各种各样的功能。这些功能包括访问互联网和使用应用程序,控制计算机,访问信用卡和其他与金融交易有关的信息。而随着Auto-GPT的日益普及,人们对该工具可能被滥用的担忧也在增加。
一些专家担心,这款人工智能应用程序可能被恶意行为者用于不当目的,比如自主进行网络攻击。它们也可以用来制造虚假和误导性的内容,并自动引导其在社交媒体上传播,从而为错误信息流传提供动力。
此外,这种自给自足的技术还存在运行僵化、不够人性化的问题。比如在客户服务设置中使用Auto GPT,并且它在没有适当人工监督的情况下自行运行,它可以在短期内为客户提供解决方案或查询答案,但它可能会使用人类知道要避免的快捷方式。
以退货为例,机器人可能会告诉客户把包裹送到当地邮局,而不考虑是否有假期,也不会考虑退货是否符合公司条款和条件。又比如,用户可以要求Auto-GPT解决应用程序或游戏设计代码中的问题,它可能会解决代码中那个孤立部分的问题,但没有考虑现在编辑或策划的部分如何适应项目的其余部分,这可能会导致可怕的“面条式代码”(spaghetti code,非结构化和难以维护的源代码的贬义词组)。
并且,还有一个关键问题在于这类AI工具尚且缺乏人际交往。拥有一个完全自动化的流程是很好的,但在将一切交给机器人的过程中,我们只知道它在完成任务后提示的做什么以及如何做,但结果生成的过程仍在黑箱之中。对Auto-GPT缺乏控制的结果是它常以我们意想不到的方式执行指令,这也引发了危险的“混沌模式”(Chaos mode)——允许Auto-GPT不请求提示的许可而自主行动。
一位Reddit用户近期就声称,给定在一个服务器实例中花费100美元的预算,Auto-GPT创建了一个关于猫的wiki(维基百科词条)页面,利用实例中的一个漏洞获得了管理员级别的访问权限,并接管了运行它的Python环境——然后“杀死”了自己。而如果用户在要求自动机器人做什么时没有特别叮嘱,它们最终可能会做一些用户不想做的事情,比如购买物品或预约。
另一方面,财务风险也不容忽视。目前可用的大多数Auto-GPT都依赖于对OpenAI的昂贵API调用。Auto-GPT虽然在GitHub上是公开的,但它确实需要一些设置才能运行。例如,用户需要安装一些基本要求,如Python 3.8、OpenAI API密钥和Pinecone API密钥。为了获得OpenAI API密钥,用户需要注册一个付费的OpenAI帐户。此外,Auto-GPTs在连续循环中运行,会向GPT-4运行多个提示链,因此它们会迅速使用OpenAI来支付大量费用。华盛顿大学名誉计算机科学家、西雅图艾伦人工智能研究所的创始人兼首席执行官Oren Etzioni表示,目前最直接的风险是Auto-GPTs可能会意外地从OpenAI收取大笔费用。
此外,还有网络攻击和欺诈等恶意用例的可能性,人工智能代理的连续提示链迅速增加了OpenAI的大量账单、自动机器人以用户无意的方式采取行动的危险,包括购买物品、预约甚至出售股票等等,尽管目前的实例是有限的,但还有其他冰山之下的风险值得仔细评估。Stability AI前首席信息官、AI Infrastructure Alliance董事总经理丹Daniel Jeffries曾表示,“挑战在于,我们并不真正知道错误是什么样子的。目前Auto-GPT在推理中有15-30%的失败率,我认为随着它们变得更加自主,我们对错误的容忍度会降低。”
4. 向通用人工智能迈进了重要一步?
自生成式人工智能应用开始出现以来,很明显,就人工智能将如何发展和影响我们的生活和社会而言,我们只是在漫长旅程的开始。
Auto-GPT和其他遵循相同原则的代理会是这一旅程的下一步吗?这似乎是有可能的。当前人们对自主代理表现出的兴趣与宣传浪潮离不开对人工智能未来的无限想象,对此,行业专家提出只要人工智能驱动的系统足够聪明,可以在不需要人类参与的情况下自行工作,而这是向通用人工智能(AGI)迈出的重要一步。
自主操作的人工智能是一个让我们人类在几乎本能的层面上感到紧张的概念。我们担心未来人工智能系统开始以超出人类理解的速度协同工作,并朝着可能与我们自身利益不一致的目标前进。在每一条宣布一个新的自主代理的推文下,你会发现一些询问代理和大语言模型失控并开始造成伤害可能性的评论留言。
然而,这似乎并没有减缓开发人工智能代理工具的竞争。例如,上周,以其生成式人工智能写作扩展而闻名的初创公司HyperWrite发布了一款实验性人工智能代理,它可以像人类用户一样浏览网页并与网站互动。HyperWrite首席执行官马特•舒默表示,他的团队非常关注安全问题。他说:“我们想找出正确的方法来做这件事,这是所有这一切的共同主题,我们正在花时间以正确的方式做这件事。”
Jay Scambler是一名顾问和策略师,为小企业和创意人士开发人工智能工具。近期,他在Twitter上表示,这些工具感觉像是改变了游戏规则。他说:“我不想说得太夸张,但我们现在有能力和责任毫不费力地管理一支协调一致的人工智能团队。”“这个团队没有疲劳,执行代码几乎完美无缺(取决于你问谁),并且可以使用像LangChain这样的工具找到几乎任何问题的答案。”
其他人则不那么乐观。英伟达人工智能科学家吉姆·范在推特上写道:“正如作者所指出的那样,我认为Auto-GPT是一个有趣的实验。但仅此而已。原型并不意味着可以投入生产。不要让媒体欺骗了你——大多数‘很酷的演示’都是经过精心挑选的。”
尽管自主代理很有前途,同时不知道当下还有多少种原始版本上的不同变异在悄然滋生,但它可能会让人们更加相信,科技行业应该以某种方式“暂停”大型语言模型的开发,直到更好地理解可能的结果和风险。
Ref: