您可以发布与此页面主题和/或该地区相关的文章:
香港 - -信息和促销平台.
将内容与您的网站免费链接.
香港 - 有关 chat gpt
这段文字描述了一个人上周末在夏令营结婚的经历,以及他们如何在婚礼当天组织了一系列受他们自己策划的节目启发的游戏。以下是更详细的解释:上周末,我在一个夏令营结婚了,白天我们的客人们参加了一系列受我和现在的妻子策划的节目启发的游戏。当我们在八月计划这些游戏时,我们希望有一个站点是记忆挑战,我们的朋友和家人需要记住一部分诗句,然后传递给他们的队友,以便他们可以用一组木制瓷砖重新创建它。我认为OpenAI的GPT-4o,当时的领先模型,非常适合帮助我。我要求它创作一首简短的婚礼主题诗,每个字母只能出现一定次数,以确保团队能够用提供的瓷砖重现它。GPT-4o惨遭失败。模型反复坚持它的诗在约束条件内工作,尽管实际上并没有。它只有在事后才会正确计算字母数量,同时继续提供不符合提示的诗句。由于没有时间手工精心制作诗句,我们放弃了诗歌的想法,转而挑战客人记住由彩色瓷砖组成的一系列形状。(这最终成为我们朋友和家人的大受欢迎的活动,他们还参加了躲避球、扔鸡蛋和夺旗比赛。)然而,上周OpenAI发布了一个名为o1的新模型(以前被称为“Strawberry”),专注于多步骤“推理”,这是高级数学、编程或其他STEM(科学、技术、工程和数学)问题所需的过程。根据OpenAI的说法,它使用了一种“思维链”技术。“它学会了识别和纠正错误。它学会了将复杂步骤分解为更简单的步骤。它学会了在当前方法不起作用时尝试不同的方法,”公司在其网站上的博客文章中写道。该模型在竞争性编程组织Codeforces的问题中排名第89百分位,并且在涵盖几何、数论和其他数学主题的美国数学奥林匹克中将位列前500名高中生之列。该模型还接受了回答从天体物理学到有机化学等学科的博士级问题的训练。在数学奥林匹克问题中,新模型的准确率为83.
3%,而GPT-4o为13.
4%。在博士级问题中,它的平均准确率为78%,相比之下人类专家为69.
7%,GPT-4o为56.
1%。(鉴于这些成就,新模型在为我们的婚礼游戏写诗方面表现得相当不错,尽管仍不完美;它使用的T和S比指示的多。)到目前为止,LLM(大型语言模型)的进展主要是语言驱动的,导致了能够解释、分析和生成文字的聊天机器人或语音助手。但除了大量事实错误之外,这些LLM未能展示解决药物发现、材料科学、编程或物理等领域重要问题所需的技能。OpenAI的o1是LLM可能很快成为这些领域人类研究人员真正有用的伙伴的第一个迹象。这是一个大事件,因为它将“思维链”推理带入了一个大众化的AI模型,AI研究人员和LLM初创公司Fixie的创始人Matt Welsh说。“推理能力直接在模型中,而不是必须使用单独的工具来实现类似的结果。我的期望是,它将提高人们对AI模型能够做什么的期望,”Welsh说。尽管如此,最好对OpenAI关于“人类水平技能”的比较持保留态度,伦敦帝国理工学院数学和计算机科学副教授Yves-Alexandre de Montjoye说。很难有意义地比较LLM和人类从头开始解决数学问题的方式。此外,AI研究人员表示,衡量像o1这样的模型如何“推理”比听起来更难。如果它正确回答了一个问题,是因为它成功地推理出了逻辑答案?还是因为它有一个足够的知识起点内置在模型中?Google AI研究员François Chollet说,该模型“在开放式推理方面仍然不足。”最后是价格。这个以推理为主的模型并不便宜。尽管某些版本的模型包含在OpenAI的高级订阅中,但通过API使用o1的开发人员将支付的费用是GPT-4o的三倍——每百万输入标记$15,而GPT-4o为$5。根据OpenAI的用户调查,新模型也不会是大多数用户在更多语言密集型任务中的首选,GPT-4o仍然是更好的选择。它将解锁什么?我们不会知道,直到研究人员和实验室有机会、时间和预算来试验新模型并找到它的极限。但这无疑是一个信号,表明能够超越人类推理的模型竞赛已经开始。研究人员认为,他们发现了一种应对虚假阴谋论的新工具:AI聊天机器人。麻省理工学院斯隆管理学院和康奈尔大学的研究人员发现,与大型语言模型(LLM)讨论阴谋论使人们对其信任度降低了约20%——即使在那些声称其信仰对其身份很重要的参与者中也是如此。这些发现可能代表了我们如何与持有这种毫无根据的理论的人进行互动和教育的重要进步,心理技术研究所的博士后研究员Yunhao(Jerry)Zhang说,他研究AI对社会的影响。“他们表明,在大型语言模型的帮助下,我们可以——我不会说解决它,但我们至少可以缓解这个问题,”他说。“它指出了一种使社会变得更好的方法。”这个名为DataGemma的工具使用了两种方法来帮助LLM检查其响应是否符合可靠数据,并更透明地向用户引用其来源。