
这是5月20日新闻的主场,技术媒体MarkeChpost昨天(5月19日)发布了一篇博客文章,报道Google的DeepMind团队与John Kepllinz University的LIT AI实验室结合使用,提高了通过加强研究(RLFT)技术来决定语言模型的能力。它引用了一篇博客文章,并介绍了基于大量互联网数据训练的语言模型显示出了潜在的决策 - 制定文本处理,并且可以通过内部推理在交互式环境中做出行动选项。 However, these models have significant flaws in the decision-making process: The model may reduce the right approach but cannot be implemented (Knowing Grons reward (greed), and smaller models mechanically repeat common actions (frequency bias). Although traditional reinforcement methods such as UCB algorithms can balance exploration and use, they are difficult to solve the model's intrinsic-action-action-action-action - 行动问题。 DeepMind团队现代采用了对微调技术的加强研究,该研究使用该模型的自我生成的链作为训练信号。该系统将检查与推理的每个步骤相对应的动作的回报,敦促模型优先级一致,实用,有效的动作计划。在特定实施过程中,该模型会根据输入指令和奖励行动历史记录生成一个序列,该序列包含认知和手势过程,并优化了托比(Toby)检查蒙特卡洛(Monte Carlo)的基线以及对优势的一般估计;无效的行动将激发惩罚机制,奖励技术的技术不仅可以确保输出格式的规格,而且还保留了探索空间。在10臂的多军匪徒(mab,n带n杆杆的老虎机TER模型的模型增加了12个百分点;该改进很小,但在面对20臂时仍然很重要,其频率偏置率从70%降至35%。在TIC -TOE实验中,针对随机对手的获胜模型率增加了5次,而与最佳的蒙特卡洛树搜索代理一起进行了平均返回战斗,是-Zero Mula至-0.95。值得注意的是,在27B大型模型中发展适当推理的可能性为87%,但是只有21%的人在不固定时会执行最佳动作,并且这项加强研究在此空间中有效地缩小了。