南洋理工团队打造任务数据集和测试基准提高网页智能体的任务完成能力
-
南洋理工团队打造任务数据集和测试基准,提高网页智能体的任务完成能力
近日,通过使用GPT-4v、Gemini-pro等大模型,南洋理工大学实习生张子牛和所在团队发现,目前网页智能体的能力还非常欠缺,尤其是在完成多个子任务混合的任务时。为了提高智能体在网页上的操作能力,该课题组打造了一个任务数据集并进行基准测试。在这个数据集的帮助之下,智能体需要处理多模态的网页信息,并通过在不同网页上的操作完成任务,从而更加贴近真实情况之下人们在网页上的操作。同时,该团队发现智能体存在较大的记忆缺陷,严重影响了多跳问题的准确率,针对此他们提出一种记忆模块,借此改善了上述问题。总的来说,本次成果将能改...