type
status
date
slug
summary
tags
category
icon
password
在当今互联网时代,自然语言处理已经成为人工智能研究的一个重要方向。近年来的研究领域,出现了一种新的大型多模式模型(Large Multimodal Models,简称LMMs),其以GPT-4V为代表,试图通过计算机将视觉和文本信息相结合,以更好地理解并执行复杂任务。在这样的背景下,SeeAct项目应运而生。

SeeAct项目简介

SeeAct是一个以GPT-4V作为基础的通用网络代理。其核心理念是,通过GPT-4V的理解和执行能力,能在网页上执行各种复杂的操作。这个过程涉及两个关键的步骤:行动生成(Action Generation)和行动预设(Action Grounding)。
notion image

SeeAct的主要功能和操作流程

当我们在网页上执行任务时,SeeAct通过GPT-4V生成一系列操作步骤。例如,假设我们需要在苹果的官方网站上比较两种不同型号的iPhone,GPT-4V会先对任务进行具象化描述,然后制定出一系列比较的步骤。
而行动预设的功能则主要在于将这些步骤转化为实际的行动。为了实现这一目标,SeeAct将把操作步骤和网页的实际元素关联起来,例如识别出网页上的产品对比按钮,实现点击操作。

SeeAct实施的结果和影响

然而,诸如此类的理想操作在实际执行中却面临着巨大的挑战。实验数据也清晰的表明,在真实世界的环境中,特别是行动预设部分,表现往往并不理想。这也让我们意识到完全自动化的网络代理在目前还面临着诸多挑战。
notion image

为何SeeAct的研究和实践重要?

尽管当前的进展有限,但是SeeAct的研究和实践仍具有重大的意义。首先,我们的实验数据明确地证明了GPT-4V在网络操作方面的有效性。其次,SeeAct为实现文本计划到具体网站操作的自动化提供了一种全新的尝试,它开发出了基于Playwright的在线评估工具。
虽然SeeAct在实现行动预设的实践中仍存在较大的挑战,但是我们坚信,随着技术的不断进步和研究的深入,在未来的某一天,我们一定能实现真正的人工智能。
Safari 浏览器、中文输入法与ChatGPT:修复一个不那么友好的交互问题2023年年度Chrome最佳扩展