Menu

  • Home
  • Trending
  • Recommended
  • Latest

分类目录

  • AI 工具
  • AI新势力
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
XiaoHu.AI学院
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
No Result
View All Result
  • Login
XiaoHu.AI学院
No Result
View All Result
Home 开源项目案例库 AI 项目

WebLlama:基于 Llama-3-8B 能通过对话进行网页浏览的智能代理

by 小互
2024年4月27日
in AI 项目
0 0
0
WebLlama:基于 Llama-3-8B 能通过对话进行网页浏览的智能代理
0
SHARES
636
VIEWS
Share on FacebookShare on Twitter

WebLlama 是一个研究项目,由 McGill University 的自然语言处理团队开发。它旨在构建和训练可以通过对话进行网页浏览的智能代理,这些代理基于 Llama-3 模型进行了优化和微调。

WebLlama基于 Meta AI最近发布的Llama-3-8B-Instruct模型进行微调的。这款模型专门为网页导航和对话任务进行了优化,使其能够有效处理与网页交互相关的复杂任务。

WebLlama 的性能在多个方面都优于 GPT-4V,特别是在与真实世界的网页浏览相关的任务上。

微调使用了名为WebLINX的数据集,该数据集包含超过100,000个网页导航和对话实例,每个实例都由专家注释人员收集和验证。为了训练这款模型,我们选取了其中的24,000个精选子集。这种精心策划的数据集确保了模型训练的高质量和代理的实用性。

该模型现在已经可以在Hugging Face Model Hub上获取,模型名称为McGill-NLP/Llama-3-8B-Web。同时,用于训练和评估的数据也可以在Huggingface Hub上找到,数据集名称为McGill-NLP/WebLINX。

主要功能

WebLlama 能够处理连续的对话,这允许用户通过多轮交流给代理提供指令,并在完成任务过程中获取反馈。代理能够与现代网页自动化框架如 Playwright 或 Selenium 集成,使其能在实际的浏览器环境中执行动作,如点击、滚动、填写表单等。

WebLlama 能够执行以下功能:

  1. 自动网页浏览:代理能够根据用户的指令自动浏览网页,执行搜索、导航和信息检索等任务。

  2. 交互对话:与用户通过自然语言进行交互,理解用户的指令并提供反馈。

  3. 执行网页操作:执行诸如点击链接、填写和提交表单等网页上的动作。

  4. 自动任务完成:在用户提供指令的情况下完成特定的任务,如预定酒店、购物或查找信息。

  5. 数据收集和应用:可以被训练来从网页收集特定信息,并将其用于不同的应用,比如自动化的数据汇总。

  6. 提高效率:帮助用户提高完成在线任务的效率,尤其是在多任务处理或需要快速反馈的场景中。

WebLINX评估基准

WebLlama 提供了一套评估体系:WebLINX,可以系统地评估代理在多种网页导航任务中的性能,包括简单的指令遵循和复杂的对话引导浏览。

WEBLINX 是一个大规模基准,包含 2300 个专家演示的 10 万次网络会话导航交互。我们的基准涵盖了 150 多个真实世界网站上的各种模式,可用于在不同场景中训练和评估代理。

  1. 基准测试:代理在特定的基准测试上进行评估,这些测试专门设计来衡量其在实际网页浏览任务中的表现。WebLlama使用的主要基准测试是WebLINX,它包含了真实世界的网页交互场景。

  2. 真实世界的场景:WebLINX基准测试包含多个现实场景的测试,例如访问新网站、探索新领域、在未见过的地理位置进行导航,以及用户无法看到屏幕时依赖对话的情况。

  3. 综合评估:在WebLINX基准测试中,代理的性能会在多个维度上进行评估,包括选择有用链接的能力、点击相关元素的准确度,以及形成对齐回应的质量。

  4. 定量指标:使用定量指标,如链接选择的准确性百分比(seg-F1)、点击相关元素的交叉比率(IoU),以及回应质量的字符准确率(chr-F1),来衡量性能。

  5. 横向比较:WebLlama的性能与其他先进模型如GPT-4进行对比,以突出其在特定任务上的优势。

WebLlama选择WebLINX作为首个基准测试的原因是,它不仅提供了用于训练的数据,还特别设计了四种真实世界的测试情境,这些情境能全面检验智能代理的适应性和泛化能力。这四种情境包括:

  1. 新网站:测试代理对从未访问过的网站的适应能力。
  2. 新领域:评估代理在面对新类型的网站内容时的表现。
  3. 未见过的地理位置:检查代理处理与特定地区相关网站的能力。
  4. 无法看屏幕的场景:模拟用户无法看到屏幕,完全依赖于与代理的对话来浏览网页的情境。
    booking.1.vcglzhn

    代理控制浏览器,按照用户指令,通过多轮对话的方式解决现实世界中的任务,例如在Quandoo上寻找一家柏林的意大利餐厅并查询是否在某个时间能否订位

WebLINX涵盖了150个不同的网站,这些网站包括了各种常见的在线活动,如预订(booking)、购物(shopping)、写作(writing)、信息查询(knowledge lookup)以及更复杂的任务,比如操作电子表格。这种多样化的测试环境可以确保WebLlama不仅在训练环境中表现良好,而且能够在用户日常�

Support authors and subscribe to content

This is premium stuff. Subscribe to read the entire article.

Login if you have purchased

加入会员

加入会员查看更多会员内容和教程。
超过1000+的会员内容,每天更新。
开通会员

Related Posts

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM)  让模型更像人类思考
XiaoHu.AI日报

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM) 让模型更像人类思考

2024年12月25日
488
阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型
XiaoHu.AI日报

阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型

2024年12月25日
343
Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本
AI 工具

Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本

2024年12月24日
456
Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音
XiaoHu.AI日报

Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音

2024年12月24日
284
Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型
AI 论文

Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型

2024年12月23日
627
INFP:基于音频驱动的双人对话中的互动头像生成  能自动区分谁在说话,谁在听
AI 项目

INFP:基于音频驱动的双人对话中的互动头像生成 能自动区分谁在说话,谁在听

2024年12月22日
432

Recommendeds

Google:为特定领域专门化大语言模型的三步设计模式

Google:为特定领域专门化大语言模型的三步设计模式

307 VIEWS
2024年4月1日
Perplexity AI 推出了两个全新功能:内部知识搜索 和 Spaces 更加方便易用

Perplexity AI 推出了两个全新功能:内部知识搜索 和 Spaces 更加方便易用

396 VIEWS
2024年10月18日
Adobe 发布Firefly Vector AI 模型 为 Illustrator 和 Photoshop 推出更多生成式 AI 功能

Adobe 发布Firefly Vector AI 模型 为 Illustrator 和 Photoshop 推出更多生成式 AI 功能

287 VIEWS
2024年7月24日
GPT-4 通过图灵测试?研究人员称人们在图灵测试中无法区分 GPT-4 和人类

GPT-4 通过图灵测试?研究人员称人们在图灵测试中无法区分 GPT-4 和人类

483 VIEWS
2024年6月20日
Prompt 学习地图 07 | 概念科普 ,什么是 Token?

Prompt 学习地图 07 | 概念科普 ,什么是 Token?

83 VIEWS
2024年3月25日
Hume AI 推出 Voice Control 功能 通过滑块操作即可实现个性化的语音定制

Hume AI 推出 Voice Control 功能 通过滑块操作即可实现个性化的语音定制

249 VIEWS
2024年12月3日
ChatTTS:专门为对话场景设计的文本到语音TTS模型,支持中英文

ChatTTS:专门为对话场景设计的文本到语音TTS模型,支持中英文

2.5k VIEWS
2024年5月29日
DriveVLM:自动驾驶与视觉语言模型的融合 增强智能汽车场景理解和规划能力

DriveVLM:自动驾驶与视觉语言模型的融合 增强智能汽车场景理解和规划能力

174 VIEWS
2024年6月24日
DeepMind 发布新一代天气预测 AI 模型:GenCast 可精准预测15天内的天气情况

DeepMind 发布新一代天气预测 AI 模型:GenCast 可精准预测15天内的天气情况

348 VIEWS
2024年12月5日
Magnific Relight 教程:通过一个提示和参考图像来改变任何图像场景的照明和背景

Magnific Relight 教程:通过一个提示和参考图像来改变任何图像场景的照明和背景

342 VIEWS
2024年6月30日

Copyright (c) 2024 by Xiaohu.AI.

  • About
  • Contact

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In

Add New Playlist

No Result
View All Result
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
  • Login

© 2024 Xiaohu.AI

Are you sure want to unlock this post?
Unlock left : 0
Are you sure want to cancel subscription?
转到手机版