Menu

  • Home
  • Trending
  • Recommended
  • Latest

分类目录

  • AI 工具
  • AI新势力
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
XiaoHu.AI学院
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
No Result
View All Result
  • Login
XiaoHu.AI学院
No Result
View All Result
Home 开源项目案例库 AI 项目

WebLlama:基于 Llama-3-8B 能通过对话进行网页浏览的智能代理

by 小互
2024年4月27日
in AI 项目
0 0
0
WebLlama:基于 Llama-3-8B 能通过对话进行网页浏览的智能代理
0
SHARES
636
VIEWS
Share on FacebookShare on Twitter

WebLlama 是一个研究项目,由 McGill University 的自然语言处理团队开发。它旨在构建和训练可以通过对话进行网页浏览的智能代理,这些代理基于 Llama-3 模型进行了优化和微调。

WebLlama基于 Meta AI最近发布的Llama-3-8B-Instruct模型进行微调的。这款模型专门为网页导航和对话任务进行了优化,使其能够有效处理与网页交互相关的复杂任务。

WebLlama 的性能在多个方面都优于 GPT-4V,特别是在与真实世界的网页浏览相关的任务上。

微调使用了名为WebLINX的数据集,该数据集包含超过100,000个网页导航和对话实例,每个实例都由专家注释人员收集和验证。为了训练这款模型,我们选取了其中的24,000个精选子集。这种精心策划的数据集确保了模型训练的高质量和代理的实用性。

该模型现在已经可以在Hugging Face Model Hub上获取,模型名称为McGill-NLP/Llama-3-8B-Web。同时,用于训练和评估的数据也可以在Huggingface Hub上找到,数据集名称为McGill-NLP/WebLINX。

主要功能

WebLlama 能够处理连续的对话,这允许用户通过多轮交流给代理提供指令,并在完成任务过程中获取反馈。代理能够与现代网页自动化框架如 Playwright 或 Selenium 集成,使其能在实际的浏览器环境中执行动作,如点击、滚动、填写表单等。

WebLlama 能够执行以下功能:

  1. 自动网页浏览:代理能够根据用户的指令自动浏览网页,执行搜索、导航和信息检索等任务。

  2. 交互对话:与用户通过自然语言进行交互,理解用户的指令并提供反馈。

  3. 执行网页操作:执行诸如点击链接、填写和提交表单等网页上的动作。

  4. 自动任务完成:在用户提供指令的情况下完成特定的任务,如预定酒店、购物或查找信息。

  5. 数据收集和应用:可以被训练来从网页收集特定信息,并将其用于不同的应用,比如自动化的数据汇总。

  6. 提高效率:帮助用户提高完成在线任务的效率,尤其是在多任务处理或需要快速反馈的场景中。

WebLINX评估基准

WebLlama 提供了一套评估体系:WebLINX,可以系统地评估代理在多种网页导航任务中的性能,包括简单的指令遵循和复杂的对话引导浏览。

WEBLINX 是一个大规模基准,包含 2300 个专家演示的 10 万次网络会话导航交互。我们的基准涵盖了 150 多个真实世界网站上的各种模式,可用于在不同场景中训练和评估代理。

  1. 基准测试:代理在特定的基准测试上进行评估,这些测试专门设计来衡量其在实际网页浏览任务中的表现。WebLlama使用的主要基准测试是WebLINX,它包含了真实世界的网页交互场景。

  2. 真实世界的场景:WebLINX基准测试包含多个现实场景的测试,例如访问新网站、探索新领域、在未见过的地理位置进行导航,以及用户无法看到屏幕时依赖对话的情况。

  3. 综合评估:在WebLINX基准测试中,代理的性能会在多个维度上进行评估,包括选择有用链接的能力、点击相关元素的准确度,以及形成对齐回应的质量。

  4. 定量指标:使用定量指标,如链接选择的准确性百分比(seg-F1)、点击相关元素的交叉比率(IoU),以及回应质量的字符准确率(chr-F1),来衡量性能。

  5. 横向比较:WebLlama的性能与其他先进模型如GPT-4进行对比,以突出其在特定任务上的优势。

WebLlama选择WebLINX作为首个基准测试的原因是,它不仅提供了用于训练的数据,还特别设计了四种真实世界的测试情境,这些情境能全面检验智能代理的适应性和泛化能力。这四种情境包括:

  1. 新网站:测试代理对从未访问过的网站的适应能力。
  2. 新领域:评估代理在面对新类型的网站内容时的表现。
  3. 未见过的地理位置:检查代理处理与特定地区相关网站的能力。
  4. 无法看屏幕的场景:模拟用户无法看到屏幕,完全依赖于与代理的对话来浏览网页的情境。
    booking.1.vcglzhn

    代理控制浏览器,按照用户指令,通过多轮对话的方式解决现实世界中的任务,例如在Quandoo上寻找一家柏林的意大利餐厅并查询是否在某个时间能否订位

WebLINX涵盖了150个不同的网站,这些网站包括了各种常见的在线活动,如预订(booking)、购物(shopping)、写作(writing)、信息查询(knowledge lookup)以及更复杂的任务,比如操作电子表格。这种多样化的测试环境可以确保WebLlama不仅在训练环境中表现良好,而且能够在用户日常�

Support authors and subscribe to content

This is premium stuff. Subscribe to read the entire article.

Login if you have purchased

加入会员

加入会员查看更多会员内容和教程。
超过1000+的会员内容,每天更新。
开通会员

Related Posts

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM)  让模型更像人类思考
XiaoHu.AI日报

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM) 让模型更像人类思考

2024年12月25日
483
阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型
XiaoHu.AI日报

阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型

2024年12月25日
337
Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本
AI 工具

Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本

2024年12月24日
449
Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音
XiaoHu.AI日报

Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音

2024年12月24日
278
Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型
AI 论文

Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型

2024年12月23日
616
INFP:基于音频驱动的双人对话中的互动头像生成  能自动区分谁在说话,谁在听
AI 项目

INFP:基于音频驱动的双人对话中的互动头像生成 能自动区分谁在说话,谁在听

2024年12月22日
428

Recommendeds

Luma  推出 Luma Photon 和 Photon Flash 基于全新架构的图像生成模型

Luma 推出 Luma Photon 和 Photon Flash 基于全新架构的图像生成模型

240 VIEWS
2024年12月3日
StructLDM:根据2D图像的学习 自动生成3D的人体模型

StructLDM:根据2D图像的学习 自动生成3D的人体模型

281 VIEWS
2024年4月8日
Spacetop:世界上首款 AR(增强现实) 电脑 100 英寸大屏幕

Spacetop:世界上首款 AR(增强现实) 电脑 100 英寸大屏幕

412 VIEWS
2024年6月2日
DeepMind 新的生物人工智能系统 AlphaProteo:专门设计能够与特定靶标分子结合的蛋白质

DeepMind 新的生物人工智能系统 AlphaProteo:专门设计能够与特定靶标分子结合的蛋白质

104 VIEWS
2024年9月6日
ChatGPT Mac客户端正式发布 可以通过屏幕截图上的任何内容进行聊天

ChatGPT Mac客户端正式发布 可以通过屏幕截图上的任何内容进行聊天

556 VIEWS
2024年6月26日
n8n推出自托管 AI 入门工具包 可在本地快速部署AI项目和低代码开发环境

n8n推出自托管 AI 入门工具包 可在本地快速部署AI项目和低代码开发环境

301 VIEWS
2024年9月24日
Jamba:首个Mamba的生产级模型 开创性的SSM – Transformer架构

Jamba:首个Mamba的生产级模型 开创性的SSM – Transformer架构

39 VIEWS
2024年3月29日
Meta AI为Ray-Ban Meta智能眼镜集成多模态能力 具有视觉能力

Meta AI为Ray-Ban Meta智能眼镜集成多模态能力 具有视觉能力

227 VIEWS
2024年4月24日
生数科技的 Vidu 视频模型开放 Sora架构 可模仿真实物理世界 开放了API申请

生数科技的 Vidu 视频模型开放 Sora架构 可模仿真实物理世界 开放了API申请

333 VIEWS
2024年7月30日
微软正式推出 Microsoft Designer 与 Microsoft 产品无缝集成 随时随地进行图像设计

微软正式推出 Microsoft Designer 与 Microsoft 产品无缝集成 随时随地进行图像设计

396 VIEWS
2024年7月22日

Copyright (c) 2024 by Xiaohu.AI.

  • About
  • Contact

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In

Add New Playlist

No Result
View All Result
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
  • Login

© 2024 Xiaohu.AI

Are you sure want to unlock this post?
Unlock left : 0
Are you sure want to cancel subscription?
转到手机版