Menu

  • Home
  • Trending
  • Recommended
  • Latest

分类目录

  • AI 工具
  • AI新势力
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
XiaoHu.AI学院
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
No Result
View All Result
  • Login
XiaoHu.AI学院
No Result
View All Result
Home 开源项目案例库 AI 项目

WebLlama:基于 Llama-3-8B 能通过对话进行网页浏览的智能代理

by 小互
2024年4月27日
in AI 项目
0 0
0
WebLlama:基于 Llama-3-8B 能通过对话进行网页浏览的智能代理
0
SHARES
636
VIEWS
Share on FacebookShare on Twitter

WebLlama 是一个研究项目,由 McGill University 的自然语言处理团队开发。它旨在构建和训练可以通过对话进行网页浏览的智能代理,这些代理基于 Llama-3 模型进行了优化和微调。

WebLlama基于 Meta AI最近发布的Llama-3-8B-Instruct模型进行微调的。这款模型专门为网页导航和对话任务进行了优化,使其能够有效处理与网页交互相关的复杂任务。

WebLlama 的性能在多个方面都优于 GPT-4V,特别是在与真实世界的网页浏览相关的任务上。

微调使用了名为WebLINX的数据集,该数据集包含超过100,000个网页导航和对话实例,每个实例都由专家注释人员收集和验证。为了训练这款模型,我们选取了其中的24,000个精选子集。这种精心策划的数据集确保了模型训练的高质量和代理的实用性。

该模型现在已经可以在Hugging Face Model Hub上获取,模型名称为McGill-NLP/Llama-3-8B-Web。同时,用于训练和评估的数据也可以在Huggingface Hub上找到,数据集名称为McGill-NLP/WebLINX。

主要功能

WebLlama 能够处理连续的对话,这允许用户通过多轮交流给代理提供指令,并在完成任务过程中获取反馈。代理能够与现代网页自动化框架如 Playwright 或 Selenium 集成,使其能在实际的浏览器环境中执行动作,如点击、滚动、填写表单等。

WebLlama 能够执行以下功能:

  1. 自动网页浏览:代理能够根据用户的指令自动浏览网页,执行搜索、导航和信息检索等任务。

  2. 交互对话:与用户通过自然语言进行交互,理解用户的指令并提供反馈。

  3. 执行网页操作:执行诸如点击链接、填写和提交表单等网页上的动作。

  4. 自动任务完成:在用户提供指令的情况下完成特定的任务,如预定酒店、购物或查找信息。

  5. 数据收集和应用:可以被训练来从网页收集特定信息,并将其用于不同的应用,比如自动化的数据汇总。

  6. 提高效率:帮助用户提高完成在线任务的效率,尤其是在多任务处理或需要快速反馈的场景中。

WebLINX评估基准

WebLlama 提供了一套评估体系:WebLINX,可以系统地评估代理在多种网页导航任务中的性能,包括简单的指令遵循和复杂的对话引导浏览。

WEBLINX 是一个大规模基准,包含 2300 个专家演示的 10 万次网络会话导航交互。我们的基准涵盖了 150 多个真实世界网站上的各种模式,可用于在不同场景中训练和评估代理。

  1. 基准测试:代理在特定的基准测试上进行评估,这些测试专门设计来衡量其在实际网页浏览任务中的表现。WebLlama使用的主要基准测试是WebLINX,它包含了真实世界的网页交互场景。

  2. 真实世界的场景:WebLINX基准测试包含多个现实场景的测试,例如访问新网站、探索新领域、在未见过的地理位置进行导航,以及用户无法看到屏幕时依赖对话的情况。

  3. 综合评估:在WebLINX基准测试中,代理的性能会在多个维度上进行评估,包括选择有用链接的能力、点击相关元素的准确度,以及形成对齐回应的质量。

  4. 定量指标:使用定量指标,如链接选择的准确性百分比(seg-F1)、点击相关元素的交叉比率(IoU),以及回应质量的字符准确率(chr-F1),来衡量性能。

  5. 横向比较:WebLlama的性能与其他先进模型如GPT-4进行对比,以突出其在特定任务上的优势。

WebLlama选择WebLINX作为首个基准测试的原因是,它不仅提供了用于训练的数据,还特别设计了四种真实世界的测试情境,这些情境能全面检验智能代理的适应性和泛化能力。这四种情境包括:

  1. 新网站:测试代理对从未访问过的网站的适应能力。
  2. 新领域:评估代理在面对新类型的网站内容时的表现。
  3. 未见过的地理位置:检查代理处理与特定地区相关网站的能力。
  4. 无法看屏幕的场景:模拟用户无法看到屏幕,完全依赖于与代理的对话来浏览网页的情境。
    booking.1.vcglzhn

    代理控制浏览器,按照用户指令,通过多轮对话的方式解决现实世界中的任务,例如在Quandoo上寻找一家柏林的意大利餐厅并查询是否在某个时间能否订位

WebLINX涵盖了150个不同的网站,这些网站包括了各种常见的在线活动,如预订(booking)、购物(shopping)、写作(writing)、信息查询(knowledge lookup)以及更复杂的任务,比如操作电子表格。这种多样化的测试环境可以确保WebLlama不仅在训练环境中表现良好,而且能够在用户日常�

Support authors and subscribe to content

This is premium stuff. Subscribe to read the entire article.

Login if you have purchased

加入会员

加入会员查看更多会员内容和教程。
超过1000+的会员内容,每天更新。
开通会员

Related Posts

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM)  让模型更像人类思考
XiaoHu.AI日报

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM) 让模型更像人类思考

2024年12月25日
494
阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型
XiaoHu.AI日报

阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型

2024年12月25日
346
Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本
AI 工具

Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本

2024年12月24日
460
Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音
XiaoHu.AI日报

Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音

2024年12月24日
284
Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型
AI 论文

Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型

2024年12月23日
636
INFP:基于音频驱动的双人对话中的互动头像生成  能自动区分谁在说话,谁在听
AI 项目

INFP:基于音频驱动的双人对话中的互动头像生成 能自动区分谁在说话,谁在听

2024年12月22日
435

Recommendeds

PictoGraphic:拥有超过40000张的免费AI生成插图库

PictoGraphic:拥有超过40000张的免费AI生成插图库

913 VIEWS
2024年5月19日
Chat-With-MLX:在Mac上轻松运行各种开源模型并以RAG方式聊天

Chat-With-MLX:在Mac上轻松运行各种开源模型并以RAG方式聊天

85 VIEWS
2024年3月4日
电影配音工种集体失业 全球第一部由 AI 完全翻译配音的电影即将上映

电影配音工种集体失业 全球第一部由 AI 完全翻译配音的电影即将上映

347 VIEWS
2024年7月18日
微软 Copilot 升级全新的外观 加入了语音模式 速度更快、性能更强

微软 Copilot 升级全新的外观 加入了语音模式 速度更快、性能更强

479 VIEWS
2024年9月30日
通过在职位描述中设置隐藏提示来识别由 GPT 编写的求职申请

通过在职位描述中设置隐藏提示来识别由 GPT 编写的求职申请

120 VIEWS
2024年7月28日
VLOGGER:基于文本和音频驱动,从单张照片生成会说话的人类视频

VLOGGER:基于文本和音频驱动,从单张照片生成会说话的人类视频

119 VIEWS
2024年3月14日
OpenAI、斯坦福、微软等多所机构筛选出1565篇论文 发布大模型提示技术报告

OpenAI、斯坦福、微软等多所机构筛选出1565篇论文 发布大模型提示技术报告

543 VIEWS
2024年6月19日
InstantStyle:将风格和内容的有效分离 确保图像风格一致性

InstantStyle:将风格和内容的有效分离 确保图像风格一致性

90 VIEWS
2024年4月6日
全球最快的人工智能芯片:WSE-3 拥有高达4万亿个晶体管

全球最快的人工智能芯片:WSE-3 拥有高达4万亿个晶体管

17 VIEWS
2024年3月18日
YOLOv8:目标检测跟踪模型 快速准确识别和定位图像中多个对象

YOLOv8:目标检测跟踪模型 快速准确识别和定位图像中多个对象

294 VIEWS
2024年3月12日

Copyright (c) 2024 by Xiaohu.AI.

  • About
  • Contact

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In

Add New Playlist

No Result
View All Result
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
  • Login

© 2024 Xiaohu.AI

Are you sure want to unlock this post?
Unlock left : 0
Are you sure want to cancel subscription?
转到手机版