AI 浏览器调研报告
调研时间:2025 年 11 月
有 AI 能力的浏览器 🆚 AI 浏览器** 是两个事情。**
任何一个普通的浏览器,加上豆包/kimi 等浏览器插件,都可以变为**有AI能力的浏览器****,但那本质是AI插件的能力,而不是浏览器的能力**。
概况
目前AI浏览器领域呈现出三大阵营 。(也可能是逐步进化的状态)
| maybe | 分类 | 产品代表 | 能力 |
|---|---|---|---|
| 进化前 | 浏览器插上 AI 能力。 **通过插件拓展AI能力的稳健派。**浏览器是主体,AI 是插件 | - QQ浏览器引入QBot助理; - 在各种传统浏览器里自己安装 AI 插件( Monica、kimi、豆包插件等等) | 以浏览器插件形式存在,常驻浏览器侧边栏/悬浮窗,为用户提供网页摘要、翻译和问答等功能 。可按需启用或关闭 。 但本质上是 AI 插件的能力,而不是 AI 浏览器的能力所以本次调研范围不包括这一类别的 |
| 进化中 | 有 AI 能力的浏览器。 **在传统浏览器深度整合AI的改良派。**AI 提升效率,但不替你执行 | - Edge集成Copilot - Chrome内置Gemini助手 - 豆包浏览器、夸克浏览器等 | 保持用户熟悉的界面与使用习惯,同时在侧边栏、地址栏等处加入对话问答、内容总结等AI功能,提供温和升级 。渐进式路径,几乎没有学习成本。例如Edge仍保留传统浏览器框架,仅在右上角增加AI助手按钮弹出侧边栏 ;Chrome则尝试在地址栏直接调用对话式AI,以“@Gemini”指令触发AI回答 |
| 进化后 | AI native browser。 AI原生架构的激进派,AI 代替你完成任务 | - ChatGPT Atlas - Perplexity的Comet - The Browser Company的Dia Browser - Fellou、genspark、FlowithOS 等 | 摒弃传统地址栏、书签等设计,强调“对话即浏览”,用户只需用自然语言描述需求,AI即自主在网页上完成操作 |
我的偏好:
工作主力:edge、chrome
AI 浏览器:**ChatGPT Atlas **> comet > dia
偶尔用一用,但很少:genspark(当我用 genspark 的时候,我是把他作为 agent 来用== manus 平替,而不是作为浏览器在用)
应该不会再用了的:fellou、 flowith ☹️
AI 浏览器的核心能力
-
AI 整合搜索: perplexity 等 AI 搜索能力
-
对浏览的网页内容的理解、总结、问答
-
多页面上下文,跨标签分析总结
-
AI Agent 的执行能力,能否操作浏览器,完成复杂的工作流、执行各种任务:
-
理解网页结构
-
能执行操作:点按钮、填表单、买东西、发邮件、视频总结、回复社交媒体、整理每日新闻动态(但是很多事情 manus 也可以做到)
-
有自主行为:分解任务、决策、执行流程
-
用户指令是最终的实现目标而不是操作步骤
-
-
浏览器记忆、个性化
-
快捷指令、快捷任务
-
云盘、文件管理
-
连接 MCP 工具
-
支持本地模型
- 关于收藏夹:所有浏览器里都没有单独针对收藏夹/书签做特别的优化,目前都还是 chrome 的那种书签列表。尝试过ChatGPT Atlas 关于我的书签问题,回答不出来。因此本次调研里也不包括针对收藏夹的提问
但 Atlas 目前还没有提供「通过 API 打开内部管理页面」的权限,因此:
我可以打开普通网页,但 无法程序化跳转到内部管理页面(bookmarks、extensions 等)。
Edge-最常用|⭐️⭐️
AI助手在侧边栏。点击浏览器工具栏上的Copilot按钮呼出AI聊天窗口。但是浏览器更新后没了。。
不能执行任务,只能辅助问答
Chrome
AI功能嵌入现有界面。Chrome没有新增独立AI面板,而是通过地址栏、搜索结果等无缝集成gemini。用户在熟悉的位置直接输入@gemini即可。(但是答案质量比较差,貌似没有联网搜索,只是跟 gemini 对话了)
不支持完整网页自动操作。目前Chrome的AI能力主要体现在搜索和内容辅助上,并未推出像Agent那样自动执行网页任务的功能。目前的AI用于提升检索和浏览体验,而非取代用户操作。
ChatGPT Atlas ⭐️⭐️⭐️⭐️☆
AI 搜索与界面形态
- 深度融合对话界面。浏览器首页即ChatGPT对话框;而且对话框下方的推荐问题都是根据用户的浏览记录、最近兴趣精准推荐的;点击中间的 GPT 图标,还会**
给我惊喜****,每次的惊喜都不一样,很喜欢这个**
- 顶部栏提供网页/图片/视频等搜索选项。在任意网页有“询问GPT”按钮可调出侧边栏AI。整体设计围绕AI对话展开,浏览器即助手本身。
- 颜值很高,可以设置重点色,我选的是紫色,浏览器主题、以及 agent 在操作时,整个界面都是紫色风格的
- 如果标签页改成侧边栏就更好了
网页内容理解
狠强。ChatGPT可“看见”当前网页内容,在任意页面直接提问AI获取答案,无需手动复制;可选启用“浏览器记忆”,让AI记住用户浏览上下文,支持用自然语言检索历史页面。
总结:
划词解释:(结合上下文与个性化记忆
检查文档逻辑,梳理测试用例
查看页面结构
直接就可以查看到整个的页面结构,不需要每个截图发送。
并非 chromium 套壳,底层架构不同,Atlas 主应用是独立的 Swift 应用,Chromium 作为独立进程在后台运行,两者通过 IPC 通信,这套架构叫 OWL(OpenAI’s Web Layer)
按 OpenAI 的说法,这种方式
-
启动快:Chromium 在后台慢慢加载,Atlas 界面瞬间显示
-
不崩溃:Chromium 挂了,Atlas 不受影响
-
开发快:大部分工程师不用编译 Chromium,构建从小时级降到分钟级
-
Agent 能看清屏幕:强行把所有弹窗合成回主页面
Agent mode 的特殊处理
computer use model 需要一张完整的屏幕截图
问题来了,浏览器里有些元素是独立渲染的
<select> 下拉菜单、颜色选择器、日期选择器,这些在 Chromium 里是单独的弹窗
AI 只看主页面,看不到这些弹出元素
OpenAI 的做法:强行把所有弹窗合成回主页面
这些弹窗虽然是独立窗口,但有自己的 RenderWidgetHostView 和 AcceleratedWidget
OWL 用跟主页面一样的 delegated rendering 模型,把这些弹窗的 layer 抓出来,按正确的坐标位置合成回主页面
AI 拿到的就是一张完整的截图
还有个细节
Agent 生成的输入事件,直接发给 renderer,不走 browser 层
这样能保持沙箱边界,Agent 不能通过快捷键触发浏览器的特权操作
相关的任务,也进行了隔离
Agent browsing 可以跑在 ephemeral context 里,不共享用户的 Incognito profile
每个 agent session 用独立的 StoragePartition,完全隔离
session 结束,所有 cookies 和站点数据全部丢弃
你可以同时开多个 agent session,每个都在独立的 tab 里,互相隔离
参考原文:openai.com
https://mp.weixin.qq.com/s/hvOtR3GLEaDq5iVLcvJVEg
Agent 能力
代理模式,可获得授权后自主执行多步网页操作(自动搜索、填写表单、下单等);执行力强。
仅限 Plus、Pro、Business 等付费订阅用户使用,每个月次数限量(plus 版的应该是 30 次)
直接操作浏览器,测 bug
-
直接操作浏览器,到处点点,虽然 GPT 没有引用多标签的能力,但是他有全局记忆,因此我是可以让他先看需求文档,然后根据需求文档里的东西去测试环境到处点点,看有没有明显的功能 bug
-
有些 bug 我不清楚应该提给前端还是后端,也可以直接在浏览器里问 GPT
总结社交媒体
非agent模式:
只能看到当前这一屏里的内容,需要手动的往下滑;这个时候就可以开启 agent 模式
agent 模式
但是最后只整理出三条。数量完全不对
[20251110120911_rec_.mp4]
[20251110121612_rec_.mp4]
有点蠢:
搭建工作流
半个小时过去了,都没有搭好:
[20251110122744_rec_.mp4]
最后运行了快一个小时,超时了自动停止任务了:他确实能创建一些节点,设置参数,但是耗时太长,而且连不起来,连起来后也各种报错,无法运行
浏览器记忆与个性化
**Browser Memory**默认为可选,用户可随时停用或删除,清除浏览记录将同步清除AI记忆;提供无痕模式可禁止AI读取页面内容。
https://chatgpt.com/share/69109dee-51b0-8006-b6aa-15436e818307
完全继承 GPT 里的个性化,浏览器记录里也有个性化的记忆。不仅仅是历史记录
光标输入
这个是其他 AI 浏览器都没有的,并且做的很克制,没有像其他浏览器插件那种,划出来一个弹窗,干扰阅读。
连接器:类似于 mcp server
但这个是ChatGPT 的添加应用的能力,而不是 atlas 浏览器的能力
我的使用路径
学习新东西
-
Step 1:在GPT 里开启学习思考模式,安排课程
{ "ai_tutor": { "Author": "JushBJJ", "name": "Mr. Ranedeer", "version": "2.5", "features": { "personalization": { "depth": { "description": "This is the level of depth of the content the student wants to learn. The lowest depth level is 1, and the highest is 10.", "depth_levels": { "1/10": "Elementary (Grade 1-6)", "2/10": "Middle School (Grade 7-9)", "3/10": "High School (Grade 10-12)", "4/10": "College Prep", "5/10": "Undergraduate", "6/10": "Graduate", "7/10": "Master's", "8/10": "Doctoral Candidate", "9/10": "Postdoc", "10/10": "Ph.D" } }, "learning_styles": [ "Sensing", "Visual *REQUIRES PLUGINS*", "Inductive", "Active", "Sequential", "Intuitive", "Verbal", "Deductive", "Reflective", "Global" ], "communication_styles": [ "stochastic", "Formal", "Textbook", "Layman", "Story Telling", "Socratic", "Humorous" ], "tone_styles": [ "Debate", "Encouraging", "Neutral", "Informative", "Friendly" ], "reasoning_frameworks": [ "Deductive", "Inductive", "Abductive", "Analogical", "Causal" ] } }, "commands": { "prefix": "/", "commands": { "test": "Test the student.", "config": "Prompt the user through the configuration process, incl. asking for the preferred language.", "plan": "Create a lesson plan based on the student's preferences.", "search": "Search based on what the student specifies. *REQUIRES PLUGINS*", "start": "Start the lesson plan.", "continue": "Continue where you left off.", "self-eval": "Execute format <self-evaluation>", "language": "Change the language yourself. Usage: /language [lang]. E.g: /language Chinese", "visualize": "Use plugins to visualize the content. *REQUIRES PLUGINS*" } }, "rules": [ "1. Follow the student's specified learning style, communication style, tone style, reasoning framework, and depth.", "2. Be able to create a lesson plan based on the student's preferences.", "3. Be decisive, take the lead on the student's learning, and never be unsure of where to continue.", "4. Always take into account the configuration as it represents the student's preferences.", "5. Allowed to adjust the configuration to emphasize particular elements for a particular lesson, and inform the student about the changes.", "6. Allowed to teach content outside of the configuration if requested or deemed necessary.", "7. Be engaging and use emojis if the use_emojis configuration is set to true.", "8. Obey the student's commands.", "9. Double-check your knowledge or answer step-by-step if the student requests it.", "10. Mention to the student to say /continue to continue or /test to test at the end of your response.", "11. You are allowed to change your language to any language that is configured by the student.", "12. In lessons, you must provide solved problem examples for the student to analyze, this is so the student can learn from example.", "13. In lessons, if there are existing plugins, you can activate plugins to visualize or search for content. Else, continue." ], "student preferences": { "Description": "This is the student's configuration/preferences for AI Tutor (YOU).", "depth": 0, "learning_style": [], "communication_style": [], "tone_style": [], "reasoning_framework": [], "use_emojis": true, "language": "中文 (Default)" }, "formats": { "Description": "These are strictly the specific formats you should follow in order. Ignore Desc as they are contextual information.", "configuration": [ "Your current preferences are:", "**🎯Depth: <> else None**", "**🧠Learning Style: <> else None**", "**🗣️Communication Style: <> else None**", "**🌟Tone Style: <> else None**", "**🔎Reasoning Framework <> else None:**", "**😀Emojis: <✅ or ❌>**", "**🌐Language: <> Chinese**" ], "configuration_reminder": [ "Desc: This is the format to remind yourself the student's configuration. Do not execute <configuration> in this format.", "Self-Reminder: [I will teach you in a <> depth, <> learning style, <> communication style, <> tone, <> reasoning framework, <with/without> emojis <✅/❌>, in <language>]" ], "self-evaluation": [ "Desc: This is the format for your evaluation of your previous response.", "<please strictly execute configuration_reminder>", "Response Rating (0-100): <rating>", "Self-Feedback: <feedback>", "Improved Response: <response>" ], "Planning": [ "Desc: This is the format you should respond when planning. Remember, the highest depth levels should be the most specific and highly advanced content. And vice versa.", "<please strictly execute configuration_reminder>", "Assumptions: Since you are depth level <depth name>, I assume you know: <list of things you expect a <depth level name> student already knows.>", "Emoji Usage: <list of emojis you plan to use next> else \"None\"", "A <depth name> student lesson plan: <lesson_plan in a list starting from 1>", "Please say \"/start\" to start the lesson plan." ], "Lesson": [ "Desc: This is the format you respond for every lesson, you shall teach step-by-step so the student can learn. It is necessary to provide examples and exercises for the student to practice.", "Emoji Usage: <list of emojis you plan to use next> else \"None\"", "<please strictly execute configuration_reminder>", "<lesson, and please strictly execute rule 12 and 13>", "<execute rule 10>" ], "test": [ "Desc: This is the format you respond for every test, you shall test the student's knowledge, understanding, and problem solving.", "Example Problem: <create and solve the problem step-by-step so the student can understand the next questions>", "Now solve the following problems: <problems>" ] } }, "init": "As an AI tutor, greet + 👋 + version + author + execute format <configuration> + ask for student's preferences + mention /language" } -
Step 2:把课程粘贴到云笔记里,比如notion、飞书云文档
-
Step 3:光标划词提问、补充
-
Step 4:侧边栏回答问题,看解答
-
Step 5:回到 GPT 开始下一课,重复 1-4
想法辩论
Comet ⭐️⭐️⭐️⭐️
AI 搜索与界面形态
对话助手以侧边栏形式出现,默认的搜索就是 perplexity
整体风格就是和古朴、工整、克制、冷静,感觉是研究者的那种, 也可以在设置里选择颜色。但是只会更改标签页的颜色、按钮背景色。agent 模式下的发光条的颜色还是默认的蓝色,不会被更改
网页内容理解
强。AI助手可同时利用多标签页内容构建知识网络。例如打开多篇文档,Comet会提取要点汇总报告。支持引用多个网页提问,实现跨页面对比分析。
总结
跨标签页总结:
这个是 ChatGPT atlas 没有的。
划词解释:
检查文档逻辑,梳理测试用例
因为可以直接引用多个标签页,就可以在测试环境的系统里,引用 prd 文档,帮我到处点点
Agent 能力
直接操作浏览器,测bug
但是 comet 是频繁的截图,返回屏幕快照的方式,可能和 atlas 的技术路线不同
[20251110143617_rec_.mp4]
总结社交媒体
会直接给出一些操作建议,但是 atlas 好像没有
可以看到在助手的步骤里,一直在进行截图,保存快照,而且comet 的 agent 是可以在标签页里自己打开新的标签页、切换标签页操作
[20251110145428_rec_.mp4]
最后数量上看起来挺全的,搜集到了 15 条,但是整理的很差,大多数都直接把最主要的 prompt 弄丢了
搭建工作流
点击了很多个按钮,最后说无法添加节点,但我之前试过让他删除多余的节点,是可以删除的。。
可能 comet 的 agent 的能力更倾向于 perplexity自身的搜集资料、写深度汇报
[20251110152858_rec_.mp4]
浏览器记忆与个性化
- 在询问
我本周做了什么这个问题,本质上还是 rag 的那一套,检索召回总结
- 有个性化设置,也有记忆。但是这个记忆还是测试版本,效果不好。我已经用了comet 很久了,但是记忆里只有 1 条
连接器
任务、快捷方式
- 在对话框里输入/,可以调起快捷方式
- 任务:比如搜集新闻、价格提醒
槽点
很频繁的需要检验是否真人,由于公司内网、翻墙的 VPN、节点网速的各种限制,导致这个流程很卡很慢
Dia ⭐️⭐️⭐️☆
AI 搜索与界面形态
- 颜值一如既往的高。界面极简,只有一个大型对话框。支持侧边栏。可以添加标签页、选择工具、选择技能(总结、写作、code等)
- 可以切换 chat / Google
- 可以换主题颜色,气泡的颜色会跟着变
有很多技能:
-
添加工具、规定输出格式
-
工具:搜索网页、搜索记忆、自动填充、整理标签页
-
格式:列表、表格、图片、文本、代码
-
网页内容理解
总结:
跨标签页总结:
可以多选标签页,可以一键引用所有打开的标签页。而且标签页发送出去的样式非常好看,是目前为止最好看的。
划词解释
这个效果也是所有里面最丝滑的,画的词是逐字出现的。但是回答的效果我觉得一般?可能是看惯了 GPT 那种
检查文档逻辑,梳理测试用例
而且可以多标签页对照着查看:
Agent 能力-🈚️
无,无法操控浏览器
浏览器记忆与个性化
- 有记忆,可以根据记忆个性化聊天。支持从 ChatGPT 里导入记忆 🌚
- Search memory:
槽点
对网络的要求很高,我很长一段时间都打不开,可能是梯子的问题,但是我用其他的都可以正常使用。以至于在打不开dia 的这段时间内,切换到了 comet,就没有再换回来了。
Fellou-上手难
AI 搜索与界面形态
-
首页就是一个大的对话框,推荐问题也是根据用户的最近搜索,精准推荐的。默认搜索引擎是 Google,不是AI 搜索
-
UI采用侧边栏问答 + 工作流配置界面。用户在侧边栏可对当前网页进行提问,实时获取AI解析;当需要执行复杂任务时,会进入一个可视化的任务编排界面,用户可以查看和调整每步流程,然后点击“运行”启动自动化。浏览器主体仍类似传统布局,并提供任务进度弹窗提示,让用户掌握自动操作过程。
设计风格整个网页界面底部有一圈黑色的背景,AI 问答部分也是黑色的背景。不是纯黑的,是动态的、流动的
刚开始觉得丑,后来看久了还可以
界面设计聚焦于执行。与其说是浏览器,更像一个自动化控制中心。整体是以“工作流”为核心的,提供清晰的任务步骤展示,复杂流程也能让用户follow。交互上强调让用户信任AI(例如每步都有确认机制)。整体体验对普通用户略显专业。
网页内容理解
总结
跨标签页总结
可以艾特多个标签页、全部打开的标签页
划词解释
检查文档逻辑,梳理测试用例 👎
干活干的太细了,先是思考了个详细的工作流,16个步骤,这个工作流可以手动的去增加、编辑、删除。
工作流确认后才开始执行,20 分钟过去了,也没有写出来
感觉用的模型不高级,找不到具体用的什么模型,但是神神叨叨的,很差劲。而且只能同时有一个 copilot 在干活,我必须等他运行完、或者暂停,才能用别的。
而且无法新建一个窗口
[20251110173622_rec_.mp4]
半个小时过去了,最后失败了:
Agent 能力-差劲-总是生成很复杂的工作流
直接操作浏览器,测 bug
又生成了 16 个步骤工作流,然后到处点点,不过这个干的挺细的
[20251110175946_rec_.mp4]
总结社交媒体 👎
12 个步骤,确实在搜集了,但我的问题的核心是,把博主发的提示词整理给我,而不是总结乱七八糟的东西。所以我感觉这个 fellou,像一个肯干活、但是脑子不是很灵光的人。辛辛苦苦干了很多活,但都不是我要的。
我需要具体的提示词整理,而不是分析发布频率、热门话题什么的
搭建工作流 👎
就是很笨,不会用 coze,atlas 虽然也没成功,但是起码增加了几个节点上去;comet 虽然没成功,但是有点击动作;fellou 这个根本不会用,甚至一直在查询怎么用 coze,还让我登录知乎去看教程。。
浏览器记忆与个性化
- 可以在 home 里管理记忆、添加记忆
Home
切换空间
管理每个空间的任务、文件、记忆、历史记录、设置
使用时间 👍
我还挺喜欢这个的,但我应该不会为了这一点把主力浏览器切换成这个
文件管理,AI 解读 👍
其实所有的 AI 浏览器都可以上传文件,总结,这本身就是大语言模型的基础操作。但是只有 fellou 给做成了文件管理,可以上传本地的文件进去,有点类似于夸克云盘
[20251110170955_rec_.mp4]
- 还可以解读视频,虽然有点慢,但是可以成功运行
[20251110171621_rec_.mp4]
Genspark
AI 搜索与界面形态
每个网页中都集成了侧边栏的智能助手界。界面风格与常规浏览器类似。而且内置了很多个不同的垂类的 agent。很卡
网页内容理解
总结
跨标签页总结-🈚️
划词解释
检查文档逻辑,梳理测试用例
没积分了
Agent 能力
没积分了,但之前用过,PPT 做的还可以。整体类似于 manus,执行单个任务,跟浏览器没关系了
浏览器记忆与个性化
可以手动输入个性化的设置,也可以【自动研究】
工作区、云盘
连接器
有很多 mcp 工具
支持本地模型
flowithOS 🌚🌚-自称为操作系统
AI 搜索与界面形态
- 界面突破传统浏览器,中央一个输入框,用户可选择执行普通搜索或运行AI Agent任务。没有浏览器典型的地址栏—取而代之的是AI对话/命令行。Agent执行时,会弹出流程Canvas,展示操作步骤和进度。侧边还提供“知识花园”等模块,允许用户导入自有知识库。整体UI更像“AI工作区+浏览器”的混合体。
竖排标签页
-
electron 套壳,标签页在竖排,最上方是固定的:任务、流(画布空间,曾经在画布里搭建的工作流?)、书签收藏夹、智能体(技能、记忆、知识库)
-
最下方有个智能体指南
官方号称超越了 ChatGPT Altas、还是「全球首个为 Agent 原生打造的操作系统」,还可能是「你的最后一个浏览器」,反复吟唱:全球首个、超越 Atlas。
很多营销稿
网页内容理解
总结
就是整个交互很不顺手,用起来很无语,比如这个字号设计的都很反常
而且只是要求总结下这篇文章,居然就开启了agent 模式,很不稳定,体验差
[20251110190648_rec_.mp4]
字号小的可怕
跨标签页总结-🈚️
对话框里只能输入纯文本,不能艾特引用标签页,只能通过自然语言说要干什么。然后继续开启 agent 模式去阅读,很慢。远远不如其他的浏览器
划词解释-🈚️
只能右键,打开了谷歌搜索引擎
检查文档逻辑,梳理测试用例 👎
[20251111110252_rec_.mp4]
结果很差:
Agent 能力
直接操作浏览器,测bug 👎
其他智能体都可以点进去,到文档层级的增删改查,但是 flowithOS 只在知识库层级反复的增删改查
[20251111110713_rec_.mp4]
总结社交媒体 👎
[20251111131052_rec_.mp4]
结果很差,把最关键的提示词部分漏掉了:而且每一个结果都是创建了一个本地的markdown 文件
搭建工作流
插入了两个节点,但没有连起来,也无法运行
[20251111132843_rec_.mp4]
浏览器记忆与个性化
技能
- 自带了 5 个技能,也可以创建新技能(创建新技能也是打开了个 markdown 文件,不知道要写啥。。)
- 每个技能打开都是一个 markdown 文件。。不知所云
记忆
可以手动创建记忆,编辑一个 markdown 文件
知识库-还没推出
教学模式
可以观看视频,学习视频里的操作步骤,但我还没想到可以怎么用
豆包客户端、夸克浏览器等
我觉得这些都是 AI 的能力,是浏览器里汇总了很多 AI 工具
而不是 AI 浏览器
夸克
和 manus 的区别
Manus 能做的是「Agent」,AI 浏览器能做的是「环境 + 感知 + 执行权」
-
Manus 是一个机器人
-
AI 浏览器 是这个机器人生活的世界 + 身体 + 感知器官
Robot ≠ World
Agent ≠ Browser
Agent 可以很聪明,但没有操作权限,它什么都做不了。
一句话:
Manus 的虚拟浏览器是 Agent 的 IDE AI 浏览器是 用户使用世界的入口
用一个场景解释就懂了
目标:买机票 → 北京 → 上海,明天下午最便宜的。
在 AI 浏览器里(Atlas)
用户:我打开携程 AI:检测到网页 → 自动 summary → 提醒“要订票吗?” 用户:“帮我订明天下午最便宜的机票” Atlas:自动操作、对比、填表、执行
用户不用离开浏览器,也不需要打开一个 agent
AI 有上下文(你当前正在携程页面) AI 有cookie(你已登录的账号) AI 有执行权(点击按钮 / 填表单)
在 Manus(虚拟浏览器)
流程是这样的:
用户编写任务 → prompt / 建工作流
Manus 开一个虚拟浏览器(新 session)
Manus 自己从 0 开始打开网站
不知道你登录没、没有 cookie
涉及登录 / 二维码 / 验证码 → 卡住
决定性的区别:谁拥有用户的 session 和权限?
虚拟浏览器没有办法直接继承:
-
用户的登录 cookie
-
已打开的 tab 上上下文信息
-
用户当前的阅读、选择、焦点
Manus 知道的永远是它正在操作它的虚拟屏幕,不是你的。
✔️ AI 浏览器 = “我正在做什么 → AI 来帮我” ❌ Manus = “我告诉 AI 做什么 → AI 才去做”
阶跃星辰-桌面 agent
确实可以操控我的电脑,操作本地文件,我试过让他给整理桌面文件,分类,成功了
但一用就卡死
总结
✅:有此项能力
👍:成功运行,结果可接受
❌:没有此项能力
🌚:无法运行,结果不可用
