核心原则:以「证据链可审计性」为分级标准
第1级:Genspark Deep Research — 研究流水线总控
入口
- Agentic Deep Research:https://www.genspark.ai/agents?type=agentic_deep_research Source
- MoA Deep Research:https://www.genspark.ai/agents?type=moa_deep_research Source
推荐理由(准确性与证据链视角)
Genspark 的核心优势在于「工作台化」设计,将研究过程拆解为规划、检索、分析、输出四个阶段。根据 Fireworks AI 的测评,Genspark Deep Research Agent 比主流闭源模型的工具调用次数多33%,研究质量提升12%。其「研究→表格→文档→PPT」的串联能力使证据链从采集到交付全程可追溯,天然契合企业级尽调的流程需求。
最佳实践
首先要求输出研究计划并确认后再执行,避免方向偏离。在检索阶段明确设置来源权重:官网、监管文件、论文、专利为高权重,媒体报道、博客为低权重。强制执行「每条关键结论至少2个独立来源」的规则,并要求提供原文摘录与链接。最后必须包含反证检索环节,用「controversy / limitation / dispute」等关键词主动寻找对立证据。
提示词模板
你是研究员。请先输出研究计划(问题拆解、关键词树、排除项、数据口径),我确认后再开始深度研究。
输出最终报告时必须包含:
1)结论摘要(≤10条)
2)证据表:每条结论对应【原文摘录 quote + 链接 url + 来源类型(官网/论文/专利/监管/媒体) + 可信度(高/中/低)】
3)反例与争议:至少3条
4)不确定性与下一步验证清单(含建议访谈对象/需要的原始数据)
5)附录:所有引用链接列表(去重)
第2级:ChatGPT Deep Research — 报告型研究代理
入口
- 功能页:https://chatgpt.com/features/deep-research/ Source
- 官方介绍:https://openai.com/index/introducing-deep-research/ Source
- API 文档:https://platform.openai.com/docs/guides/deep-research Source
推荐理由
ChatGPT Deep Research 是 OpenAI 于2025年2月推出的研究型代理,能够自主浏览网页5至30分钟,跨越数百个来源进行信息收敛与综合。其特点是以「报告交付+引用」为核心输出形式。Wikipedia 已为其建立专门词条,说明其在研究领域的影响力已获广泛认可。
最佳实践
将任务定义为「可审计研究」:要求每段结论末尾必须标注引用和原文摘录,对关键数字必须注明口径、时间、币种、样本范围。引入「审计抽查机制」——让模型自选5条最关键结论并逐条回指证据原文,有效减少引用错配问题。
提示词模板
目标:做一份可审计的研究报告。
规则:
- 每个关键结论必须给出至少2个独立来源链接,并提供关键句原文摘录(quote)
- 对所有数字(市场规模/价格/性能指标)必须注明口径、时间、地区与单位
- 额外输出「我最可能出错的5个点」及如何验证
请按「结论→证据→反证→不确定性→下一步」结构输出。
第3级:Skills / 流程工程化 — 开源可控的研究方法论
wshuyi/deep-research
入口
- 项目主页:https://github.com/wshuyi/deep-research Source
- 中文说明:https://github.com/wshuyi/deep-research/blob/main/README_CN.md Source
- 技能索引:https://agentskills.guide/skills/wshuyi-deep-research-deep-research Source
推荐理由
这是一个基于 Claude Code 的开源 Skill,提供系统化的8步研究方法论。核心特点包括:L1-L4 分层来源评估(官方文档 > 博客 > 媒体 > 社区)、带引用的事实卡片、时间敏感性自动评估、显式推导链。特别适合 AI/技术类快速迭代领域的调研,会自动强制6个月时间窗口并要求版本号引用。
最佳实践
用自然语言触发:「深度调研 [主题]」或「对比 X 和 Y」。该 Skill 会自动执行8步流程:问题类型识别 → 时间敏感性评估 → 问题拆解 → 来源分层 → 事实抽取 → 对比框架 → 推导链构建 → 交付格式化。所有中间产物保存在 ~/Downloads/research/<topic>/ 目录,支持回溯审计。
提示词模板
深度调研 [你的主题]
要求:
- 问题类型:[概念对比/决策支持/趋势分析/问题诊断/知识组织]
- 时间窗口:[如:近6个月/近1年/不限]
- 来源优先级:官方文档 > 技术博客 > 行业媒体 > 社区讨论
- 输出:包含事实卡片的结构化报告 + 一句话摘要
第4级:通用执行型 Agent — 自主任务执行
Manus
入口
- 官网:https://manus.im/ Source
- 工具页:https://manus.im/tools Source
- 官方介绍:https://workos.com/blog/introducing-manus-the-general-ai-agent Source
推荐理由
Manus 是全自主 AI Agent,能够在云端异步执行多步骤任务。核心能力包括:信息检索与事实核查、数据处理与可视化、代码执行与自动化、自纠错机制。其多 Agent 协作框架可处理复杂研究任务,如生成股票分析报告、竞品调研等。适合需要「研究+执行+交付」一体化的场景。
最佳实践
将复杂任务拆解后交给 Manus 执行。明确指定输出格式(报告/PPT/网站)和验证要求。利用其浏览器和文件系统访问能力,可以让它自动生成带数据的分析报告。
提示词模板
任务:[具体研究任务]
要求:
1)信息来源:优先官方数据/行业报告/权威媒体
2)输出格式:[报告/PPT/数据表格]
3)验证要求:关键数据需标注来源链接
4)时间范围:[指定时间窗口]
请先给出执行计划,确认后开始。
AnyGen
入口
推荐理由
AnyGen 定位为「AI 办公 Agent 平台」,类似 Manus 和 NotebookLM 的结合体。核心能力是将语音、笔记、图片转化为可交付文档。特别适合从零散想法到结构化报告的场景,支持市场趋势分析、竞品研究、年度规划等任务。
最佳实践
用 AnyGen 做「从想法到初稿」的快速产出,然后用第1-2级工具做深度验证。适合非结构化输入(语音备忘、照片、零散笔记)的场景。
提示词模板
基于以下输入生成研究报告:
[语音/笔记/图片内容]
输出要求:
- 结构化报告(含摘要、正文、结论)
- 数据来源标注
- 可视化图表(如适用)
第5级:Gemini Deep Research — 广覆盖初筛引擎
入口
- 官网介绍:https://gemini.google/overview/deep-research/ Source
- 使用指南:https://support.google.com/gemini/answer/15719111 Source
- API 文档:https://ai.google.dev/gemini-api/docs/deep-research Source
- Workspace 集成:https://workspaceupdates.googleblog.com/2025/11/gemini-deep-research-integrates-workspace-content.html Source
推荐理由
Gemini Deep Research 现已升级至 Gemini 3 Pro 驱动,能够自动浏览数百个网站,并整合 Gmail、Google Drive、Chat 等 Workspace 内容。这种「内外数据联动」能力使其特别适合企业内部知识与公开信息的交叉研究。定位是「找全」而非「定论」,适合作为研究第一站。
最佳实践
将 Gemini 定位为「候选来源生成器」:先让它输出分类来源清单(按官网、监管、论文、专利、媒体分组),每类至少10个链接,然后进行二次核验。强制要求「引用必须可点击且可打开;若链接不可访问,必须替换来源或标记为未验证」。
提示词模板
请先给出研究计划与候选来源目录(按官网/监管/论文/专利/媒体分类),每类至少10个链接。
然后输出报告:每条结论都要有可访问链接;如果链接不可访问请标记「未验证」并给替代来源。
第6级:Claude Web Search — 证据链清洗与复核
入口
- Web Search Tool 文档:https://docs.anthropic.com/en/docs/build-with-claude/tool-use/web-search-tool Source
- 高级工具使用:https://www.anthropic.com/engineering/advanced-tool-use Source
- 使用指南:https://support.claude.com/en/articles/10684626-enabling-and-using-web-search Source
推荐理由
Claude 的 Web Search 工具适合将研究过程拆解为更可控的步骤:先搜索、再阅读、再归纳。这种分步执行模式特别适合做「证据链清洗与复核」——当你已经从第1至5级工具获得初步结论后,用 Claude 进行二次验证和反证检索。Claude 4 系列支持在 Extended Thinking 模式下使用工具,推理与搜索可交替进行。
最佳实践
明确指定「只采信可回溯的一手/权威来源」,并要求输出「被排除来源清单及理由」。强制使用「Claims–Evidence–Counterevidence」三列表格结构,避免单向叙事。在 Prompt 中加入「Search the web」可确保触发搜索。
提示词模板
Search the web 做证据型调研。
输出必须包含:
- Claims 列表(每条一句话)
- Evidence:每条 claim 对应的证据链接 + 原文摘录
- Counterevidence:至少1条反证或局限
- Excluded sources:列出你排除的来源及原因(广告软文/无作者/无日期/无原始数据等)
只要可核验的链接,不要「凭常识推断」。
第7级:Perplexity — 带引用的检索助手
入口
- 主站:https://www.perplexity.ai/ Source
- Help Center:https://www.perplexity.ai/hub/helpcenter Source
- Deep Research 介绍:https://www.perplexity.ai/hub/blog/introducing-perplexity-deep-research Source
推荐理由
Perplexity Deep Research 在 SimpleQA 基准测试中达到93.9%的准确率,其核心优势是速度快且每个回答都附带编号引用。但研究显示其引用准确性「参差不齐」(mixed)。因此最佳定位是「带引用的检索助手」而非「最终结论生成器」——用它快速获取来源清单,再喂给上层工具做深度分析。
最佳实践
不把它当报告生成器,而当「来源发现引擎」。要求输出「Top 10 原始来源链接 + 每个链接一句证据摘录」,然后将结果输入第1至6级工具生成最终报告。
提示词模板
不要写长报告。请只输出:
- 与问题最相关的10个原始来源链接(优先官网/监管/论文/专利)
- 每个链接提供1句原文摘录(quote)说明它能证明什么
- 可能的反向证据链接(至少3个)
第8级:学术证据入口层
Google Scholar
入口:https://scholar.google.com/ Source
推荐理由
覆盖面最广的学术搜索引擎,适合找综述文献、追溯引用链、定位经典论文,是进入学术证据体系的第一站。
最佳实践
优先检索「survey / review / meta-analysis / systematic review」类文献建立全局视野,再下钻具体技术点。记录每篇论文的作者、年份、研究类型、数据集/样本、局限性。
提示词模板(将 Scholar 结果喂给 LLM)
我将给你10篇论文标题/摘要。请按:研究问题、方法、数据/样本、主要结论、局限、是否可复现(代码/数据)输出表格,并标记「证据强度」。
Semantic Scholar API
入口:https://www.semanticscholar.org/product/api Source
推荐理由
提供完整 API,适合构建批量、结构化、可复用的研究流水线。可程序化拉取引用数、领域、作者、发表 venue 等元数据。
最佳实践
用 API 快速生成「高影响论文清单」,并对关键论断做引用网络核验——检查是否被后续研究反驳。
提示词模板
请把这些论文按「关键结论→支持论文→反驳论文→争议点→当前共识程度」组织,并给我一个「必读5篇」清单。
OpenAlex
入口:https://docs.openalex.org/ Source
推荐理由
适合做研究版图分析:年度发文趋势、概念聚类、机构/作者网络。偏数据驱动的计量研究。
最佳实践
用它生成「研究路线图」(年度趋势、Top 机构/作者、关键子方向),然后作为输入喂给上层工具撰写报告。
提示词模板
给定主题与时间范围,请输出:年度趋势、Top机构/作者/venue、关键子方向(按概念聚类),并给「研究空白点」候选。
第9级:系统性文献综述工具
Elicit
入口:https://elicit.com/solutions/literature-review Source
- 系统综述功能:https://elicit.com/blog/systematic-review/ Source
- 帮助文档:https://support.elicit.com/en/articles/7927169 Source
推荐理由
Elicit 现已支持完整的系统综述流程,覆盖1.26亿篇论文,可自动化筛选、信息抽取、表格化输出。据报道可节省80%的系统综述时间。其核心价值是将「论文证据」转化为「可审计结论表」。
最佳实践
明确 PICO 研究问题,设置纳入/排除标准,固定抽取字段(样本量、对照、指标、结论、偏倚风险)。
提示词模板
请把研究问题按系统综述流程做:
1)纳入/排除标准
2)信息抽取字段(建议表头)
3)证据分级(随机对照/综述/观察/案例)
4)输出「证据表+结论强度」
Consensus
入口:https://help.consensus.app/en/articles/9922660-how-to-search-best-practices Source
推荐理由
专注从同行评审论文中回答「某命题有没有科学证据」。适合做 Yes/No 型或变量关系型问题的快速核验。
最佳实践
问法使用 Yes/No 或变量关系形式(A是否影响B),并要求返回支持/反对的论文分布。
提示词模板
问题请按「是/否」或「关系」形式回答:
- 结论倾向(支持/反对/不确定)
- 支持与反对各列出至少5篇论文(含链接)
- 解释分歧的原因(研究设计/样本/测量口径)
第10级:文献地图与引用网络
Connected Papers
入口:https://www.connectedpapers.com/ Source
推荐理由
从一篇种子论文快速生成相关文献网络图,适合「补齐关键文献」和发现遗漏的重要研究。
最佳实践
选择2至3篇种子论文(早期奠基作 + 最新高被引作),分别生成图谱,合并「共同节点」作为必读清单。
提示词模板
我会提供种子论文列表。请输出:
- 共同出现的关键论文(Top 10)
- 每篇论文一句话贡献
- 研究路线图(按时间线/主题聚类)
ResearchRabbit
入口:https://www.researchrabbit.ai/articles/guide-to-using-researchrabbit Source
推荐理由
支持长期追踪某主题、作者、引用网络的更新,适合持续性研究项目。
最佳实践
用 collection 维护「必读集」,按子方向拆分多个 collection,每周增量更新。
提示词模板
请把我的 collection 按子方向分组,并给每组:关键作者、关键论文、最新进展与下一步要追的引用链。
Litmaps
入口:https://www.litmaps.com/learn/how-to-create-a-literature-map Source
推荐理由
将文献关系可视化为可解释的研究叙事线,特别适合对外汇报和论文写作。
最佳实践
用它产出「研究故事线」:问题起源→方法演进→分支路线→当前瓶颈→未来方向。
提示词模板
请根据我的 litmap,输出一段「研究故事线」(500字内)+ 一张「路线图式提纲」(分支、里程碑、代表论文)。
第11级:引文语义审计
scite
- Smart Citations 说明:https://scite.ai/blog/smart-citations-rankings Source
推荐理由
scite 的 Smart Citations 已分析超过14亿条引用语句,覆盖3800万篇论文,能够区分 supporting(支持)、contrasting(反驳)、mentioning(提及)三种引用类型。这解决了传统引用分析中「被引用≠被支持」的根本问题,是做关键结论「证据强度审计」的利器。
最佳实践
对 Top 5 关键论文逐一审计:检查后续被支持多还是被反驳多,将「反驳点」写入风险章节。用「对立证据」反推研究边界——什么条件下结论不成立。
提示词模板
对以下关键论文,请输出:
- supporting/contrasting/mentioning 的总体情况(定性即可)
- 最强的2条反驳点(带引用上下文摘要)
- 这对我们的结论意味着什么:应如何修改结论措辞或增加限定条件
第12级:专利与技术路线
Lens.org
入口:https://about.lens.org/patent-search-analysis/ Source
推荐理由
Lens.org 实现专利与学术文献的联动分析,适合做技术先发性评估、竞品路线分析、FTO(自由实施)初筛。
最佳实践
不只用关键词检索,结合 IPC/CPC 分类号、关键申请人(公司/高校)、时间窗口。产出「路线图」:关键专利族、核心权利要求主题、主要申请人阵营。
提示词模板
目标:做技术路线与专利态势分析。
输出:
- Top 20 专利族(按被引/家族规模/重要性分层)
- 关键权利要求主题聚类(3~7类)
- 主要申请人对比(公司/高校/国家)
- 风险提示:潜在FTO风险点与需律师复核项
第13级:历史取证与证据库沉淀
Wayback Machine
入口:https://web.archive.org/ Source
推荐理由
适合验证「某公司/产品过去是否这样宣称」,做功能、定价、合规表述的历史版本比对,构建时间线证据。
最佳实践
对关键页面(pricing、terms、compliance、spec sheet)做多时间点截图/链接留存,形成「证据链档案」。
提示词模板
我会给你一组URL。请为每个URL给出:
- 最早可用快照时间点
- 关键版本变化(条款/价格/功能/指标)
- 可引用的快照链接清单(用于报告附录)
Zotero
入口:https://www.zotero.org/ Source
推荐理由
将调研成果转化为可复用资产:来源管理、PDF存档、标注协作、引用格式统一。是研究团队的「证据库基础设施」。
最佳实践
建立固定标签体系:主题/子主题/来源类型/可信度/是否已核验/关键结论ID,并将「证据表」与 Zotero 条目双向链接。
提示词模板
请给我一个 Zotero 的标签与文件夹体系建议,满足:
- 能按主题与证据强度检索
- 能把每条结论追溯到具体来源条目
- 适合团队协作与后续复用
层级速查表
| 级别 | 工具 | 定位 | 核心价值 |
|---|---|---|---|
| 1 | Genspark Deep Research | 研究流水线总控 | 全流程可审计 |
| 2 | ChatGPT Deep Research | 报告型代理 | 深度综合+引用 |
| 3 | wshuyi/deep-research | 开源方法论 | 8步系统化+时间敏感 |
| 4 | Manus / AnyGen | 通用执行 Agent | 自主任务执行+交付 |
| 5 | Gemini Deep Research | 广覆盖初筛 | 内外数据联动 |
| 6 | Claude Web Search | 证据链复核 | 分步可控+反证检索 |
| 7 | Perplexity | 带引用检索 | 快速来源发现 |
| 8 | Scholar/Semantic/OpenAlex | 学术入口 | 论文检索+元数据 |
| 9 | Elicit / Consensus | 系统综述 | 论文→证据表 |
| 10 | Connected/Rabbit/Litmaps | 文献网络 | 补漏+脉络+叙事 |
| 11 | scite | 引文审计 | 支持/反驳区分 |
| 12 | Lens.org | 专利路线 | 技术+FTO分析 |
| 13 | Wayback/Zotero | 取证+沉淀 | 历史版本+资产化 |
关于核心问题:Genspark 是否可以排第一?
结论:可以,前提是理解其排名逻辑。
Genspark 排第一并非因为它「天然最准确」,而是因为它最容易将准确性流程固化执行。从证据链可审计性角度看,准确性取决于四个要素:是否强制引用、是否原文摘录、是否多源交叉验证、是否包含反证与口径说明。
Genspark 的工作台化设计(规划→检索→证据表→反证→报告)使这四个要素能在单一工作流中闭环执行。从实测数据看,Fireworks AI 的评测显示 Genspark Deep Research 比闭源模型工具调用多33%、质量高12%——这说明它确实在「深挖」环节下了更多功夫。
因此,在「企业级可追溯调研」这个评判标准下,Genspark 排第1级是合理的。但工具选择的本质是匹配场景,而非追求绝对排名。