供稿来自:@李天鸣
AI 利器系列
关注于效率提升的内容分享,通过实际案例分析,展示如何运用这些方法和工具,在不同场景下提升个人或团队的工作效率与产出,包括但不限于:AI 编程实践、 工作流程优化、高效工具推荐。
写在前面
原本,本篇应该是作为「AI 利器系列」的开篇,可计划总是赶不上变化,对吗?在规划了做这个系列之后,刚过了两天 ,研发中心就明确了要通过 AI 编程来进行研发提效。于是我们决定:选择一个真实的业务需求,选择一款主流的 AI 编程工具,记录从零到一的完整编码过程。于是《Cursor 编程实战》就率先发出了。虽然本篇文章它迟到了,但是我们认为它是不可缺席的。
真正的利器
最近,桥水基金的创始人 Ray Dalio 在采访中说到,AI 时代对个人与企业而言:
需要充分认识到 AI 所带来的结构性变革,培养“快速适应+终身学习”心态。在不确定性极高的环境下,仍可通过多元化布局与对新技术的学习来保持竞争力。
「快速适应+终身学习」其实是一个过于理想的目标了,利器系列并不敢以此标榜,但是如果仅仅作为一个无情的分享 AI 工具的机器,那么时间长了一定会落入同质化的陷阱。所以,在每次分享的内容中,我们会尝试加入一点点自己的思考,让内容更加生动活泼。
然而这每一次的微看似不足道的一点点思考,它倒逼着我们走出自己的舒适区,去学习我们并不熟悉的领域知识,去尝试用不同的思维模式来解决问题,通过使用利器,以此打磨认知。而「认知」本身,才是真正的利器。
工具本质上是人类能力的延伸。每一种工具的发明都代表着人类对自身局限性的认识和超越。
我们作为一个并没有那么了解 AI 的普通人,应该如何看待 AI 当前的应用以及未来可能的发展方向?
AI 金字塔

第一层:通用大模型
让我们进入金字塔的底座,快速地浏览一下大模型从「进入普通人视野」到「每个普通人都在用」这短短的两年多里都发生了些什么:

此内容以上,仅是冰山一角,大模型不光大而且多,光是这些形形色色的名称就可以轻松将我们淹没。那么,对于我们普通人而言,有哪些维度是需要关注的呢?
说明 | 含义 | |
---|---|---|
阵营 |
|
开源模型:https://huggingface.co/models |
参数量 | 闭源模型通常不透漏参数,这里以 Deepseek 为例: |
参数量直接影响训练所需GPU/TPU数量和时间,通常参数量越大,所需要的硬件性能也就越高。 个人部署,可参考:https://tools.thinkinai.xyz/ |
上下文长度 |
| 上下文(Context)是大模型处理信息的关键概念,指模型能够"看到"并处理的文本范围。
|
模型得分 | 几乎所有大模型推出的时候,都会附上一张令人费解的分数对比图: | 这里涉及各种测试集,除非是相关的技术人员,否则肯定是一脸懵逼,我们只需要有基础概念即可:
除了基础能力测试,还有安全性测试、实用性测试等,不做展开 |
生成模型 vs 推理模型
生成模型 | 推理模型 | |
---|---|---|
模型代表 | OpenAI GPT-4o、Claude 3.5 Sonnet、DeepSeek-V3 | OpenAI GPT-o1、DeepSeek-R1 |
模型定位 | 专注于通用自然语言处理,适合日常对话、内容生成、翻译以及图文、音频、视频等生成。 | 侧重于复杂推理与逻辑能力,擅长数学、编程和自然语言推理任务, 适合高难度问题求解和专业领域应用。 |
多模态支持 | 支持文本、图像、音频乃至视频输入,可处理多种模 态信息。 | 当前主要支持文本输入,不具备图像处理等多模态能力。 |
交互体验 | 提供流畅的实时对话体验,支持多种输入模态,响应速度较快。 | 可自主链式思考,不需要太多的过程指令,整体交互节奏较慢。 |
一句话概括,生成模型是玩概率的,推理模型是玩逻辑的。推理模型的幻觉并不低,所以普通的简单场景还是建议使用生成模型。
2025年2月24日,Anthropic 公司推出了最新模型 Claude 3.7 Sonnet 是其首款混合推理模型,能够快速提供回复,也能进行深度思考。
提示词( Prompt)
好在不管大模型有多么复杂,我们始终只需要学会跟它“聊天”就行了。甚至还衍生出一个全新的职业「提示词工程师」,不过历经两年时间的洗礼,相信大家也都对其祛魅了,因为模型本身的能力提升 + 产品化的不断完善,提示词已经有很大一部分结构化的内容都已经融合进产品本身了,逐步进入「开箱即用」的阶段。
那么,我们还需要学习如何写提示词吗?
我认为站在「通用大模型」这一层的话,基本是不需要去深入学习提示词的,比如去使用 豆包、Deepseek 这类聊天产品,甚至是 Cursor、Windsurf 这类专业编程软件,也只需要进行简单的口语化交互,即可满足绝大部分使用场景。但是,如果是准备进行 AI 应用开发的话,那么还是有必要进行系统学习的。一点资料:
- 内容少,适合快速入门:https://api-docs.deepseek.com/prompt-library
- 内容中,适合了解全貌:https://learningprompt.wiki/zh-Hans/docs/chatgpt-learning-path
- 内容多,适合系统学习:https://www.promptingguide.ai/zh
另外,分享一个「提问」的小技巧:
预提问,当我们不知道如何写提示词的时候,可能只不过是我们的脑海中缺乏一些关键的名词,来把零碎的想法给串联起来。那么这个时候,可以先让 AI 做一次“名词解释”,根据它的回答来收集具体的名词。
操作 | 演示 | |
---|---|---|
1 | 我想要新建一个 API,但是突然脑子卡壳了,不知怎么写出合适的提示词
| |
2 |
| |
3 |
|
在通用大模型这层,明确目的的语义,合理的交互沟通,将会是最核心的技能之一。
第二层:AI 智能体
AI Agent 无疑是 2025 年最火热的赛道之一,各路科技大厂、创业公司、或是个人开发者都希望能开发出新一代「Killer App」分到一块蛋糕🍰。“女版巴菲特” 凯茜·伍德(木头姐)也在对 2025 想法的报告中,在众多领域中将 AI Agent 放到了首位,其中提到:
在过去,编写一个项目自动生成的代码大约占到 3%,然而现在这个比例能够达到 70%,她认为这个比例最终会接近 100%
Agent 是什么?
目前也没有特标准的定义,可以理解为:Agent 是一种让 AI 以类似人的工作和思考方式,来完成一系列的任务。一个 Agent 可以是一个 Bot,也可以是多个 Bot 的协同。就像是职场里,简单的工作独立完成,复杂的工作协作完成一样。对于每个 Bot 来说,可能包括:
- 一个大脑:判断和规划行为,这里通常需要高水平的大模型;
- 眼睛和手:确认信息和使用外部工具,一般是各种插件;
- 工作纪要:储存已经发生的事,通常的媒介是上下文窗口,或者一个 todo 文件,也或者数据库;
- 行为SOP:明确这个 Agent 的身份、任务、目标和机制。这个 SOP 可能是用户给的,也可能是由其它 Bot 给出的。
想要了解更多,请查看 探索AI工具幕后,打造你自己的Agent应用 by @赵一行
通用的 Agent ?
2025 年 3 月 6 号,不知道大家是否被一个名叫 Manus 的东西给刷屏了?
一句 Manus 是一款通用型的 AI 助手,殊不知,让多少自媒体陷入了颅内高潮,连夜赶稿,用着最吸睛的标题,煽动着人们易燃的情绪,以至于出现了这般🍐🎼的景象,网友们直呼内行,难道「邀请码」就是 AI 产品最好的商业化模式?
言归正传,Manus 如此出圈,究竟有哪些亮点?
- GAIA (智能体基准测试) 上超越了 OpenAI 的 Deep ResearchDeep
Research 是 OpenAI 推出的订阅服务(200$/月),是一个用于研究任务的智能体,只需要一个提示词,它就会查找、分析并整合数百个网上资源,生成一份达到研究分析师水平的综合报告。
2. Manus 的能力覆盖了大量的垂直类 Agent 项目
这代 Agent 技术是相对通用的能力,可以应用在各种不同的领域。官方给出了大量的用例展示,感兴趣的小伙伴可以去瞧一瞧:https://manus.im/
这里展示一个博主的测试示例(视频经过倍数处理,实际是较慢的):
我要买一个小米ai眼镜,请在 淘宝,咸鱼,1688,拼多多 等平台比价,选择价格最低的那个商品链接给我。
我们可以看到 Manus 做了这么几件事儿:
- 首先,它拉起了一个「电脑」作为它自己的执行环境;
- 它根据用户的问题进行了任务拆解,形成 TODO 任务;
- 自动打开了浏览器进行目标页面的浏览,搜索价格内容;
- 整合分析资料,给出最终的结论。
因为没有邀请码,Manus 究竟是否通用?也只能是道听途说,目前大多数参加内测过的媒体给出结论是:离真正的通用还有些距离。
有什么启发?
网友绘制的简易版「工作原理图」:
少点结构,多点智能 Less Structure, More Intelliengence
这是 AI Agent 开发讨论的一个焦点问题,从 Dify、Coze 等平台通过 workflow 构建 AI 应用起讨论就一直不断。AI 研究员 Flood Sung 曾表示:“现在的各种 Agentic Workflow 就是各种带 Structure 的东西,它一定会限制模型能力,没有长期价值,早晚会被模型本身能力取代掉”。Manus 就是这样的设计,没有搭建复杂的 workflow,所有的能力都是模型自然演化出来的。
这为我们开发 AI 应用提供了一个大方向上,当我们在设计 AI 应用框架的时候,要把模型的能力放在系统的核心,而不是为了追求快速实现功能做过多的限制,需要从架构上预留出「模型升级的弹性」,防止在模型能力提升之后,程序陷入换代困难的囧境,最终导致整个产品难以继续迭代。在 AI 智能体这层,如何将大模型的能力发挥出来,将会是工程化的重要挑战。
第三层:AI 合唱团
来到第三层,就没有太多实际的案例可以说明了,因为站在 2025 年 3 月的这个时间节点上,我们正处于第二层的发展阶段。
AI 合唱团,指的是多个 AI 智能体「自主协同」来解决现实世界中复杂的问题。想象一下,你现在想做一个「小说 App」,但是你自己啥都不会,于是你招来了三个智能体,分别是:A 产品、A 设计、A 码农。然后你把想法告诉了 A 产品:

三天后,小说 App 就上架应用市场了。反响很不错,你也成功赚到了第一桶金,于是你又有了一个新的想法——开发一款听书 App。但是此时小说 App 正在火热迭代中,所以你又招了三个智能体:B 产品、B 设计、B 码农:

三天后,听书 App 也如期上架了,不出预料用户反响不错。但是随之而来各种各样的需求、反馈,令你觉得难以招架,所以你又招了 A 运维、A 客服、A 项管……
在 AI 合唱团这层,就是特别得好奇 AI 智能体之间又会如何甩锅呢?
第四层:模拟世界
相信来到这一层,大家对于未来也都有各自不同的憧憬吧?
也许你是坚定的进化派🧬,认为硅基生物要取代碳基生物,而人们所做的一切不过都是在迎接 AI 取代人类的那一天。那我的观点是站在人本派,认为不论 AI 如何发展都需要坚持「以人为本」的原则。提到模拟世界就不得不提到,李飞飞的世界实验室正在研究的「世界模型」:
世界模型(World Model)是人工智能算法模型的一种新概念,旨在模仿人类和动物通过观察与交互自然地学习关于世界运作方式的知识。
Meta 首席AI 科学家杨立昆等研究人员表示,世界模型有一天可以用在数位和实体领域的复杂预测和规划。 那么是不是意味着有一天,我们也能戴上《头号玩家》中的眼镜,进入绿洲呢?
在模拟世界这层,只是觉得自己的想象力太稀薄了。
总结本文
从普通人的视角来看 AI 的发展阶段,金字塔的四层结构分别对应了四个关键词:
- 能力:其他的不敢说,在 AI 编程领域中已经可以“独当一面”;
- 应用:如何将大模型的能力与业务深度结合,已经是逃不开的话题;
- 协同:只有高效的协同,才能最终形成更大的规模,发生质变;
- 想象:✨🌟⭐️🌠🌌🌃🔭✨