通用agent观点:回访，对谈 LemonAI 创始人宜博

2025年9月25日 128点热度 0人点赞 0条评论

智能摘要

lemon AI创始人宜博回顾了公司从低代码到通用Agent的十年三次转型，介绍了其基于虚拟机架构的L3级全栈开源智能体，并探索L4级别的self-evolving（自我进化）能力。团队通过工程化手段实现AI的“慢思考”与并行发展，强调记忆机制与人类反馈对模型迭代的重要性。面对大厂竞争，宜博认为创业公司应避开主赛道，在应用层发挥灵活优势。目前lemon AI采用开源To B、闭源To C（实为To P）的商业化路径，服务于高价值脑力劳动者，推动AI agent在真实场景中的落地。

— 此摘要由AI生成仅供参考。

从低代码到通用 Agent：十年的三次转身

覃睿

请您简要介绍一下个人经历和公司情况。

👨🏻‍💻 宜博

各位 BISHENG 的同学和用户大家好。我是宜博，lemon AI 的创始人。lemon AI 专注于全栈开源的通用智能体，我们称之为 L3 级别的 Agentic agents。与以往方案不同，我们采用虚拟机架构，而非直接运行在本地电脑环境中。如果没有虚拟机，本地就缺乏隔离：要么缺乏编程和搜索能力，要么代码执行会占用或影响原有资源和文件。基于虚拟机的架构可以实现并行调度多个实例，理论上可扩展到上万台，用于同时执行一个或多个任务。

我们最初是在锦秋小饭桌认识的。覃老师把 BISHENG 做得非常出色，尤其在商业化方面。lemon AI 从 2023 年 5 月开始探索 workflow 方向，当月推出了国内这个方向较早的产品 LLMFarm ，同年5月底 Dify 发布，11 月 Coze 发布。总体来看，大家是同行，但 BISHENG 在商业化和金融行业客户拓展上更为领先，已经形成了以 workflow agents 变现的成熟模式。相比之下，Dify 主要依靠海外市场变现；我认为 BISHENG 在国内应该是 workflow agents 开源领域商业化第一。

覃睿

感谢感谢，希望未来能继续合作交流。

👨🏻‍💻 宜博

一起努力。我们目前转向 Agentic agents，并在 8 月上线了一个线上版本，进行了一次接近 L4（Innovator）形态的尝试：让 agents 自主开发 agents，使其具备自我迭代能力，我们称之为 self-evolving（也可理解为 self-learning）。自 8 月 8 日发布以来，已有约 1,000 名全球用户在使用。

下周我们计划发布一个新版本——通用 AI Editor。其核心是支持“人机协同反复修改”，将结果持续打磨至可直接交付。我们在验证 agents 时发现这是一个关键需求。

过去三个月我主要使用 Genspark 制作 PPT。它已经具备“反复修改直至可交付”的能力，但功能仍局限于 PPT、Word、Excel，对于 agents 最终产出的通用结果（如 HTML 或 Markdown）支持不足。因此，我们在 lemon AI 上实现了通用 agent editor：无论是 Web 编码还是深度研究，只要结果以 HTML 呈现，就能持续迭代和改进，该功能预计下周上线。

覃睿

能否再谈谈您的过往经历？

👨🏻‍💻 宜博

我从 2013 年开始创业，本科是 2004 年计算机专业毕业，最初在用友工作一年多，之后去德国待了四年多。2010 年回国后进入大客户销售，但发现销售并不利于创业，于是去清华读 MBA。2013 年毕业后开始创业，做了第一个项目。2014 年创办现在的公司，最初聚焦办公 LLM 市场，推出产品 WorkingChat。但 2015 年钉钉上线，我们受到很大冲击。2016 年团队达成共识：不能总跟随市场，而要布局 5~10 年后的趋势。我们认为未来机器一定会替代部分人工，而我们的优势在于技术，所以选择了“机器替代人写代码”的方向。

当时我们提出 NL2Code，用自然语言模型（如 BERT）理解需求，生成代码。2017 年在美国被称为 VPL（Visual Programming Language，可视化编程语言）。我们选择面向大 B 客户，帮助他们进行快速开发和迭代。学习强国、云上会展等大型项目背后都有我们的参与。

覃睿

非常超前。

👨🏻‍💻 宜博

是的。疫情之后，大客户付款问题对我们影响很大。2022 年 GPT 出现，上半年我们没有太在意，但下半年 ChatGPT 爆发，我们意识到原有路线被彻底颠覆：NL2Code（自然语言转代码）转向了基于大语言模型的代码生成。于是 2023 年初，我们推出了第一个相关产品 ChatBI，用户只需接入数据库或上传 Excel，系统即可自动生成 SQL 并绘制低代码图表，一个月内吸引了 3000 多用户，其中不少是付费用户。

然而 2023 年 4 月国家发布《生成式人工智能服务管理办法（征求意见稿）》，几天后我们的产品被微信下线，我们判断 To C 模式风险过高，遂转向 To B。结合低代码经验，我们在短时间内开发了全国首个 Workflow Agent——大模型农场（LLMFarm）。该产品 5 月上线，6 月实现商业化，到年底已积累十余家客户，包括华润、阿里国际站和桔子数科等。

但 2023 年 10 月 Coze 上线并快速推广，大家发现效果很好，客户开始寻找替代方案，转而关注 Dify 和 FastGPT。我们难以清晰阐明差异，逐渐沦为服务型公司，甚至被客户要求直接基于他人产品做定制，这让我们陷入困境。

2025年 3 月 Manus 发布，我们意识到时代再次发生变化，于是整合已有积累，并在 5 月 28 日推出开源全栈 AI Agents。一个月内下载量超过一万，GitHub star 也在增长。7 月上线了线上版本，并持续探索更高阶段的发展。

L1-L5 并行：AI 的快思考与慢思考

👨🏻‍💻 宜博

我们认为，AGI 的发展不是串行的，而是并行推进的。L3、L4、L5 可以同时演进。早期只能做 Workflow Agent，是因为模型能力有限；随着能力提升，更多层次应用才成为可能。工程手段对模型落地至关重要，因此我们专注于如何在现有模型能力基础上，通过工程方法不断推出可交付的应用。

覃睿

您刚才提到 L1 到 L5 是并行发展的。能否具体解释一下？我的理解是：即便模型越来越强，L1 的对话、L2 的推理、workflow 的需求仍然存在，只是会更好用，而不会消失。

👨🏻‍💻 宜博

是的。可以打个比方：L1 相当于人的快思考，L3 相当于人的慢思考。比如，你让助手帮忙订机票，说“明天早上 8 点左右从上海回北京”。助手的第一反应可能是：“好像有一班 8 点半的国航，从虹桥到首都机场。”这种回答基于经验和知识记忆，反应很快，但往往不够准确。

如果你要求“请帮我核实并订票”，助手就需要进行规划：第一步去哪个平台（携程、去哪儿或国航官网）；第二步输入出发地和目的地；第三步筛选结果，找出 8 点左右的航班，并比较价格、舱位、到达机场等。最后助手才会给出准确的选项，例如“8:35、8:45、8:55 各有航班，分别多少钱，分别到大兴或首都机场”。这个过程就是“慢思考”。它经过推理、分解和验证，结果准确、可靠。相比之下，“快思考”只是基于直觉和已有经验的快速回答。

人类每天做上千个决策，其中大多数是下意识的快思考，例如走路迈哪只脚、吃饭用哪只手。但在关键问题上，比如高考志愿填报、公司战略制定、撰写重要报告，就需要慢思考：拆解问题、搜集信息、请教专家、权衡比较，最后做出决定。

AI 也是如此。L1 和 L3 是同时存在的：既需要快思考来快速响应，也需要慢思考来处理复杂、重要的任务。

覃睿

您刚才提到过 Manus 和 Genspark，在观察它们的产品演进时，您觉得各自的思路是什么？我感觉它们最初很像，但现在差别越来越大。您怎么看待它们的路线，以及与它们在通用智能体上的竞争？

👨🏻‍💻 宜博

他们都在做通用智能体，但底层逻辑不同。Manus 认为未来 AI 会替代虚拟世界，而虚拟世界的底层是代码，因此所有问题都能通过写代码解决。它的界面统一，所有需求都通过生成代码来完成，这是它的核心哲学。

Genspark 更像导航站或应用矩阵。团队认为用户在不同场景下需要不同的轻量化工具，因此提供了 AI PPT、AI Word、AI Excel、AI 播客、AI 视频、AI 图片等应用，未来还可能接入第三方，用户进入一个垂直场景，就能直接获得结果。所以，Genspark 更像应用商店，而 Manus 更像“用代码解决一切”的平台。

覃睿

我看到有人评论 Genspark 是 “AI 界的 4399”，做了一堆小游戏。

👨🏻‍💻 宜博

是，我也看到过，当时我们也考虑过要不要走这两条路径，但最终认为都不合适，选择了第三条。

覃睿

您指的是什么路径？

👨🏻‍💻 宜博

我们专注 L4 和 L5 的路径，而不是在 L3 上竞争。我们已将类似 Manus 的内核开源，相当于完成了基于代码的通用框架。但真正能产生最大价值的，是 L4 和 L5。我们的目标是推动 L1 到 L5 的整体演进。

还有一个有趣的现象：美国投资人常问，为什么美国公司多做垂直场景的 agents，而中国公司更倾向于 all-in-one，美国市场几乎没有通用 agent 的投资标的。

我认为这与文化有关。中国用户和公司更习惯“大而全”的产品，比如微信、支付宝、淘宝；而美国市场相对分散。马斯克也曾羡慕微信，希望打造类似的超级应用。既然基础模型是通用的，美国投资人也认同未来智能体会走向通用化。

覃睿

但这未必能覆盖全部市场，还要看通用型智能体能占多大份额。

👨🏻‍💻 宜博

没错，不会覆盖 100%，但一定是主导力量。而在研发上，中国团队更具优势：工程能力强，也擅长做大而全的系统。目前全球能做通用 AI agent 的团队不超过十几个，大多是中国人或华人团队。

创新的两条路径：要素重组与自我进化

覃睿

您刚才提到团队选择突破的方向是 L4、L5。能否具体谈谈，您是如何构思所谓 AGI 五个阶段中 L4 “创新者”的产品逻辑？

👨🏻‍💻 宜博

关于创新，我理解有两种方法论。第一种是原有要素的重新组合。比如新药研发，本质上就是把已知药物的分子重新排列组合，再逐一验证疗效。前段时间有研究通过 AI 进行了上千万次组合，发现了一种人类 30 多年来未曾找到的新型抗生素，这就是典型案例。

第二种方法是自我迭代。正如杨植麟在一次采访中提到的，未来的 L4 可以理解为“让模型来训练下一代模型”，即 AI 可以开发新的 AI，agent 可以生成新的 agent。这也是一种创新。我很认可这种观点，因此我们提出 self-evolving：让模型训练模型，让 agent 迭代 agent，实现自我进化。

覃睿

这和您之前提到的 self-evolving 概念是一致的。

👨🏻‍💻 宜博

对。相关论文也指出，自我进化（self-evolving）是迈向超级智能（ASI）的必经之路。一旦系统具备自我意识并超越人类能力，它会像孩子成长一样，不断学习、不断迭代。

覃睿

那它学习和积累下来的东西，存储形态会是什么？

👨🏻‍💻 宜博

就是 memory，无论是长时记忆还是短时记忆，实质都是模型的记忆机制。人的大脑也在不断进化，逐渐形成对世界的感知和理解，可以类比为一种 world model。眼、耳、鼻、舌、身是感知外界的器官，而“意”才是大模型——我们真正的智能所在。它每天都在迭代。

人的记忆还带有压缩特性。我们不会完整记录每个细节，而是提取关键信息：一句话、一个场景、一段经历，存入海马体。今天很多工程化的 long memory、short memory 设计，实际上都在模仿这种机制。

覃睿

我最近听到有人提到，他们尝试用强化学习来改进 memory。您怎么看？

👨🏻‍💻 宜博

我个人并不认同。我们已经从强化学习时代进入大模型时代，原因就在于强化学习无法泛化，也无法产生真正的智能。它在固定环境、固定反馈和固定奖励函数下有效，可以提升某些局部环节的表现，但它不具备普适性。

比如 DeepSeek 在训练时会在某个环节引入 RL，这是合理的。但 RL 不能替代 LLM。我认为更好的方式是大模型 + 上下文工程（context engineering），这样泛化效果更强，能适应不同环境、参数和场景。相反，如果依赖强化学习，结果往往只能覆盖训练过的范围，一旦换个词、改个顺序，准确率就大幅下降，价值不大。

覃睿

从我的角度看，用 RL 来做 memory 是一个可以尝试的实验方向，但也存在明显问题，更新太慢，无法实时响应用户的每一句话。这导致短期记忆往往丢失，长期记忆或许能做一些实验，但确实感觉 ROI 有限。

我们在其他任务中通过 RL 的方式优化模型是发现蛮有用的，但除了代码和数据等场景外，其他类型任务的反馈很难收集。尤其是把 RL 用在记忆上，很难验证用户反馈是否真的表示满意，意图收集和理解也非常模糊。

回到刚才的话题，您提到两个重要点：一是 agent 训练 agent，二是 memory。对于 self-evolving 概念的理解，是不是把 agent 放到一个开放环境里，让它自己探索、总结方法，然后沉淀下来？

👨🏻‍💻 宜博

可以分两种情况。第一种是 agent 训练 agent：一个 agent 创建新的 agent，探索方法，并在训练过程中对每一步进行反馈。第二种更有效的方式是人类反馈，用户在与 AI 交互时，其实带着需求、经验和评价标准。即使只说一句话，也隐含很多背景。当用户进行多轮反馈时，实际上就是在训练 agent。这也是为什么 RLHF（Reinforcement Learning from Human Feedback）非常有价值，它能把人类的偏好、经验和共识抽取出来，沉淀为 memory。

覃睿

但我们实践中发现，用户往往比较懒。如果产品没有带来惊艳体验，用户甚至不愿继续使用，更别说耐心地提供反馈。

👨🏻‍💻 宜博

没错，这就需要引导。首先，用户必须相信你的产品能把事情做好；其次，他得有足够的预算，否则不会投入时间和精力；最后，他必须真正感到痛点足够大，否则不会持续使用。这是当下最大的挑战：如何打破用户习惯，让他们相信 AI 能把事做对，从而愿意投入时间进行多轮互动。

覃睿

我同意。目前 Chatbot 已经跨越了鸿沟，从尝鲜者进入到了大众市场。但 Agent 类产品还处在创新者曲线的早期阶段，还没跨越“鸿沟”。多数用户是尝鲜者，早期大众群体并未真正接受。特别是纯业务人员，他们往往缺乏技术背景，还没有从心理上完全认可大模型的能力。因此，指望他们持续提供高质量反馈其实比较奢侈。

当下大多数公司仍主要依赖机器反馈，比如用 GPT-4.1 或 Claude 来解决复杂问题。但如果换成千问或 DeepSeek 等开源模型，就难以胜任复杂任务。我们因此自己训练了一个模型，目前效果接近 GPT-4.1，能够支持企业私有化部署。

在这种模式下，几乎无法依赖人工反馈。我们采用的是蒸馏方法：先让更强的大模型生成高质量答案，然后由模型来比较、评估，再进行训练。这种方式可以让模型快速迭代，但要想超越 OpenAI，在关键场景里仍然需要专家反馈。问题在于，找到愿意共创的专家用户周期长、沟通成本高、迭代效率低，这也是落地中的最大挑战之一。

👨🏻‍💻 宜博

所以你们已经在做合成数据相关的工作了。

覃睿

是的。我们主要关注的是：合成后的数据能否提升模型效果，评分是否更高。目前只能依赖模型来评判，还无法依靠专家。因为如果没有专家输入明确的 know-how，指出在特定场景中什么才是正确做法，那么场景逻辑只能由模型自动生成，这就很难突破上限。

👨🏻‍💻 宜博

没错。

姚顺雨也提到过，未来企业的核心在于构建自己的数据和评价体系，也就是测试体系。绝大多数公司都没有形成数据闭环。数据飞轮很难建立，而关键就在于如何用一部分数据去评价另一部分数据的价值。

李飞飞当年做 ImageNet 时，就是把标注数据分成训练集和测试集。问题在于：数据从哪里来？如何评测？如何训练？更重要的是，如何实现数据的自增长和自动标注？这些都是未来 AI 公司必须面对的核心问题。

To B vs To P：商业化的不同选择

覃睿

您目前的项目主要是 To C，对吗？

👨🏻‍💻 宜博

我们 To B 的部分是开源的。毕竟要让企业真正用起来，需要强大的销售网络和客户资源，而我们没有，所以选择用开源方式让大家直接使用。与此同时，我们通过 To C 的闭源产品在海外变现，以支持研发。我们发现开源和 To C 的用户完全不同，几乎没有重叠。开源用户通常不会付费，而闭源用户也完全不会去看开源代码，这是两类完全独立的群体。

覃睿

在做这个项目之前，您有过海外市场的经验吗？

👨🏻‍💻 宜博

没有，这是我们第一次尝试。我们就像小学生，需要向大家请教如何做海外市场、如何推广。

覃睿

那在前后对比中，有没有让您感到认知反差的地方？

👨🏻‍💻 宜博

最大的感受是，AI 产品出海和以往的跨境电商或 SaaS 出海完全不同。过去的打法和经验在 AI 时代并不好用。好在大家都在同一起跑线，即使是“新手”，差距也没有那么大，这反而是我们的机会。

覃睿

有意思。因为海外 To B 太重了，派驻人员也不现实，所以基本还是 To C。

👨🏻‍💻 宜博

对。海外 To B 需要长期耕耘，成本太高，我们目前主要做海外 To C。但更准确来说是 To P（面向专业人士），因为 AI 产品真正的消费级 C 端市场非常有限。现在 AI 的 C 端主要集中在一些小众消费场景，比如图片、视频、音乐生成。大多数生产力工具类场景，实际上是 To P，有人还创造了一个新词叫 “Prosumer”，即既是专业人士，也是消费者。

覃睿

您认为 Prosumer 主要是哪些群体？

👨🏻‍💻 宜博

核心群体是有专业技能的脑力劳动者，例如医生、程序员、设计师、律师、研究员、证券分析师等，尤其是高价值的岗位。低价值的脑力劳动者往往负担不起。比如国内 HR 本身成本就很低，没有必要用 AI 去替代，但猎头成本高，就值得用 AI 来替代。

再比如投资公司的一二级市场研究员、实习生，他们的工作多是重复性、搜索性的脑力劳动，容易被 AI 取代。还有低端程序员，过去只会 Ctrl+C、Ctrl+V 的人未来会被淘汰。新毕业生找不到工作，缺乏从初级程序员成长为高级架构师的路径。

覃睿

那只能尝试独立开发。

👨🏻‍💻 宜博

对。他们可能会选择成为独立开发者，做“一人公司”，从 Day 1 就开始创业。在美国，这已经成风潮：很多学生在大二就创业，拿到几百万甚至上千万美金的融资。

覃睿

相当于是被迫走出一条新路。

👨🏻‍💻 宜博

是的，世界正在加速分化。

覃睿

能否分享一两个您观察到的有趣的用户使用 lemonAI 的场景？

👨🏻‍💻 宜博

第一个付费用户的场景特别有意思。你可能想不到，他是用来买彩票的。

覃睿

买彩票？这怎么用 AI？

👨🏻‍💻 宜博

他把福彩的历史数据全部导入，让 Lemon AI 编写统计和回测算法，并做成 Web 应用。根据回测结果，他选择概率更高的号码下注。

他自己懂彩票的业务逻辑，比如冷热号、回测率、排除法等，但不会写代码，所以找我们帮他做系统。一上来就付费，我们也专门拉了技术团队为他开发。

覃睿

本质上还是软件外包，只是 AI 在其中承担了主要角色。

👨🏻‍💻 宜博

对。AI 相当于他的 CTO 或研发部门。现在很多付费场景都是这种拟人化的角色替代。比如 Cursor，本质上就是雇了一个“程序员”。用户以前只是执行者，现在有了 AI，就像雇了一组“下属”帮忙写代码。海外律师、招聘等场景也是类似逻辑，把 AI 当作专业角色使用。

大厂 vs 初创：船小好调头，灵活才是优势

覃睿

提到 Claude Code 这类场景，比如业务专家自己想写一个程序，可能会直接用像 Claude Code 这样的工具。我觉得这类产品对我们做通用 Agent 的公司来说威胁不小，您怎么看？

👨🏻‍💻 宜博

我认为这类产品的用户群和我们并不重叠。Claude Code 的用户主要是程序员，它的天花板就是全球大约 3,000 万开发者。普通用户不会用命令行或编程接口，因此不会是 Claude Code 的目标用户。

覃睿

但如果他们把产品做得更易用呢？

👨🏻‍💻 宜博

那就会演变成另一类产品，而不是 Claude Code ，本质上，Claude Code 的边界很清楚。

覃睿

更大的问题可能是，如果 Claude 或 OpenAI 直接做通用 Agent，会不会对我们构成威胁？在产品化方面，Claude 的潜力似乎比 OpenAI 更大。

👨🏻‍💻 宜博

我不认为大模型公司能把通用 Agent 做好。一个公司像一个人，精力有限，不可能在模型和 Agent 两个方向同时做到极致。要么专注于模型训练，要么专注于 Agent 应用。创业型大模型公司团队规模有限，更难兼顾。

相比之下，大厂有可能做到，比如阿里、华为这样的集团可以投入上千人的团队来开发 Agent。但大厂的问题在于是否能找到合适的“将才”，带领团队把产品从 0 做到 1，再从 1 推到 1 万，这样的领导者极为稀缺。大厂内部层级复杂，试错机会有限，一个项目如果一年见不到成果就可能被砍掉。相比之下，创业公司更灵活，船小好调头，可以快速试错。

因此我并不担心大模型公司和大厂的竞争，唯一要避免的是不要站在大厂的主赛道上，比如钉钉、微信，这类赛道大厂一定会倾尽全力，外部公司根本打不过。大模型本身就是大厂的战略必争之地，我们无法在这个赛道与他们正面竞争。但在应用层，尤其是泛化和垂直场景，大厂没有明显优势。无论是美国七大厂还是中国头部厂商，目前都没有一家做出类似 Manus 这样的通用 Agent。

本作品采用知识共享署名 4.0 国际许可协议进行许可

通用agent观点:回访，对谈 LemonAI 创始人宜博

文章评论