01
从低代码到通用 Agent:十年的三次转身
覃睿
请您简要介绍一下个人经历和公司情况。
👨🏻💻 宜博
各位 BISHENG 的同学和用户大家好。我是宜博,lemon AI 的创始人。lemon AI 专注于全栈开源的通用智能体,我们称之为 L3 级别的 Agentic agents。与以往方案不同,我们采用虚拟机架构,而非直接运行在本地电脑环境中。如果没有虚拟机,本地就缺乏隔离:要么缺乏编程和搜索能力,要么代码执行会占用或影响原有资源和文件。基于虚拟机的架构可以实现并行调度多个实例,理论上可扩展到上万台,用于同时执行一个或多个任务。
我们最初是在锦秋小饭桌认识的。覃老师把 BISHENG 做得非常出色,尤其在商业化方面。lemon AI 从 2023 年 5 月开始探索 workflow 方向,当月推出了国内这个方向较早的产品 LLMFarm ,同年5月底 Dify 发布,11 月 Coze 发布。总体来看,大家是同行,但 BISHENG 在商业化和金融行业客户拓展上更为领先,已经形成了以 workflow agents 变现的成熟模式。相比之下,Dify 主要依靠海外市场变现;我认为 BISHENG 在国内应该是 workflow agents 开源领域商业化第一。
覃睿
感谢感谢,希望未来能继续合作交流。
一起努力。我们目前转向 Agentic agents,并在 8 月上线了一个线上版本,进行了一次接近 L4(Innovator)形态的尝试:让 agents 自主开发 agents,使其具备自我迭代能力,我们称之为 self-evolving(也可理解为 self-learning)。自 8 月 8 日发布以来,已有约 1,000 名全球用户在使用。
下周我们计划发布一个新版本——通用 AI Editor。其核心是支持“人机协同反复修改”,将结果持续打磨至可直接交付。我们在验证 agents 时发现这是一个关键需求。
过去三个月我主要使用 Genspark 制作 PPT。它已经具备“反复修改直至可交付”的能力,但功能仍局限于 PPT、Word、Excel,对于 agents 最终产出的通用结果(如 HTML 或 Markdown)支持不足。因此,我们在 lemon AI 上实现了通用 agent editor:无论是 Web 编码还是深度研究,只要结果以 HTML 呈现,就能持续迭代和改进,该功能预计下周上线。
覃睿
能否再谈谈您的过往经历?
我从 2013 年开始创业,本科是 2004 年计算机专业毕业,最初在用友工作一年多,之后去德国待了四年多。2010 年回国后进入大客户销售,但发现销售并不利于创业,于是去清华读 MBA。2013 年毕业后开始创业,做了第一个项目。2014 年创办现在的公司,最初聚焦办公 LLM 市场,推出产品 WorkingChat。但 2015 年钉钉上线,我们受到很大冲击。2016 年团队达成共识:不能总跟随市场,而要布局 5~10 年后的趋势。我们认为未来机器一定会替代部分人工,而我们的优势在于技术,所以选择了“机器替代人写代码”的方向。
当时我们提出 NL2Code,用自然语言模型(如 BERT)理解需求,生成代码。2017 年在美国被称为 VPL(Visual Programming Language,可视化编程语言)。我们选择面向大 B 客户,帮助他们进行快速开发和迭代。学习强国、云上会展等大型项目背后都有我们的参与。
覃睿
非常超前。
是的。疫情之后,大客户付款问题对我们影响很大。2022 年 GPT 出现,上半年我们没有太在意,但下半年 ChatGPT 爆发,我们意识到原有路线被彻底颠覆:NL2Code(自然语言转代码)转向了基于大语言模型的代码生成。于是 2023 年初,我们推出了第一个相关产品 ChatBI,用户只需接入数据库或上传 Excel,系统即可自动生成 SQL 并绘制低代码图表,一个月内吸引了 3000 多用户,其中不少是付费用户。
然而 2023 年 4 月国家发布《生成式人工智能服务管理办法(征求意见稿)》,几天后我们的产品被微信下线,我们判断 To C 模式风险过高,遂转向 To B。结合低代码经验,我们在短时间内开发了全国首个 Workflow Agent——大模型农场(LLMFarm)。该产品 5 月上线,6 月实现商业化,到年底已积累十余家客户,包括华润、阿里国际站和桔子数科等。
但 2023 年 10 月 Coze 上线并快速推广,大家发现效果很好,客户开始寻找替代方案,转而关注 Dify 和 FastGPT。我们难以清晰阐明差异,逐渐沦为服务型公司,甚至被客户要求直接基于他人产品做定制,这让我们陷入困境。
2025年 3 月 Manus 发布,我们意识到时代再次发生变化,于是整合已有积累,并在 5 月 28 日推出开源全栈 AI Agents。一个月内下载量超过一万,GitHub star 也在增长。7 月上线了线上版本,并持续探索更高阶段的发展。
02
L1-L5 并行:AI 的快思考与慢思考
我们认为,AGI 的发展不是串行的,而是并行推进的。L3、L4、L5 可以同时演进。早期只能做 Workflow Agent,是因为模型能力有限;随着能力提升,更多层次应用才成为可能。工程手段对模型落地至关重要,因此我们专注于如何在现有模型能力基础上,通过工程方法不断推出可交付的应用。
覃睿
您刚才提到 L1 到 L5 是并行发展的。能否具体解释一下?我的理解是:即便模型越来越强,L1 的对话、L2 的推理、workflow 的需求仍然存在,只是会更好用,而不会消失。
是的。可以打个比方:L1 相当于人的快思考,L3 相当于人的慢思考。比如,你让助手帮忙订机票,说“明天早上 8 点左右从上海回北京”。助手的第一反应可能是:“好像有一班 8 点半的国航,从虹桥到首都机场。”这种回答基于经验和知识记忆,反应很快,但往往不够准确。
如果你要求“请帮我核实并订票”,助手就需要进行规划:第一步去哪个平台(携程、去哪儿或国航官网);第二步输入出发地和目的地;第三步筛选结果,找出 8 点左右的航班,并比较价格、舱位、到达机场等。最后助手才会给出准确的选项,例如“8:35、8:45、8:55 各有航班,分别多少钱,分别到大兴或首都机场”。这个过程就是“慢思考”。它经过推理、分解和验证,结果准确、可靠。相比之下,“快思考”只是基于直觉和已有经验的快速回答。
人类每天做上千个决策,其中大多数是下意识的快思考,例如走路迈哪只脚、吃饭用哪只手。但在关键问题上,比如高考志愿填报、公司战略制定、撰写重要报告,就需要慢思考:拆解问题、搜集信息、请教专家、权衡比较,最后做出决定。
AI 也是如此。L1 和 L3 是同时存在的:既需要快思考来快速响应,也需要慢思考来处理复杂、重要的任务。
覃睿
您刚才提到过 Manus 和 Genspark,在观察它们的产品演进时,您觉得各自的思路是什么?我感觉它们最初很像,但现在差别越来越大。您怎么看待它们的路线,以及与它们在通用智能体上的竞争?
他们都在做通用智能体,但底层逻辑不同。Manus 认为未来 AI 会替代虚拟世界,而虚拟世界的底层是代码,因此所有问题都能通过写代码解决。它的界面统一,所有需求都通过生成代码来完成,这是它的核心哲学。
Genspark 更像导航站或应用矩阵。团队认为用户在不同场景下需要不同的轻量化工具,因此提供了 AI PPT、AI Word、AI Excel、AI 播客、AI 视频、AI 图片等应用,未来还可能接入第三方,用户进入一个垂直场景,就能直接获得结果。所以,Genspark 更像应用商店,而 Manus 更像“用代码解决一切”的平台。
覃睿
我看到有人评论 Genspark 是 “AI 界的 4399”,做了一堆小游戏。
是,我也看到过,当时我们也考虑过要不要走这两条路径,但最终认为都不合适,选择了第三条。
覃睿
您指的是什么路径?
我们专注 L4 和 L5 的路径,而不是在 L3 上竞争。我们已将类似 Manus 的内核开源,相当于完成了基于代码的通用框架。但真正能产生最大价值的,是 L4 和 L5。我们的目标是推动 L1 到 L5 的整体演进。
还有一个有趣的现象:美国投资人常问,为什么美国公司多做垂直场景的 agents,而中国公司更倾向于 all-in-one,美国市场几乎没有通用 agent 的投资标的。
我认为这与文化有关。中国用户和公司更习惯“大而全”的产品,比如微信、支付宝、淘宝;而美国市场相对分散。马斯克也曾羡慕微信,希望打造类似的超级应用。既然基础模型是通用的,美国投资人也认同未来智能体会走向通用化。
覃睿
但这未必能覆盖全部市场,还要看通用型智能体能占多大份额。
没错,不会覆盖 100%,但一定是主导力量。而在研发上,中国团队更具优势:工程能力强,也擅长做大而全的系统。目前全球能做通用 AI agent 的团队不超过十几个,大多是中国人或华人团队。
03
创新的两条路径:要素重组与自我进化
覃睿
您刚才提到团队选择突破的方向是 L4、L5。能否具体谈谈,您是如何构思所谓 AGI 五个阶段中 L4 “创新者”的产品逻辑?
关于创新,我理解有两种方法论。第一种是原有要素的重新组合。比如新药研发,本质上就是把已知药物的分子重新排列组合,再逐一验证疗效。前段时间有研究通过 AI 进行了上千万次组合,发现了一种人类 30 多年来未曾找到的新型抗生素,这就是典型案例。
第二种方法是自我迭代。正如杨植麟在一次采访中提到的,未来的 L4 可以理解为“让模型来训练下一代模型”,即 AI 可以开发新的 AI,agent 可以生成新的 agent。这也是一种创新。我很认可这种观点,因此我们提出 self-evolving:让模型训练模型,让 agent 迭代 agent,实现自我进化。
覃睿
这和您之前提到的 self-evolving 概念是一致的。
对。相关论文也指出,自我进化(self-evolving)是迈向超级智能(ASI)的必经之路。一旦系统具备自我意识并超越人类能力,它会像孩子成长一样,不断学习、不断迭代。
覃睿
那它学习和积累下来的东西,存储形态会是什么?
就是 memory,无论是长时记忆还是短时记忆,实质都是模型的记忆机制。人的大脑也在不断进化,逐渐形成对世界的感知和理解,可以类比为一种 world model。眼、耳、鼻、舌、身是感知外界的器官,而“意”才是大模型——我们真正的智能所在。它每天都在迭代。
人的记忆还带有压缩特性。我们不会完整记录每个细节,而是提取关键信息:一句话、一个场景、一段经历,存入海马体。今天很多工程化的 long memory、short memory 设计,实际上都在模仿这种机制。
覃睿
我最近听到有人提到,他们尝试用强化学习来改进 memory。您怎么看?
我个人并不认同。我们已经从强化学习时代进入大模型时代,原因就在于强化学习无法泛化,也无法产生真正的智能。它在固定环境、固定反馈和固定奖励函数下有效,可以提升某些局部环节的表现,但它不具备普适性。
比如 DeepSeek 在训练时会在某个环节引入 RL,这是合理的。但 RL 不能替代 LLM。我认为更好的方式是大模型 + 上下文工程(context engineering),这样泛化效果更强,能适应不同环境、参数和场景。相反,如果依赖强化学习,结果往往只能覆盖训练过的范围,一旦换个词、改个顺序,准确率就大幅下降,价值不大。
覃睿
从我的角度看,用 RL 来做 memory 是一个可以尝试的实验方向,但也存在明显问题,更新太慢,无法实时响应用户的每一句话。这导致短期记忆往往丢失,长期记忆或许能做一些实验,但确实感觉 ROI 有限。
我们在其他任务中通过 RL 的方式优化模型是发现蛮有用的,但除了代码和数据等场景外,其他类型任务的反馈很难收集。尤其是把 RL 用在记忆上,很难验证用户反馈是否真的表示满意,意图收集和理解也非常模糊。
回到刚才的话题,您提到两个重要点:一是 agent 训练 agent,二是 memory。对于 self-evolving 概念的理解,是不是把 agent 放到一个开放环境里,让它自己探索、总结方法,然后沉淀下来?
可以分两种情况。第一种是 agent 训练 agent:一个 agent 创建新的 agent,探索方法,并在训练过程中对每一步进行反馈。第二种更有效的方式是人类反馈,用户在与 AI 交互时,其实带着需求、经验和评价标准。即使只说一句话,也隐含很多背景。当用户进行多轮反馈时,实际上就是在训练 agent。这也是为什么 RLHF(Reinforcement Learning from Human Feedback)非常有价值,它能把人类的偏好、经验和共识抽取出来,沉淀为 memory。
覃睿
但我们实践中发现,用户往往比较懒。如果产品没有带来惊艳体验,用户甚至不愿继续使用,更别说耐心地提供反馈。
没错,这就需要引导。首先,用户必须相信你的产品能把事情做好;其次,他得有足够的预算,否则不会投入时间和精力;最后,他必须真正感到痛点足够大,否则不会持续使用。这是当下最大的挑战:如何打破用户习惯,让他们相信 AI 能把事做对,从而愿意投入时间进行多轮互动。
覃睿
我同意。目前 Chatbot 已经跨越了鸿沟,从尝鲜者进入到了大众市场。但 Agent 类产品还处在创新者曲线的早期阶段,还没跨越“鸿沟”。多数用户是尝鲜者,早期大众群体并未真正接受。特别是纯业务人员,他们往往缺乏技术背景,还没有从心理上完全认可大模型的能力。因此,指望他们持续提供高质量反馈其实比较奢侈。
当下大多数公司仍主要依赖机器反馈,比如用 GPT-4.1 或 Claude 来解决复杂问题。但如果换成千问或 DeepSeek 等开源模型,就难以胜任复杂任务。我们因此自己训练了一个模型,目前效果接近 GPT-4.1,能够支持企业私有化部署。
在这种模式下,几乎无法依赖人工反馈。我们采用的是蒸馏方法:先让更强的大模型生成高质量答案,然后由模型来比较、评估,再进行训练。这种方式可以让模型快速迭代,但要想超越 OpenAI,在关键场景里仍然需要专家反馈。问题在于,找到愿意共创的专家用户周期长、沟通成本高、迭代效率低,这也是落地中的最大挑战之一。
所以你们已经在做合成数据相关的工作了。
覃睿
是的。我们主要关注的是:合成后的数据能否提升模型效果,评分是否更高。目前只能依赖模型来评判,还无法依靠专家。因为如果没有专家输入明确的 know-how,指出在特定场景中什么才是正确做法,那么场景逻辑只能由模型自动生成,这就很难突破上限。
没错。
姚顺雨也提到过,未来企业的核心在于构建自己的数据和评价体系,也就是测试体系。绝大多数公司都没有形成数据闭环。数据飞轮很难建立,而关键就在于如何用一部分数据去评价另一部分数据的价值。
李飞飞当年做 ImageNet 时,就是把标注数据分成训练集和测试集。问题在于:数据从哪里来?如何评测?如何训练?更重要的是,如何实现数据的自增长和自动标注?这些都是未来 AI 公司必须面对的核心问题。
04
To B vs To P:商业化的不同选择
覃睿
您目前的项目主要是 To C,对吗?
我们 To B 的部分是开源的。毕竟要让企业真正用起来,需要强大的销售网络和客户资源,而我们没有,所以选择用开源方式让大家直接使用。与此同时,我们通过 To C 的闭源产品在海外变现,以支持研发。我们发现开源和 To C 的用户完全不同,几乎没有重叠。开源用户通常不会付费,而闭源用户也完全不会去看开源代码,这是两类完全独立的群体。
覃睿
在做这个项目之前,您有过海外市场的经验吗?
没有,这是我们第一次尝试。我们就像小学生,需要向大家请教如何做海外市场、如何推广。
覃睿
那在前后对比中,有没有让您感到认知反差的地方?
最大的感受是,AI 产品出海和以往的跨境电商或 SaaS 出海完全不同。过去的打法和经验在 AI 时代并不好用。好在大家都在同一起跑线,即使是“新手”,差距也没有那么大,这反而是我们的机会。
覃睿
有意思。因为海外 To B 太重了,派驻人员也不现实,所以基本还是 To C。
对。海外 To B 需要长期耕耘,成本太高,我们目前主要做海外 To C。但更准确来说是 To P(面向专业人士),因为 AI 产品真正的消费级 C 端市场非常有限。现在 AI 的 C 端主要集中在一些小众消费场景,比如图片、视频、音乐生成。大多数生产力工具类场景,实际上是 To P,有人还创造了一个新词叫 “Prosumer”,即既是专业人士,也是消费者。
覃睿
您认为 Prosumer 主要是哪些群体?
核心群体是有专业技能的脑力劳动者,例如医生、程序员、设计师、律师、研究员、证券分析师等,尤其是高价值的岗位。低价值的脑力劳动者往往负担不起。比如国内 HR 本身成本就很低,没有必要用 AI 去替代,但猎头成本高,就值得用 AI 来替代。
再比如投资公司的一二级市场研究员、实习生,他们的工作多是重复性、搜索性的脑力劳动,容易被 AI 取代。还有低端程序员,过去只会 Ctrl+C、Ctrl+V 的人未来会被淘汰。新毕业生找不到工作,缺乏从初级程序员成长为高级架构师的路径。
覃睿
那只能尝试独立开发。
对。他们可能会选择成为独立开发者,做“一人公司”,从 Day 1 就开始创业。在美国,这已经成风潮:很多学生在大二就创业,拿到几百万甚至上千万美金的融资。
覃睿
相当于是被迫走出一条新路。
是的,世界正在加速分化。
覃睿
能否分享一两个您观察到的有趣的用户使用 lemonAI 的场景?
第一个付费用户的场景特别有意思。你可能想不到,他是用来买彩票的。
覃睿
买彩票?这怎么用 AI?
他把福彩的历史数据全部导入,让 Lemon AI 编写统计和回测算法,并做成 Web 应用。根据回测结果,他选择概率更高的号码下注。
他自己懂彩票的业务逻辑,比如冷热号、回测率、排除法等,但不会写代码,所以找我们帮他做系统。一上来就付费,我们也专门拉了技术团队为他开发。
覃睿
本质上还是软件外包,只是 AI 在其中承担了主要角色。
对。AI 相当于他的 CTO 或研发部门。现在很多付费场景都是这种拟人化的角色替代。比如 Cursor,本质上就是雇了一个“程序员”。用户以前只是执行者,现在有了 AI,就像雇了一组“下属”帮忙写代码。海外律师、招聘等场景也是类似逻辑,把 AI 当作专业角色使用。
05
大厂 vs 初创:船小好调头,灵活才是优势
覃睿
提到 Claude Code 这类场景,比如业务专家自己想写一个程序,可能会直接用像 Claude Code 这样的工具。我觉得这类产品对我们做通用 Agent 的公司来说威胁不小,您怎么看?
我认为这类产品的用户群和我们并不重叠。Claude Code 的用户主要是程序员,它的天花板就是全球大约 3,000 万开发者。普通用户不会用命令行或编程接口,因此不会是 Claude Code 的目标用户。
覃睿
但如果他们把产品做得更易用呢?
那就会演变成另一类产品,而不是 Claude Code ,本质上,Claude Code 的边界很清楚。
覃睿
更大的问题可能是,如果 Claude 或 OpenAI 直接做通用 Agent,会不会对我们构成威胁?在产品化方面,Claude 的潜力似乎比 OpenAI 更大。
我不认为大模型公司能把通用 Agent 做好。一个公司像一个人,精力有限,不可能在模型和 Agent 两个方向同时做到极致。要么专注于模型训练,要么专注于 Agent 应用。创业型大模型公司团队规模有限,更难兼顾。
相比之下,大厂有可能做到,比如阿里、华为这样的集团可以投入上千人的团队来开发 Agent。但大厂的问题在于是否能找到合适的“将才”,带领团队把产品从 0 做到 1,再从 1 推到 1 万,这样的领导者极为稀缺。大厂内部层级复杂,试错机会有限,一个项目如果一年见不到成果就可能被砍掉。相比之下,创业公司更灵活,船小好调头,可以快速试错。
因此我并不担心大模型公司和大厂的竞争,唯一要避免的是不要站在大厂的主赛道上,比如钉钉、微信,这类赛道大厂一定会倾尽全力,外部公司根本打不过。大模型本身就是大厂的战略必争之地,我们无法在这个赛道与他们正面竞争。但在应用层,尤其是泛化和垂直场景,大厂没有明显优势。无论是美国七大厂还是中国头部厂商,目前都没有一家做出类似 Manus 这样的通用 Agent。
文章评论