Meta最新研究RecoWorld，从「猜你喜欢」到「听

互联网 0 24

本条新闻为单纯事实消息的时事新闻，转载自机器之心Pro，版权归源站所有，如有侵权，烦请联系我们。

大家每天都在和推荐系统打交道。无论是刷短视频、逛电商、听音乐还是看新闻，背后都有一套「聪明」的算法在猜测你可能喜欢什么。但你是不是偶尔觉得推荐内容千篇一律？这其实暴露了传统推荐系统的一个核心问题：它们大多数是基于过去数据来预测，被动的「猜你喜欢」，而缺乏和你真正的互动。

最近，Meta 推荐系统团队提出了一个全新的思路 ——RecoWorld。

RecoWorld的独特之处在于其双视图架构：模拟用户和智能体推荐系统进行多轮交互，旨在最大化用户留存率。

用户模拟器会查看推荐商品，更新其思维模式，并在察觉到用户可能脱离互动时生成反思性指令。智能体推荐系统则通过整合这些用户指令和推理轨迹，调整其推荐内容，形成一个主动吸引用户的动态反馈循环。这一过程利用了大语言模型出色的推理能力。

研究者探索了模拟器中的多样内容表示形式，包括基于文本、多模态和语义ID建模，并讨论了多轮强化学习如何使推荐系统通过迭代交互来不断完善其策略。RecoWorld还支持多智能体模拟，允许创作者模拟目标用户群体的响应。它标志着向一个新的推荐系统迈出了重要的第一步，在这个系统中，用户和智能体共同塑造个性化的信息流。他们设想了一种新的互动范式：「用户指令，推荐系统响应」，共同优化用户留存和参与度。

论文标题：RecoWorld: Building Simulated Environments for Agentic Recommender Systems
论文链接：https://arxiv.org/abs/2509.10397

它不仅是一个推荐算法，而是一个「虚拟世界」，让推荐系统和模拟用户能在里面进行交互、反馈和优化，做到「你说我改」。

为什么推荐系统需要「进化」？

过去，研究人员想改进推荐系统，主要有两种办法：

1.用历史数据做离线评估：但这样容易「路径依赖」，系统会在老套路里兜圈子。

2.做线上 A/B 测试：能看到真实用户反馈，但风险很高，测试失败就可能伤害用户体验。

而随着「智能体（Agentic RecSys）」概念兴起，推荐系统不再只是被动推送，而是能理解指令、主动学习，甚至根据用户的语音、行为即时调整推荐。为训练 agentic recsys，Meta 提出 RecoWorld：一个仿真环境，把「模拟用户」和「推荐系统」放进一个虚拟世界，让它们多轮互动，避免和真实用户交互损害用户体验。

RecoWorld 是怎么工作的？

RecoWorld 的核心是一个「虚拟对手戏」。一边是「模拟用户」，会点击、跳过、点赞、抱怨等；另一边是「智能体推荐系统」，会根据这些反馈不断调整推荐内容。两者来回互动，帮助推荐系统学会如何真正留住用户。

关键要素与流程：

模拟用户（User Simulator）：像真人一样，它会抱怨、会点赞，还会给指令。比如说：「别再给我推美妆了，换点别的！」

大语言模型强大的推理和内容理解能力为模拟人类行为提供了巨大的潜力。研究者通过预测用户在看到推荐商品列表时的下一步操作来模拟真实用户的行为。

如图 2 所示，模拟用户针对每个商品的操作空间 A 包括：(1) 点击、(2) 评论、(3) 分享、(4) 点赞、(5) 观看 [指定时长（以秒为单位）]、(6) 跳过以及 (7) 离开会话。

如果用户选择离开（操作 7），系统会提示他们反思体验，说明不满意的原因，并向 RecSys 提供改进说明，或者用户可以直接退出，无需进一步输入。

用户的决策受到当前环境 C 和过去交互 H 的影响。如图 2 所示，研究者考虑与用户相关的环境因素，例如时间（一天中的时间、季节性）、人口统计（年龄、性别、位置等）、行为（花费的时间、搜索查询等）和社会联系（团体关系等）。

会话从用户打开应用程序开始，到用户退出应用程序结束。每个推荐都会呈现一个包含 k 个项目的列表，这些项目是从候选集 C 中选择出来的，并按顺序显示。

智能体和模拟用户可能在会话中多次交互，例如，用户请求更多有趣的内容，智能体会更新列表。每个列表显示后都会生成奖励信号。至关重要的是，其目标是优化长期用户留存作为奖励信号，即最大化会话时长并最小化会话间隔，这与每日活跃用户 (DAU) 相关。

具体来说，模拟用户会逐一浏览每个推荐。对于每个项目，用户需要采取三个步骤：1. 仔细思考：你回应的理由是什么？2. 采取行动：写下你实际会做的事情。3. 更新你的思维方式：这会如何影响你当前的想法？

图 3 显示了一个汇总表，其中包含初始模拟器结果，包括模拟用户对每个项目的操作和理由。

智能推荐（Agentic RecSys）：像一个聪明助手，会调整推荐内容，努力把你留下来。比如说：「好的，这里有一些新鲜的推荐！」
动态反馈循环：用户给指令 → 推荐系统调整 → 用户再反馈 → 系统再优化…… 就像一场双向对话。

除此之外，RecoWorld 的设计不仅局限于单一用户层面，它还能构建多用户、多群体的交互场景。这意味着，创作者可以在里面测试不同的内容策略，比如：

如果我一天发三条视频，粉丝会不会嫌烦？
如果我尝试一个争议话题，会带来更多流量还是掉粉？

这些问题都能在 RecoWorld 里先「演练」，再决定是否在真实世界尝试。未来的推荐系统可能会变成这样：

你说一句：「别再给我发型视频了」，系统立刻调整。
你想学吉他，它不会只给你「吉他教学视频」，还会根据你的坚持程度，逐步推荐合适的练习曲。
甚至你刷短视频刷累了，系统能主动察觉你的疲惫，推荐一些轻松、治愈的内容。

换句话说，推荐系统正在从「猜你喜欢」变成「听你说话」，从「冷冰冰的算法」变成「能交流的伙伴」。

为什么说这是「第一步」？

RecoWorld 并不是一个最终产品，而是一个基础设施。它像 OpenAI 的 Gym 之于强化学习一样，为推荐系统研究搭建了一个安全的试验场。研究人员和开发者可以在里面测试新算法、对比不同模型，甚至建立一个「排行榜」，让全球团队公平切磋。这意味着：

推荐系统的研发会更快，试错成本更低；
创作者有了「内容风洞」，可以先预测受众反应；
普通用户未来会遇到更聪明、更懂你的推荐。

总结

从单向推送到双向互动，从「算法支配用户」到「用户指挥算法」，RecoWorld 代表了一种全新范式。未来推荐系统不仅仅是「信息过滤器」，而是一个能和我们对话、一起探索兴趣的「数字伙伴」。

在这一框架下，推荐不再是静态的预测，而是一个不断演化的交互过程。或许今后，当你说：「推荐点更有意思的吧」，你的推荐系统就真的能理解，并回应：好的，我猜你可能会喜欢这个。RecoWorld 的设计愿景，正是推动推荐系统向更高水平的人机共建与兴趣探索迈进。

这，就是 RecoWorld 想带来的未来。

更多详见原论文：https://arxiv.org/abs/2509.10397

点赞 0 收藏(0)

0个评论

消灭零评论