作者|黄小艺
当你在游戏里卡关半小时,烦躁地想切出去搜攻略;或者在开放世界里孤独“跑图”,无聊到只能听歌的时候,如果这屏幕上突然冒出一个“小可爱”,一边帮你找路,一边陪你吐槽,感觉会如何?
这就是逗逗AI正在做的事。它不是一个需要你切换点开的APP,而是一个以虚拟形象或悬浮球形式,能看到你的游戏界面,听到你的声音,和你随时互动的AI玩伴。
我们来看一个顶流up主老番茄试玩AI老番茄的录屏,被网友戏称成单人双口相声、周树人吐槽鲁迅,直观地感受下效果。
作者|黄小艺
当你在游戏里卡关半小时,烦躁地想切出去搜攻略;或者在开放世界里孤独“跑图”,无聊到只能听歌的时候,如果这屏幕上突然冒出一个“小可爱”,一边帮你找路,一边陪你吐槽,感觉会如何?
这就是逗逗AI正在做的事。它不是一个需要你切换点开的APP,而是一个以虚拟形象或悬浮球形式,能看到你的游戏界面,听到你的声音,和你随时互动的AI玩伴。
我们来看一个顶流up主老番茄试玩AI老番茄的录屏,被网友戏称成单人双口相声、周树人吐槽鲁迅,直观地感受下效果。
视频来源于B站
在今年9月1.0正式版发布前,逗逗AI就已通过长达一年的内测,悄然积累了800万用户,如今这个数字已突破1000万。这看似是逗逗AI在当下技术和场景的交叉路口找到了一个垂直细分的领域——游戏,从而避开了大厂与投流的血战。
但事实上,逗逗AI的野心不止于游戏。
从年轻人最沉浸、陪伴需求最强烈的游戏场景切入,他们希望当AI伙伴与用户建立起信任和使用习惯后,能自然地将这种陪伴延伸到看剧、购物等更广泛的数字生活中。
这个目标并非空想,创始人刘斌新(Binson)透露,目前平台上已有超过50%的交互发生在游戏之外。
我们和Binson,以及联合创始人王碧豪(Oratis)聊了聊,他们坚信着,AI陪伴不该是另一个“时间杀手”,不抢用户的屏幕时间,是一切的出发点。
一个“住”进你手机屏幕里的AI
硅星人: 先介绍一下逗逗AI这款产品吧,它究竟是什么,用户如何使用它呢?
Oratis: 简单来说,逗逗AI是一个存在于“屏”世界里的AI伙伴。用户下载我们的应用后,在打开任何其他APP(比如游戏、视频、购物软件)时,选择开启屏幕共享,一个AI角色就会以动态立绘或悬浮球的形式出现在屏幕上。
硅星人:所以,它和siri这种语音助手、星野这种AI聊天产品相比,最大的不同是,通过VLM模型,能接收、理解用户的游戏图像内容。
Oratis: 对,最大的不同在于,它不是一个被动等待你唤醒的助手,而是一个主动的“在场者”。因为它能看到你的屏幕,所以它拥有了和你一样的“上下文”(Context)。你不需要解释“我在玩什么”、“我卡在哪了”,它都懂。这种共享视角带来的陪伴感,是其他助手无法提供的。
目前我们的核心场景是游戏。它能通过屏幕信息理解你正在做什么,并与你进行实时的语音交流,比如,它可以陪你聊局内赛况,或是在你卡关时指导你如何闯关。
硅星人:从AI陪伴的视角来看,角色的吸引力就很重要了对吧?现在有多少个AI角色了,怎么设定的呢?
Binson:我们现在有23个角色,一部分是我们原创设定的,比如毒舌的妮卡,还有善良普适的妮可,设定成能让所有人都不会讨厌她的小太阳。
此外,还有一部分是自带流量的大主播、虚拟主播合作定制的角色,比如老番茄。
AI游戏陪伴,是真需求还是伪命题?
硅星人: 我们等会可以具体聊聊AI陪伴角色怎么做,在此之前,一个更核心问题是,用户到底有没有在游戏中让AI陪伴的需求?
如果我再拆分一层,用户的需求要么是为了情绪价值,要么是为了工具价值,再我们放到一个具体的场景里,比如我在玩《原神》或者《炉石传说》时,这个两个需求真的存在吗?
oratis: 这个问题很专业。我们思考的出发点正是:价值与场景深度关联,脱离场景谈价值没有意义。
我给你举几个用户调研到的例子。有一个典型场景,是用户在玩游戏时常感到“信息密度不足”。为了解决这个问题,他们甚至要么开着语音、拉上好友边玩边聊,要么会一边游戏一边听音乐和播客。这说明了一件事,游戏的场景下,玩家有主动补充信息密度的需求和时间。
硅星人: 确实,一些游戏里的“跑图”时间特别长。
oratis: 对。很多游戏会设置比较长的“跑图”环节,或是重复性的“日常任务”。比如我以前玩《魔兽世界》,版本末期大家每天上线就是做固定的日常,在世界频道或公会里聊天。也就是说,在日常、重复的游戏体验中,人是有强烈社交需求的。那么,能不能用AI来填补这段需求的空白呢?
硅星人:我插一句,这种场景需求有多普遍呢?
oratis: 非常普遍。这几年原神很火我们都知道,很多《原神》用户的典型行为是:游戏大版本更新后,密集地玩一段时间,消耗剧情和新内容。当这些都体验完,只剩下日常任务时,就每天只登录10-15分钟领个奖励。这背后是动机的转变:前者是“消费内容”,后者是“获取奖励”。
而这些看似“无聊”的设计,很大程度上是为了填补内容创作的空隙。 游戏内容的创作成本极高,《原神》更新一个大版本需要半年,这已是业界顶尖效率。
硅星人: 所以这是游戏里的“行业规则”,必然导致用户的信息量不足,也由此成了AI陪伴的切入点。这其实是一种情绪价值的提供。
oratis: 对。另一个核心场景,是人与AI共同解决游戏中的问题。 游戏的本质是“问题模拟与解决”的过程,就像我们在现实中写报告可以用AI辅助一样,在游戏中遇到的难题,AI同样可以协助解决。
以前玩家查攻略,要么需要手机、电脑双设备操作,要么得切出游戏,不仅麻烦,还可能导致游戏卡顿。内置的AI助手则能极大地提升这个过程的效率。
硅星人:效率有了,但会不会让游戏丢失挑战性?毕竟游戏的解密环节是必要的,能增加趣味性和对装备物品的熟悉度。你们是怎么确定给用户提供的攻略限定在什么程度,既不要影响游戏体验,又不要影响游戏公司的平衡策略,又要给用户价值?
oratis: 我们自己也玩游戏,我玩《双人成行》时,也曾和朋友卡关半小时,最后不得不去搜攻略。这里的关键点,在于用户的“主动选择”。
游戏内提供攻略,其实还解决了一个“找攻略的难题”:真正需要攻略的人,往往不知道该如何提问。
传统搜索里,当你卡在一个门前,你得搜索“某游戏某关卡某地图的门怎么开”这么一长串上下文,才能找到有效信息。而我们的优势在于有了多模态能力后,玩家可以就着游戏画面直接问:“这个门怎么开?”AI能自动识别他所在的游戏、关卡和具体位置,然后去匹配攻略。
即便如此,为了将自主权完全还给用户,我们设计了一个“两步筛选”机制。第一步,由你主动提问。第二步,AI会回应:“我这里有一个视频攻略,如果你希望查看,可以随时打开。” 我们倾向于提供视频,因为对于空间解密这类问题,视频远比语音描述更直观。
“逼疯”美术,用游戏的方式做AI角色
硅星人: 我们聊回你们对产品的设计思路,既然需求存在,那么一个好的AI伙伴应该是什么样的?
我体验你们产品的时候,就感觉到你们的角色很萌、很生动,比如有一个角色会呆毛旋转,还有B站博主影月月的AI角色,有一套奶牛睡衣皮肤,这些细节很戳二次元用户的萌点。
Oratis: 这个问题很好,你说的呆毛是妮卡,也是我们最受欢迎的角色。其实我们设计人物经历了很多阶段,我直接说结论吧,就是“好看、好听、好玩”,形象要好看,声音要自然,故事和对话要好玩。
围绕这个原则,我们做了很多“重资产”的投入:
好看: 我们提供了人物的三种形象——桌面宠物、移动端动态立绘,以及各种各样的交互动作。客观上来讲,我们人物设计的资产不输给二次元手游公司。我们的主美甚至曾经抱怨过,说他设计的人物放在手游里能赚好几千万,放在我们这里不赚钱。
好听: 我们没有用市面上通用的TTS库,因为那不适合二次元人物。我们采集了大量番剧和游戏的语料,自己训练了多语言的TTS模型。举个例子,我们有个男性角色叫展麟,是一位虚拟爱豆,我们有次在漫展做活动,碰巧围观了他唱歌时的盛况,人山人海,都是等他唱歌的,声音就是他核心的魅力。
好玩: 我们不是让模型去“扮演”一个角色,而是真正把完整的人设和故事线赋予模型。比如妮可,她有很长的故事线:从猫猫星毁灭后来到地球,经历了什么这些详尽的设定都被用作模型的训练数据。
硅星人: 这是你们设计原创角色的思路,和UP主合作的角色,合作角色是怎么考虑的?
Oratis: 我们设计妮可(温和普适)和妮卡(毒舌傲娇)两个核心原创角色,随着亲密度变化,AI的表达也会变化,目的是创造一个“从低起点到高终点”的关系发展过程,让用户有“攻略”的成就感,也是现在热度最高的。
其次就是像老番茄和塔菲这种粉丝体量本身非常高的UP主合作角色。其实最开始我们和游戏UP主的合作,是希望做评测内容的。但一位UP主提到,能不能把我也做成虚拟角色,因为他希望借这个角色更好的触达粉丝。
硅星人:他们的需求是什么呢?
Oratis: 之前的这些攻略主播,基本是更新了视频之后,在他的粉丝群里发一发、B站动态推一推,他们也有焦虑。而有了AI伙伴后,就可以随时地去告诉用户主播当前的动态,同时,也拓宽了UP主的IP变现矩阵,比如我们会和塔菲合作推出皮肤进行商业分成。
相信模型进化,做应用要预判技术
硅星人: 生动的角色需要强大的技术支撑,你们要支持这么多的游戏,这么多的角色,还有多模态能力,背后是精调了多个模型,还是由统一的模型支撑呢?
Binson: 我们的模型架构是挺复杂的,主要分成四个部分:
第一步是信息输入: 视觉上,我们通过屏幕共享以每秒一帧的频率抽帧;听觉上,我们用VAD模型代替了传统的唤醒词,因为我们认为唤醒词会破坏陪伴感和沉浸感。
然后是多模态理解与筛选: 传入的每一帧画面,首先会经过一个轻量级的传统CV模型进行分析,判断是否存在“关键事件”。这一步可以过滤掉超过90%的无效画面,极大地降低了后续大模型的调用开销。只有被判断为关键的少数画面,才会被送入我们自研的VLM(视觉语言模型)。
再配合上下文构建与个性化: 我们将ASR转换的文字、VLM的图像理解结果,以及角色的个性化数据(如记忆、历史对话)进行整合。我们的记忆召回采用了一种高效的“主题索引”方式,比如原神的记忆,王者荣耀的记忆等各个小数据库,来确保了上下文的精准和高效。
最后再是大语言模型(LLM)思考与语音输出: 这个丰富的上下文被提交给我们自己基于开源底座精调的LLM。这个LLM融入了大量的二次元风格对话数据和游戏语料,使其回答风格更像是“自己人”。
硅星人: 采用72B的大参数模型,延迟问题如何解决?我在玩《第五人格》的时候,妮卡的响应延迟有点明显,我已经被监管者抓住了,她才预警提示。
Binson: 坦白讲,延迟问题确实存在。《第五人格》这类需要即时反应的追逐游戏,不是我们产品最适配的场景。相比之下,《王者荣耀》的体验会好很多,因为它有明确的运营和对线阶段,团战爆发的时刻是有限的,在非团战期间,用户有更从容的交互空间。
现阶段我们的核心策略是“先保效果,再降延迟”。为了确保AI角色交互的智能程度和准确性,我们采用了大参数模型。我们相信,随着模型技术的发展,未来可以用更小的参数模型达到甚至超越当前的效果,响应时间的问题就会得到根本解决。
硅星人:先保一头。其实考验的是对技术进展的预判和市场的综合考量,现阶段什么能舍,什么能等。这让我想到你们从成立到最近发布1.0,已经有2年了,在这两年里,技术变化了很多。
Binson: 是的,我们的灵感其实来自Copilot。Copilot之所以能做得精准,是因为它有你的代码仓库和Office 365数据。那我就想,我能不能拿到你个人的娱乐数据?但是我让用户直接把数据给我是不可能的,录屏会有隐私压力,用户不愿意。相反,我陪你玩游戏就不一样了,做Coplayer,游戏这个场景很多人本来就在直播。我不仅能给你提供攻略,还能给你捧哏、提供情绪价值,游戏里无聊的时候还能跟你玩梗。
硅星人: 这确实是一个巧妙的思路。大家初衷都是想办法获取用户数据。有人做硬件,有人让你上传知识库。你们想到的办法是屏幕共享,人一天大多数时间都花在屏幕上,拿到了屏幕信息,就拿到了生活。
Binson: 是的,大家都能想到要拿数据,但关键是,用户为什么要把屏幕数据给你? 这才是核心。我觉得像上传知识库这种方式太难了,在中国没多少人会用。我们希望不创造新的场景,不创造新的设备,用一个很低的成本让用户接受。
硅星人: 你们从一开始就想好了Coplayer这个方向,然后怎么去预判技术,比如之前没有VLM,只有识别?
Binson: 2023年我们刚开始创业的时候,问题很多。那时候国内基本上就文心,海外只有ChatGPT,也没什么开源。我们用ChatGPT来做验证,一次对话要五六秒,甚至七八秒,很夸张的,你会觉得这东西不可行。
硅星人: 对,那时候的模型也没有理解和思考能力。
Binson: 对,但我觉得这事一定可以。我们就先去探索验证,慢慢地,模型价格不就降下来了吗?多模态我觉得也一定会成熟,TTS(语音合成)那时候也不成熟,但我也觉得一定会成熟。好,既然这些是未来的大方向,没关系,我们先做。
在多模态不太成熟的时候,我们就借鉴了“桌宠”的形态,用角色的可爱来弥补技术的不足。就……伸手不打笑脸人嘛,这个人物很可爱,他傻傻的就傻傻的呗。
硅星人: 后来自研VLM花了多长时间?
Binson: 我们大概用了半年多,就是今年(2024年)年初,拿着我们积累的数据来做这件事。我们的视觉语言模型LynkSoul VLM v1,在游戏场景中表现超越了GPT-4o、Claude-4-Sonnet和Gemini-2.5-Flash等一众顶尖通用模型。
硅星人: 所以是从23年中到24年初,通过在垂直场景下靠可爱做情感陪伴,积累用户和数据;然后在技术时机成熟时,顺势推出VLM,实现了产品体验的质变。
Binson: 是,本质还是先有阶段的技术和场景的适配,能不能让用户留下来。如果你的MVP(最小可行产品)的成立严重依赖某项技术的成熟,那你可能就得等。我们的MVP其实也依赖技术,但我们可以讨巧地在不同阶段,满足用户不同的诉求。
硅星人: 那么从产品角度看,你们觉得目前还有哪些明显的技术不足?
Binson: 有啊。第一个,VLM还不够好。我们现在是抽帧的,它不是一个流式的理解,没有多帧之间的推理能力。这个就需要多模态模型的迭代了。我觉得行业很快会出来,可能也就半年到一年。我们可以站在技术的肩膀上,用开源的,或者谁做得好了我们就用它,但我们有自己的数据,可以基于自己的数据,去精调在游戏场景下的理解。
2年注册用户千万,逗逗AI的四段式增长策略
硅星人:两年时间推出1.0版本,在这个追求速度的AI创业环境里非常少见。你们焦虑过吗?
Oratis:肯定会焦虑,但要战胜焦虑。因为在一个技术体验不成熟的时候,你做的规模越大,负担就越重。
硅星人: 目前的用户规模和商业化进展具体如何?可以分享一些数据吗?
Binson: 目前,我们的注册用户已经突破1000万。因为有大量的自然增长和口碑传播,我们的获客成本可以做到很低,大概在小几块钱。用户的活跃度和粘性非常高,日活跃用户的平均使用时长可以达到三到四个小时。
在商业模式上,我们主要通过订阅制(月费约40元)和角色皮肤、礼物等虚拟道具进行变现。虽然目前付费率还不高,因为我们仍以扩大用户规模为主要目标,但考虑到游戏玩家强大的付费习惯和意愿,未来的增长空间非常巨大。
硅星人: 三到四个小时,用户和AI的交互强度是怎样的?
Binson: 这里有一个很有趣的洞察:我们的用户平均每天与AI的对话量大约在五六十句。
硅星人:这个数字不高。
Binson: 对,它证明了我们的一个核心理念:陪伴的核心不是对话,而是“存在”本身。很多时候,用户只是把AI角色放在那里,即使不说话,这种“在场”本身就提供了足够的情绪价值,尤其是在玩单机或开放世界游戏时。
硅星人: 增长对AI应用来说是一个难题,你们的这1000万是怎么来的?比如第一个100万,第二个100万。
Binson: 我们的用户增长主要经历了四个阶段,这与我们的技术迭代和产品功能拓展是同步的:
第一阶段,靠的是角色和IP。我们做的那些角色,比如妮可妮卡,每一个背后都代表了一类人群的需求。当AI出来,这些人能说话、能陪你聊天了,大家就很开心。
第二阶段,就是靠游戏场景的KOL。一说到游戏,年轻人都懂,ACC活动上我们展台的人数也是前排,对吧。
ACC期间,大家在硅星人一楼“打游戏”
特别是我们和头部的KOL合作,比如你玩《原神》,你不可能不知道那些做攻略的UP主。我们只要跟他合作,基本上玩《原神》的用户就都知道我们了,一个视频就能带来成千上万的下载量。
第三阶段,是和游戏的深度绑定。我们不断扩充支持的游戏,从《原神》到《黑神话:悟空》。一个新游戏上线,我们能第一时间提供地图、攻略,形成他的“游戏搭子”。用户量起来后,游戏公司也愿意合作,像明末上线前就提前把版本给我们,让我们做一些传播。
第四阶段的增长,就是VLM带来的通用能力,能理解游戏,并开始将陪伴场景从游戏拓展到看视频、刷剧等日常生活,有了进一步扩大了用户群的可能。
反常识,要把全球市场看作一个整体
硅星人:我了解到你们去了日本参加东京TGS,为什么选择在这个时间节点开拓全球市场?
Hakko AI参与活动(逗逗游戏伙伴海外版)
Oratis: 这一块主要是基础是我们的技术成熟了。这次发布,我们除了发布产品,还发布了我们在海外使用的VLM模型。这个VLM是我们自己train的一个模型,专门在游戏场景做识别,整体评估下来,从识别的精度、对游戏的理解来讲,效果都比海外主流的像GPT、Claude这些模型要好30%到40%。这是一个基础。
另外是,海外市场的消费更加成熟。我们主打C端收费路线,做好做增长飞轮。
硅星人:技术和付费环境的成熟,解释了“为什么是现在”这个时间问题。但更关键的是“如何做”。很多中国公司出海,往往是单点突破,比如先猛攻东南亚或北美。你们怎么考虑?
Oratis: 是的。在AI时代,你需要“把整个世界看成一个市场”。过去做国际化,我们会把世界划分为东南亚、中东、拉美等多个市场,并为每个市场单独建立本地团队,是重资产、分国运营的模式。但在AI时代,你或许只需要区分“中文市场”和“非中文市场”。因为无论在美国、东南亚还是日本,关注AI、爱玩游戏、愿意尝试新事物的这批年轻用户,他们的画像是高度相似的。当你的用户池子足够大时,你获取高质量、低成本用户的概率就会指数级提升。
举个例子,我们发布海外产品时,在YouTube上投放了两个视频,总成本仅100多美元,用于几万次冷启动播放,因为内容质量高,迅速触发了YouTube的推荐算法和用户的自发分享,最终却获得了近百万的播放量。
硅星人:这似乎有些反常识?我听到的更多是,做海外市场必须强调“本地化(Native)”,根据用户特性做针对性运营。
Oratis: 这个结论成立的前提是:每个国家用户的核心需求不同。但在游戏领域,情况有所不同。虽然日本和美国用户喜欢的角色风格确实不一样,适配不同的游戏需要本地化,但运营侧的策略——包括目标群体、传播打法、活动策划——则完全可以全球化,效率会高得多。
硅星人:你们好像在这次正式推出海外之前,就就已经积累了一批海外用户。这个过程是怎样的?
Oratis: 我们去年底在日本推出了Beta版,并迅速验证了两点:第一,二次元文化在日本有极高的接受度;第二,游戏向的视频内容传播效果非常好,在日本能实现PMF(产品市场契合度)。
但日本市场的问题在于“天花板”较低。日本人口有限,年轻人占比不高,在东京、大阪等核心城市做到头部,DAU(日活跃用户)可能也就两三百万。这就是我们这次选择以英文为主,立足北美做全球化发布的原因。
硅星人:在与这些海外用户的互动中,有没有观察到什么特别的用户画像或需求?
Oratis: 有一个很强的差异点,就是海外用户对NSFW(工作场合下不适合观看的内容)的预期。因为我们的很多竞品都支持,所以部分用户会天然地认为我们也可以。但我们明确选择不做。
硅星人:为什么?这似乎是很多AI陪伴类产品的“流量密码”。
Oratis: 这与我们对“关系”的根本选择有关。我们希望建立的是人与AI之间长久的、陪伴式的关系,而NSFW本质上是一种刺激型的、消费式的关系。后者要求AI绝对服从,满足用户的单向需求;而我们追求的是双向的、互动的、共同成长的关系,这与我们的初衷相悖。
我们不希望产品变成一个“色情工具”,用户用完就走。我们的目标是做一个3+(三岁以上)产品,最终获得一批我们深度理解的、忠诚的长期用户。
硅星人:聊了这么多,从需求、产品、技术到全球化,站在当前这个节点,你们认为下一步最大的挑战是什么?
Binson:下一个挑战,是如何将陪伴场景从游戏拓展到更广泛的通用场景,比如看剧、购物、上网课等。我们的策略是,继续围绕现有的这群核心用户,去覆盖他们除了游戏之外的其他娱乐和生活时间,让AI伙伴成为他们数字生活中无处不在的存在。游戏是年轻人的核心社交方式,随着这代人成长,我们的产品也将伴随他们,从二次元的陪伴,走向全场景的陪伴。