技术
三层壁垒:从信号到应用
01 / 信号层
Early Fusion 多模态:理解你,不只是理解你说的话
主流多模态 AI 走的是 Late Fusion(晚融合):每条模态先各自变成文字,再拼到一起。 多模态之间的时序关系、强度对比、"心率上升发生在话音之后 3 秒"这类细节,全部丢失。 结论只能粗糙、安全、千人一面。
Late Fusion(主流)
音频 ──→ ASR ──→ "喂老板叫你过去一下" ─┐
心率 ──→ 数值描述 ──→ "心率从 75 升到 110" ─┼──→ LLM 拼起来:
图像 ──→ 描述模型 ──→ "穿西服的人" ─┘ "你工作上好像有点事"
Early Fusion(云玦)
音频 ┐
心率 ┤
IMU ┼──→ 对齐到原始信号层 → 多模态 LLM
图像 ┤ "你被老板叫过去那一刻有点紧张"
知识图谱 ┘模型在原始信号层就建立"心率上升 3 秒后听到那句话"的因果链, 结论可以精确到事件、精确到瞬间、精确到这个人。
为什么主流大模型做不到
不是不想做,是没数据
主流模型已经覆盖:视频→文字(VL 模型)、音频→文字(ASR / gpt-audio)、图像→文字(基本都原生支持)。
但"心率(稠密数值)+ IMU(稠密数值)+ HRV(稀疏数值)+ 音频(稠密连续波形)+ 图像(稀疏帧)+ 知识图谱(图结构)"多种模态的混合输入,在公开互联网上不存在足量训练数据 —— 因为只有持续戴着多模态采集设备、 24 小时收集的人才有。
这是云玦绕开主流模型正面战场的"新训练场"。 我们目前借用主流多模态模型的对齐能力,收集"长尾模态 → 人类行为结果"的稠密标注数据, 长期训自有的 Human-Centric World Model。
Early Fusion 当下边界
Late Fusion 永远抓不到的,Early Fusion 能
以下三种能力都依赖心率、视觉、声纹、对话在原始信号层精确对齐, 用 Late Fusion 先把每条模态压成文字再拼接,这些信息全部丢失。
自陈与体征的对齐
文字层面的状态描述,和心率、HRV、步态揭示的真实身体反应往往并不一致。 云玦把同一时段的两条信号对齐,把语义层面看不见的差异显示出来。
跨日同活动的横向对比
同样是静坐打字、同样是会议、同样是通勤, 不同时段、不同状态下的体征曲线差异显著。多模态时间线让"今天 vs 基线"成为可计算的量。
多模态因果链
"心率上升 3 秒后听到那句话"—— 心率、视觉、声纹切换、对话内容在原始信号层对齐,构建出文字层面拿不到的因果链。
这是 Early Fusion 的当下边界,也是积累"人类行为结果"标注数据的入口—— 它们共同构成未来 Human-Centric World Model 的训练真值来源。
02 / 系统层
Self-Evolving Agent:用得越久越聪明
5 个 benchmark · 3 项 SOTA · 2 项第二
论文在 HLE / DeepSearchQA / FinSearchComp / xBench-ScienceQA / xBench-DeepSearch 五个 benchmark 上,对比 GPT-5.2 Pro / GPT-5 Pro / Gemini 3 Pro / Claude 4.5 Opus 等闭源前沿基线, Yunjue Agent 拿到三项 SOTA、两项第二(仅次于闭源最前沿模型):
- In-Situ Self-Evolving 范式:传统智能体靠"离线训练 + 在线部署"的静态边界;我们提出"推理即演化",每一次推理都会修改系统配置, 并立即用于下一次推理。
- Tabula Rasa(白板)实验:初始空工具库,让智能体完全靠推理期间的 "生成 → 验证 → 归纳"自己造工具。
- 工具库收敛:智能体自己造的工具数量在反复推理中收敛、可复用 —— 证明"通用解题能力"是可学习、可蒸馏的有限模式(HLE 上 2,500 次推理仅生成 97 个工具)。
- 暖启动迁移:用 HLE 演化出的工具集启动其他 benchmark,新工具增量在 xSciQA / xDS 上可降到 0,证明能力跨域可复用。
代码、benchmark 运行脚本、每一步工具生成 / 修改 / 合并的演化痕迹全部 CC BY 4.0 开源 —— 可审计、可复现。完整工作见 Yunjue Agent 博客。
产品里的自进化
每晚一次的自进化沙箱
每晚 · 当日数据归集完成
│
▼
为每个用户启动一次自进化沙箱
│
├─ 审计当日 分析事件叙事与用户对产品的反馈信号,
│ 复核可疑事件(误判 / 复合段 / 边界错)
│
├─ 增量画像 profile / glossary / 个人知识图谱 / 关系图谱 / 待办
│ 以"模式陈述"形式追加,不覆盖既有内容
│
├─ 找缺口 识别用户当前 Skill 库覆盖不到的能力空白
│
└─ 造工具 现场生成 Python 工具骨架与设计 brief,
通过验证后沉淀进共享工具库
│
▼
全程审计落库 · 可逐节点回放每条决策的"为什么"做什么的最小单元
用户面向的卡片单元
自进化分两步:私有进化(自动,全程在沙箱里发生)+ 共享提取(脱敏后将高价值通用工具沉淀进共享库)。 Skill 默认私有、工具默认私有;共享只发生在"非用户隐私的通用工具"提取阶段。
03 / 应用层
Zero-Skill 千人千面:每个人的 App 不一样
主流"AI 助手"产品的做法:预置一堆功能,让用户自己挑。结果是每个用户看到的是一样的产品,差异只在于用了哪些。
云玦的设计是 Zero-Skill 起步:
- 首次进 App,Feed 是空的 —— 系统对你一无所知,就什么都不显示
- 系统持续观察,把每天的活动切成事件叙事
- 持续运行几天后,开始识别"你在哪些时段做哪些事",自己造 Skill
- 两周左右,每个用户的卡片库完全不一样
冷启动慢是劣势,但它是壁垒的代价。每张卡片是一个独立的 HTML 小程序, 意味着同一套 Feed 框架可以承载工具、复盘、陪伴对话,甚至专属游戏。用户专属的 Skill 越多,切换平台的成本(Switching Cost)就越高。
内测观察
同一个系统,不同的人长出完全不同的 Skill 库
云玦的自进化沙箱每晚运行一次,根据用户的事件叙事、声纹画像与行为模式 自动识别能力缺口、自动生成 Skill —— 没有"功能列表",每个人最终拥有的卡片库都不一样。 典型方向包括:
创作者方向
创作能量曲线、灵感闪现回放、决策风格回顾、长文写作复盘 —— 围绕"想清楚自己为什么这样做"的能力被自动识别并生成。
专业工作方向
有效工作时长统计、协作对谈摘要、信息利用率、专家访谈整理 —— 围绕"我的产出到底从哪里来"的能力被自动识别并生成。
生活与陪伴方向
亲子日常记录、长期成长档案、场景手记、关系图谱 —— 围绕"日常细节如何沉淀成长期叙事"的能力被自动识别并生成。
现场创作方向
拍摄/演出当下笔记、现场状态曲线、灵感簿 —— 围绕"创作那一刻我到底在想什么"的能力被自动识别并生成。
以上方向均来自 Zero-Skill 起步,由自进化沙箱在每晚的运行中自动识别并生成 —— 不是人工预置功能,也不是用户从列表里挑选。
横向对比
主流 LLM / 限定领域 Agent / 云玦
| 维度 | 主流 LLM 助手 | 限定领域 Agent | 云玦 |
|---|---|---|---|
| 开放性 | ✅ 任何输入 | ❌ 固定意图 | ✅ |
| 安全 / 可控 | ❌ 概率模型 | ✅ FSM | ✅ 沙箱 + 工具验证 |
| 成本 | ❌ 全推理 | ✅ 路径固定 | ✅ 路径缓存 + 必要时深推 |
| 个性化 | ❌ 千人一面 | ❌ 无个性 | ✅ 千人千面 |
| 多模态深度 | ❌ Late Fusion | ❌ 单模态 | ✅ Early Fusion |
| 自进化 | ❌ 训练后冻结 | ❌ 工程师手改 | ✅ 每晚自动 |
商业落地的"开放性 / 可控性 / 经济性"不可能三角,传统方案只能同时满足其中两点; 我们相信自进化智能体是同时跨越三角的可行路径。完整论证见 动态自进化是 To C 服务的正途。
隐私架构
原始数据出不出端,是用户的主动选择
普通版(云玦自研多模态硬件 + iPhone 普通用户)
├─ 方案 1:边侧小模型先压成文本摘要再上云
└─ 方案 2:边侧融合适配器,原图原数据不出端,
上云的是 fusion 向量
极客版(开发者 / 高需求用户)
├─ 私有服务器打包:原始数据上云,但是用户自己的服务器,token 收费
└─ 轻量后端开源:用户自己部署到自有服务器,仅硬件收费- 当前(深度内测期):原始数据在云端按设备级加密、严格隔离、 无跨用户混流处理 —— 这是我们与早期内测用户共同选择的"先把链路跑稳"的阶段。
- 中期路线(云玦自研多模态硬件 + 边侧适配器上线后):普通版默认走端侧 / 边侧路径,原始数据不出端 / 边,云端只接收 fusion 向量 —— "原始数据是否离开你的设备"成为用户的主动选择,不再是默认行为。
- 极客版选项(与普通版并行发售):私有部署或轻量后端开源, 原始数据完全自主。
- 工具 / Skill 默认私有:发布到社区是用户主动动作, 发布前会做脱敏(移除用户专有名词、人名、地点)。
更长视角
三条互为前提的长期赛道
上面这三层壁垒,都服务于云玦在做的三条长期赛道。任何一条缺位,其余两条都不成立。
Human-Centric World Model
云玦的长期目标是填补这个空白——把心率、IMU、声音、视觉、对话内容、 个人画像、关系图谱在原始信号层对齐,训练真正以人为中心的多模态基础模型。 它的训练目标不是"通用世界知识",而是"一个具体的人在特定时刻的状态、意图与需求"。
这个模型一旦成立,具身智能、人形机器人、消费级个人 AI 都将拥有一个真正理解人的底座—— 而不只是能对话的语言模型。
自进化智能体
随身多模态入口 · 外置感官系统
云玦把这类设备定位为外置感官系统:双麦阵列持续听、摄像头关键帧触发拍、 心率 / HRV / IMU / 皮肤温度持续量——替你感知你自己感知不到的信号, 把这些信号交给云端外置前额叶做分析与反思。
云玦当前以 Apple Watch 验证主链路;自研多模态硬件 v1 进行中, 围绕"双麦 + 心率 / IMU + 隐私指示灯与硬件开关一体"展开, 使"原始数据是否出端"成为用户的主动选择。