技术

三层壁垒:从信号到应用

云玦的技术叙事从下到上是三层:最底层是 Early Fusion 多模态信号融合;中间层是 自进化智能体(Self-Evolving Agent),每晚跑一次沙箱完成自动审计 + 自造工具 / Skill; 最上层是 Zero-Skill 千人千面的应用层。每一层都依赖上一层先做对。

01 / 信号层

Early Fusion 多模态:理解你,不只是理解你说的话

主流多模态 AI 走的是 Late Fusion(晚融合):每条模态先各自变成文字,再拼到一起。 多模态之间的时序关系、强度对比、"心率上升发生在话音之后 3 秒"这类细节,全部丢失。 结论只能粗糙、安全、千人一面。

Late Fusion(主流)
  音频  ──→  ASR        ──→ "喂老板叫你过去一下"  ─┐
  心率  ──→  数值描述    ──→ "心率从 75 升到 110"  ─┼──→  LLM 拼起来:
  图像  ──→  描述模型    ──→ "穿西服的人"          ─┘   "你工作上好像有点事"

Early Fusion(云玦)
  音频     ┐
  心率     ┤
  IMU     ┼──→  对齐到原始信号层 → 多模态 LLM
  图像     ┤        "你被老板叫过去那一刻有点紧张"
  知识图谱  ┘

模型在原始信号层就建立"心率上升 3 秒后听到那句话"的因果链, 结论可以精确到事件、精确到瞬间、精确到这个人。

为什么主流大模型做不到

不是不想做,是没数据

主流模型已经覆盖:视频→文字(VL 模型)、音频→文字(ASR / gpt-audio)、图像→文字(基本都原生支持)。

"心率(稠密数值)+ IMU(稠密数值)+ HRV(稀疏数值)+ 音频(稠密连续波形)+ 图像(稀疏帧)+ 知识图谱(图结构)"多种模态的混合输入,在公开互联网上不存在足量训练数据 —— 因为只有持续戴着多模态采集设备、 24 小时收集的人才有。

这是云玦绕开主流模型正面战场的"新训练场"。 我们目前借用主流多模态模型的对齐能力,收集"长尾模态 → 人类行为结果"的稠密标注数据, 长期训自有的 Human-Centric World Model

Early Fusion 当下边界

Late Fusion 永远抓不到的,Early Fusion 能

以下三种能力都依赖心率、视觉、声纹、对话在原始信号层精确对齐, 用 Late Fusion 先把每条模态压成文字再拼接,这些信息全部丢失。

能力 01

自陈与体征的对齐

文字层面的状态描述,和心率、HRV、步态揭示的真实身体反应往往并不一致。 云玦把同一时段的两条信号对齐,把语义层面看不见的差异显示出来。

能力 02

跨日同活动的横向对比

同样是静坐打字、同样是会议、同样是通勤, 不同时段、不同状态下的体征曲线差异显著。多模态时间线让"今天 vs 基线"成为可计算的量。

能力 03

多模态因果链

"心率上升 3 秒后听到那句话"—— 心率、视觉、声纹切换、对话内容在原始信号层对齐,构建出文字层面拿不到的因果链。

这是 Early Fusion 的当下边界,也是积累"人类行为结果"标注数据的入口—— 它们共同构成未来 Human-Centric World Model 的训练真值来源。

02 / 系统层

Self-Evolving Agent:用得越久越聪明

学术成绩 · arXiv 2601.18226

5 个 benchmark · 3 项 SOTA · 2 项第二

论文在 HLE / DeepSearchQA / FinSearchComp / xBench-ScienceQA / xBench-DeepSearch 五个 benchmark 上,对比 GPT-5.2 Pro / GPT-5 Pro / Gemini 3 Pro / Claude 4.5 Opus 等闭源前沿基线, Yunjue Agent 拿到三项 SOTA、两项第二(仅次于闭源最前沿模型):

48.0
HLE
#2 · 仅次于 GPT-5.2 Pro
73.5
DSQA
SOTA · +16.9 vs Gemini 3 Pro
65.0
FSC
SOTA · +15.1 vs Gemini 3 Pro
76.5
xSciQA
SOTA
59.7
xDS
#2 · 仅次于 GPT-5 Pro
  • In-Situ Self-Evolving 范式:传统智能体靠"离线训练 + 在线部署"的静态边界;我们提出"推理即演化",每一次推理都会修改系统配置, 并立即用于下一次推理。
  • Tabula Rasa(白板)实验:初始空工具库,让智能体完全靠推理期间的 "生成 → 验证 → 归纳"自己造工具。
  • 工具库收敛:智能体自己造的工具数量在反复推理中收敛、可复用 —— 证明"通用解题能力"是可学习、可蒸馏的有限模式(HLE 上 2,500 次推理仅生成 97 个工具)。
  • 暖启动迁移:用 HLE 演化出的工具集启动其他 benchmark,新工具增量在 xSciQA / xDS 上可降到 0,证明能力跨域可复用。

代码、benchmark 运行脚本、每一步工具生成 / 修改 / 合并的演化痕迹全部 CC BY 4.0 开源 —— 可审计、可复现。完整工作见 Yunjue Agent 博客

产品里的自进化

每晚一次的自进化沙箱

每晚 · 当日数据归集完成
   │
   ▼
为每个用户启动一次自进化沙箱
   │
   ├─ 审计当日   分析事件叙事与用户对产品的反馈信号,
   │            复核可疑事件(误判 / 复合段 / 边界错)
   │
   ├─ 增量画像   profile / glossary / 个人知识图谱 / 关系图谱 / 待办
   │            以"模式陈述"形式追加,不覆盖既有内容
   │
   ├─ 找缺口     识别用户当前 Skill 库覆盖不到的能力空白
   │
   └─ 造工具     现场生成 Python 工具骨架与设计 brief,
                通过验证后沉淀进共享工具库
   │
   ▼
全程审计落库 · 可逐节点回放每条决策的"为什么"
Tool

做什么的最小单元

一个独立可执行的代码单元,定义"做什么"。例如地图查询、KOL 意见聚合、心率分析。 自进化沙箱每晚现场写、现场跑、现场验证,通过验证后沉淀进共享工具库。
Skill

用户面向的卡片单元

一组执行 + 渲染契约 + 一组专属工具。智能体先输出长报告,再渲染成 HTML 卡片在 App 里呈现。

自进化分两步:私有进化(自动,全程在沙箱里发生)+ 共享提取(脱敏后将高价值通用工具沉淀进共享库)。 Skill 默认私有、工具默认私有;共享只发生在"非用户隐私的通用工具"提取阶段。

03 / 应用层

Zero-Skill 千人千面:每个人的 App 不一样

主流"AI 助手"产品的做法:预置一堆功能,让用户自己挑。结果是每个用户看到的是一样的产品,差异只在于用了哪些。

云玦的设计是 Zero-Skill 起步

  • 首次进 App,Feed 是空的 —— 系统对你一无所知,就什么都不显示
  • 系统持续观察,把每天的活动切成事件叙事
  • 持续运行几天后,开始识别"你在哪些时段做哪些事",自己造 Skill
  • 两周左右,每个用户的卡片库完全不一样

冷启动慢是劣势,但它是壁垒的代价。每张卡片是一个独立的 HTML 小程序, 意味着同一套 Feed 框架可以承载工具、复盘、陪伴对话,甚至专属游戏。用户专属的 Skill 越多,切换平台的成本(Switching Cost)就越高。

内测观察

同一个系统,不同的人长出完全不同的 Skill 库

云玦的自进化沙箱每晚运行一次,根据用户的事件叙事、声纹画像与行为模式 自动识别能力缺口、自动生成 Skill —— 没有"功能列表",每个人最终拥有的卡片库都不一样。 典型方向包括:

创作者方向

创作能量曲线、灵感闪现回放、决策风格回顾、长文写作复盘 —— 围绕"想清楚自己为什么这样做"的能力被自动识别并生成。

专业工作方向

有效工作时长统计、协作对谈摘要、信息利用率、专家访谈整理 —— 围绕"我的产出到底从哪里来"的能力被自动识别并生成。

生活与陪伴方向

亲子日常记录、长期成长档案、场景手记、关系图谱 —— 围绕"日常细节如何沉淀成长期叙事"的能力被自动识别并生成。

现场创作方向

拍摄/演出当下笔记、现场状态曲线、灵感簿 —— 围绕"创作那一刻我到底在想什么"的能力被自动识别并生成。

以上方向均来自 Zero-Skill 起步,由自进化沙箱在每晚的运行中自动识别并生成 —— 不是人工预置功能,也不是用户从列表里挑选。

横向对比

主流 LLM / 限定领域 Agent / 云玦

维度主流 LLM 助手限定领域 Agent云玦
开放性✅ 任何输入❌ 固定意图
安全 / 可控❌ 概率模型✅ FSM✅ 沙箱 + 工具验证
成本❌ 全推理✅ 路径固定✅ 路径缓存 + 必要时深推
个性化❌ 千人一面❌ 无个性✅ 千人千面
多模态深度❌ Late Fusion❌ 单模态✅ Early Fusion
自进化❌ 训练后冻结❌ 工程师手改✅ 每晚自动

商业落地的"开放性 / 可控性 / 经济性"不可能三角,传统方案只能同时满足其中两点; 我们相信自进化智能体是同时跨越三角的可行路径。完整论证见 动态自进化是 To C 服务的正途

隐私架构

原始数据出不出端,是用户的主动选择

普通版(云玦自研多模态硬件 + iPhone 普通用户)
  ├─ 方案 1:边侧小模型先压成文本摘要再上云
  └─ 方案 2:边侧融合适配器,原图原数据不出端,
            上云的是 fusion 向量

极客版(开发者 / 高需求用户)
  ├─ 私有服务器打包:原始数据上云,但是用户自己的服务器,token 收费
  └─ 轻量后端开源:用户自己部署到自有服务器,仅硬件收费
  • 当前(深度内测期):原始数据在云端按设备级加密、严格隔离、 无跨用户混流处理 —— 这是我们与早期内测用户共同选择的"先把链路跑稳"的阶段。
  • 中期路线(云玦自研多模态硬件 + 边侧适配器上线后):普通版默认走端侧 / 边侧路径,原始数据不出端 / 边,云端只接收 fusion 向量 —— "原始数据是否离开你的设备"成为用户的主动选择,不再是默认行为。
  • 极客版选项(与普通版并行发售):私有部署或轻量后端开源, 原始数据完全自主。
  • 工具 / Skill 默认私有:发布到社区是用户主动动作, 发布前会做脱敏(移除用户专有名词、人名、地点)。

更长视角

三条互为前提的长期赛道

上面这三层壁垒,都服务于云玦在做的三条长期赛道。任何一条缺位,其余两条都不成立。

01

Human-Centric World Model

当前所有主流大模型的训练数据都来自公开互联网——它们学会了关于世界的通用知识, 但从未系统性地针对"人本身"做过基础模型训练。 没有一个模型真正理解:同一个人,打字时的心率曲线和开会时有什么不同; 一段对话里说出某句话之前,身体已经先有了反应。

云玦的长期目标是填补这个空白——把心率、IMU、声音、视觉、对话内容、 个人画像、关系图谱在原始信号层对齐,训练真正以人为中心的多模态基础模型。 它的训练目标不是"通用世界知识",而是"一个具体的人在特定时刻的状态、意图与需求"。

这个模型一旦成立,具身智能、人形机器人、消费级个人 AI 都将拥有一个真正理解人的底座—— 而不只是能对话的语言模型。
02

自进化智能体

主流"AI 助手"由工程师按场景手工实现,无法支撑千人千面的个体差异。Yunjue Agent 论文证明,智能体可以基于"推理即演化"在沙箱中自造工具、自造 Skill、自识别能力缺口 —— 我们相信这是 To C 个人服务跨越"开放、可控、经济"不可能三角的可行路径, 也是云玦为每位用户长出独属应用的工程底座。
03

随身多模态入口 · 外置感官系统

要理解一个人,AI 需要持续在身边、无感、低打扰、隐私可控—— 这一能力需要由随身多模态硬件承担,不是手机应用,不是智能音箱。

云玦把这类设备定位为外置感官系统:双麦阵列持续听、摄像头关键帧触发拍、 心率 / HRV / IMU / 皮肤温度持续量——替你感知你自己感知不到的信号, 把这些信号交给云端外置前额叶做分析与反思。

云玦当前以 Apple Watch 验证主链路;自研多模态硬件 v1 进行中, 围绕"双麦 + 心率 / IMU + 隐私指示灯与硬件开关一体"展开, 使"原始数据是否出端"成为用户的主动选择。

继续阅读

看产品形态或加入我们,也可以先看三条赛道的完整叙事

Early Fusion → 自进化智能体 → Human-Centric World Model,三条赛道都在产品页有对应节奏说明。