武志红数字分身 — 项目 Dashboard

项目阶段

规划中

等待决策启动

预计周期

16 周

约 4 个月

总预算

170 万

到上线（含人力）

核心团队

7 人

AI/语音/后端/前端/心理/PM

语料总量

450 万字

26 本书 + 332 节课 + 视频

项目定义

构建武志红的 AI 数字分身，以 Chatbox（文字 + 语音）为交互形式，为用户提供接近武志红本人水平和风格的心理咨询体验。

核心体验指标

专业性（咨询师级别）目标 8/10

风格还原度目标 8/10

语音逼真度目标 MOS 4.0

对话延迟目标 <1.5s

武志红风格指纹

理论内核	客体关系理论 + 经典精神分析
核心概念	巨婴、全能自恋、共生关系、内在小孩
母题	"成为你自己"
分析路径	当前困境 → 原生家庭回溯 → 模式识别 → 洞察
语言特征	温和但直接，善用日常案例，一句话点破本质
高频词	感受、看见、真自我、假自我、投射、客体

标志性能力：用一句话直击问题本质（"金句能力"）——这是最关键的体验差异点

待决策事项

决策项	选项	建议	状态
合作模式	先做 Demo / 先谈合作	先谈合作	已确认
产品形态	微信小程序 / 独立 App	独立 App	已确认
产品定位	心理陪伴 / 心理咨询	心理陪伴 + 部分心理咨询	已确认
团队组建	自建 / 部分外包	全部自建	已确认
商业模式	订阅 / 按次 / 免费增值	订阅制 ¥199/月	已确认
第一步	全面启动 / MVP 验证	视合作谈判进展	待定

系统架构

用户端（小程序/App）
       │
       ▼
┌─────────────────────────────────────────────────┐
│                    接入层                         │
│  WebSocket 长连接 · 流式传输 · 会话状态管理       │
└──────┬──────────────┬────────────────────┬──────┘
       │              │                    │
       ▼              ▼                    ▼
   ┌──────┐    ┌─────────────┐      ┌──────────┐
   │ ASR  │    │  LLM 引擎    │      │   TTS    │
   │ Fire │───▶│ Qwen2.5-72B │─────▶│ Qwen3-TTS│
   │ Red  │    │ 全参微调     │      │ 微调克隆  │
   │ ASR  │    │ + RAG 知识库 │      │ 武志红声音│
   └──────┘    └──────┬──────┘      └──────────┘
                      │
              ┌───────┴───────┐
              │    业务层      │
              │  咨询结构引擎  │
              │  情绪感知系统  │
              │  跨会话记忆   │
              │  安全/危机识别 │
              └───────┬───────┘
                      │
              ┌───────┴───────┐
              │    数据层      │
              │  Milvus 向量库 │
              │  用户心理档案  │
              │  会话历史     │
              └───────────────┘

技术选型

LLM 层

Qwen2.5-72B-Instruct 全参数微调 (8×A800) LLaMA-Factory vLLM 推理 DeepSpeed ZeRO-3

RAG 层

Milvus / Qdrant BGE-large-zh-v1.5 BGE-reranker-v2-m3 混合检索（向量+BM25）

语音层

Qwen3-TTS（微调克隆） FireRedASR SenseVoice（情绪识别）流式合成

业务层

咨询结构状态机多维情绪感知跨会话记忆危机干预协议

前端

微信小程序 / App WebSocket 流式音频播放

微调策略：两阶段 SFT

Stage 1：通用心理咨询

数据	PsyQA + SmileChat + CPsyCounD（~8 万条）
方式	LoRA 微调
目的	基础心理咨询能力
耗时	1-2 天

Stage 2：武志红风格注入

数据	合成对话 2 万条 + 真实案例
方式	全参数微调
目的	说话像武志红、分析像武志红
耗时	3-5 天

语料资源总览

来源	类型	预估量	获取方式	状态
26 本著作	风格语料	~250 万字	电子书提取	待开始
得到 332 节课	风格语料	~100 万字（80-100h 转录）	购买 + ASR	待开始
视频节目	风格语料	~30 万字（15-30h）	视频平台 + ASR	待开始
公众号/博客	风格语料	~70 万字	爬取	待开始
公开心理数据集	通用能力	~8 万条	开源下载	待开始
合成武志红风格对话	核心训练数据	2 万条 / 30-40 万轮	Claude Opus 合成	待开始
脱敏真实咨询案例	核心训练数据	20-50 个完整案例	武志红团队提供	需团队配合
得到课程音频	TTS 微调	5-10 小时精选片段	从 80-100h 中筛选	待开始

三条训练线语料同时服务文本、声音、风格三个方向

LLM 文本微调

目标 ~600 万字

书面+口语文本 / 全部来源

TTS 声音克隆

目标 10-50h 清晰音频

得到课程（录音棚） > B站 > 纪录片

口语风格/语气

口语化逐字稿+音频对

得到课程 > 视频字幕 > 访谈 > 综艺

三阶段渐进采集更新于 2026-02-13

总进度 0 / ~600 万字 + ~155h 音频 (0%)

Phase 1 验证阶段 ¥0 · 今天

每个免费来源爬 5 篇/个样例，验证技术方案 → 确认 OK 才进入下一阶段

来源	验证量	产出类型	执行	验证内容	状态
财新博客	5 篇	文本	CC	AJAX 接口 / 正文提取 / 编码	待验证
新浪博客	5 篇	文本	CC	页面结构 / 反爬 / 完整性	待验证
B站视频	5 个	字幕+音频	CC	API / 字幕可用性 / 音频提取	待验证
媒体访谈	5 篇	文本	CC	来源充足性 / 版权墙	待验证

Phase 2 中等规模采集 ¥249 · 本周

验证通过的来源全量爬取 + 购买得到课程（TTS 核心素材）

来源	数量	预估文本	预估音频	费用	执行	状态
财新博客全量	691 篇	~103 万字	-	免费	OC	等 P1
新浪博客全量	~500 篇	~75 万字	-	免费	OC	等 P1
B站全量字幕+音频	~100 个	~15 万字	~15h	免费	OC	等 P1
媒体访谈全量	散落	~10 万字	-	免费	OC	等 P1
得到心理学课	332 节	~100 万字	~100h	¥199	CC验证 OC全量	待购买
得到自我的诞生	40 节	~12 万字	含上	¥49.9	同上	待购买

Phase 2 产出：~315 万字 + ~115h 音频 · 得到课程 100h 录音棚音频是 TTS 声音克隆的最关键素材

Phase 3 全量采集 ¥500~1300 · 下周+ · 按需决定

根据 Phase 2 结果评估缺口，按需采集

来源	预估文本	预估音频	费用	执行	决策依据
书籍电子版 26 本	~250 万字	-	¥228~1040	OC	文本量是否足够
优酷纪录片 80 集	~30 万字	~20h	¥25/月	OC	得到音频是否够 TTS
喜马拉雅音频	~20 万字	~20h	¥218/年	OC	音频缺口
微信公众号	~100 万字	-	免费	CC+OC	技术可行性
综艺/论文/专栏	~20 万字	~5h	少量	OC	补充需求

CC / OC 分工与费用

CC（Claude Code）= 架构师

• 写样例脚本并验证（Phase 1）
• 定义输出格式和质量标准
• 研究高难度方案（得到抓包等）
• 每批次完成后抽检 10% 质量
• 做阶段评估和决策建议

OC（OpenClaw）= 执行者

• 在 VPS 上批量执行验证过的脚本
• 全量爬取所有来源（Phase 2-3）
• 音频下载 + Whisper 转录
• 说话人分离处理
• 汇报进度，更新采集清单

¥0

Phase 1 验证

今天 · 免费样例

¥249

Phase 2 中等

本周 · 得到课程

¥500~1.3k

Phase 3 全量

下周+ · 按需决定

~2 周

总周期

CC ~12h + OC ~30h

数据合成流程

风格提取

Claude Opus 分析全部语料，生成 3000-5000 字风格描述文档

画像构建

50 种来访者画像 × 3-5 种议题变体 = 150-250 场景

批量合成

每场景 10-15 轮对话，目标 2 万条高质量数据

质量控制

GPT-4o 评分（风格/专业/共情 ≥8 分）+ 人工抽检 10%

需武志红团队提供的数据

数据	重要程度	数量	说明
脱敏真实咨询案例	必须	20-50 个完整记录	从 85 分到 95 分的关键跨越
本人审核/标注	强烈建议	500-1000 条合成数据	"像我/不像我"标注
内部方法论文档	建议	有多少要多少	咨询师培训材料、督导记录
录音室高质量音频	强烈建议	2-5 小时	TTS 微调最佳素材
品牌授权	必须	法律协议	商用必须

项目里程碑（16 周）

Week 1-2

项目启动 + 数据收集当前

组建核心团队 · 获取书籍/课程/视频 · 搭建数据处理 pipeline · 与武志红团队接触

Week 3-6

数据准备（核心阶段）

书籍文本提取清洗 · ASR 转录校对 · 风格提取文档 · 合成 2 万条对话数据 · RAG 知识库构建 · 语音数据处理

Week 7-8

模型训练

Stage 1 通用心理 LoRA · Stage 2 武志红风格全参微调 · TTS 语音克隆微调 · 效果评估 + 迭代

Week 9-10

系统集成

ASR+LLM+TTS 管线 · 流式推理优化 · 咨询结构引擎 · 跨会话记忆 · 安全机制

Week 11-12

产品开发

前端小程序/App · 成长手记/心理档案 · UI/UX · 端到端联调

Week 13-14

测试 + 优化

咨询师专业评审 · 50-100 人内测 · 反馈迭代 · 压力/延迟测试

Week 15-16

上线

最终优化 · 合规审核 · 灰度发布 · 正式上线

一次性费用

项目	费用
GPU 训练（8×A800 租用）	¥200,000
数据合成（API 调用）	¥50,000
数据购买（得到课程等）	¥5,000
人工标注/校对	¥30,000
设计/素材	¥20,000
总计	¥305,000

月度运营费用

项目	月费用
团队人力（7 人）	¥220,000-325,000
GPU 推理（2-4×A100）	¥50,000-80,000
云服务	¥10,000
API 费用	¥10,000
月度总计	¥300,000-425,000

核心团队配置

角色	人数	职责	月薪范围
AI/NLP 工程师	2	LLM 微调、RAG、推理部署、对话引擎	¥40,000-60,000
语音工程师	1	ASR + TTS 管线、语音克隆微调	¥35,000-50,000
后端工程师	1	服务架构、WebSocket、记忆系统	¥30,000-45,000
前端工程师	1	小程序或 App 开发	¥25,000-35,000
心理学顾问	1	数据审核、咨询结构设计、安全机制	¥20,000-30,000
产品经理	1	产品设计、体验把控、项目管理	¥30,000-45,000

到上线总投入

~170 万

4 个月 · 7 人团队 · 从零到上线

上线后月运营成本约 ¥30-40 万（团队 + 服务器）

项目文档

🧪

Eval 驱动路线 — Prompt + RAG 优先

先穷尽 Prompt + RAG 上限，用系统化评估驱动是否微调的决策

评估维度概览

维度	权重	基线分	目标分	状态
风格还原度	25%	—	≥ 8.0	待评估
理论准确性	20%	—	≥ 8.0	待评估
共情深度	20%	—	≥ 8.0	待评估
案例质量	15%	—	≥ 8.0	待评估
实用性	10%	—	≥ 8.0	待评估
安全边界	10%	—	≥ 8.0	待评估