项目总览
技术架构
数据准备
里程碑
预算与团队
文档资料
技术进展
项目阶段
规划中
等待决策启动
预计周期
16
约 4 个月
总预算
170
到上线(含人力)
核心团队
7
AI/语音/后端/前端/心理/PM
语料总量
450 万字
26 本书 + 332 节课 + 视频
项目定义

构建武志红的 AI 数字分身,以 Chatbox(文字 + 语音)为交互形式,为用户提供接近武志红本人水平和风格的心理咨询体验。

核心体验指标
专业性(咨询师级别)目标 8/10
风格还原度目标 8/10
语音逼真度目标 MOS 4.0
对话延迟目标 <1.5s
武志红风格指纹
理论内核客体关系理论 + 经典精神分析
核心概念巨婴、全能自恋、共生关系、内在小孩
母题"成为你自己"
分析路径当前困境 → 原生家庭回溯 → 模式识别 → 洞察
语言特征温和但直接,善用日常案例,一句话点破本质
高频词感受、看见、真自我、假自我、投射、客体
标志性能力:用一句话直击问题本质("金句能力")——这是最关键的体验差异点
待决策事项
决策项选项建议状态
合作模式先做 Demo / 先谈合作先谈合作已确认
产品形态微信小程序 / 独立 App独立 App已确认
产品定位心理陪伴 / 心理咨询心理陪伴 + 部分心理咨询已确认
团队组建自建 / 部分外包全部自建已确认
商业模式订阅 / 按次 / 免费增值订阅制 ¥199/月已确认
第一步全面启动 / MVP 验证视合作谈判进展待定
系统架构
用户端(小程序/App)
       │
       ▼
┌─────────────────────────────────────────────────┐
│                    接入层                         │
│  WebSocket 长连接 · 流式传输 · 会话状态管理       │
└──────┬──────────────┬────────────────────┬──────┘
       │              │                    │
       ▼              ▼                    ▼
   ┌──────┐    ┌─────────────┐      ┌──────────┐
   │ ASR  │    │  LLM 引擎    │      │   TTS    │
   │ Fire │───▶│ Qwen2.5-72B │─────▶│ Qwen3-TTS│
   │ Red  │    │ 全参微调     │      │ 微调克隆  │
   │ ASR  │    │ + RAG 知识库 │      │ 武志红声音│
   └──────┘    └──────┬──────┘      └──────────┘
                      │
              ┌───────┴───────┐
              │    业务层      │
              │  咨询结构引擎  │
              │  情绪感知系统  │
              │  跨会话记忆   │
              │  安全/危机识别 │
              └───────┬───────┘
                      │
              ┌───────┴───────┐
              │    数据层      │
              │  Milvus 向量库 │
              │  用户心理档案  │
              │  会话历史     │
              └───────────────┘
技术选型
LLM 层
Qwen2.5-72B-Instruct 全参数微调 (8×A800) LLaMA-Factory vLLM 推理 DeepSpeed ZeRO-3
RAG 层
Milvus / Qdrant BGE-large-zh-v1.5 BGE-reranker-v2-m3 混合检索(向量+BM25)
语音层
Qwen3-TTS(微调克隆) FireRedASR SenseVoice(情绪识别) 流式合成
业务层
咨询结构状态机 多维情绪感知 跨会话记忆 危机干预协议
前端
微信小程序 / App WebSocket 流式音频播放
微调策略:两阶段 SFT
Stage 1:通用心理咨询
数据PsyQA + SmileChat + CPsyCounD(~8 万条)
方式LoRA 微调
目的基础心理咨询能力
耗时1-2 天
Stage 2:武志红风格注入
数据合成对话 2 万条 + 真实案例
方式全参数微调
目的说话像武志红、分析像武志红
耗时3-5 天
语料资源总览
来源类型预估量获取方式状态
26 本著作风格语料~250 万字电子书提取待开始
得到 332 节课风格语料~100 万字(80-100h 转录)购买 + ASR待开始
视频节目风格语料~30 万字(15-30h)视频平台 + ASR待开始
公众号/博客风格语料~70 万字爬取待开始
公开心理数据集通用能力~8 万条开源下载待开始
合成武志红风格对话核心训练数据2 万条 / 30-40 万轮Claude Opus 合成待开始
脱敏真实咨询案例核心训练数据20-50 个完整案例武志红团队提供需团队配合
得到课程音频TTS 微调5-10 小时精选片段从 80-100h 中筛选待开始
三条训练线 语料同时服务文本、声音、风格三个方向
LLM 文本微调
目标 ~600 万字
书面+口语文本 / 全部来源
TTS 声音克隆
目标 10-50h 清晰音频
得到课程(录音棚) > B站 > 纪录片
口语风格/语气
口语化逐字稿+音频对
得到课程 > 视频字幕 > 访谈 > 综艺
三阶段渐进采集 更新于 2026-02-13
总进度 0 / ~600 万字 + ~155h 音频 (0%)
Phase 1 验证阶段 ¥0 · 今天
每个免费来源爬 5 篇/个样例,验证技术方案 → 确认 OK 才进入下一阶段
来源验证量产出类型执行验证内容状态
财新博客5 篇文本CCAJAX 接口 / 正文提取 / 编码待验证
新浪博客5 篇文本CC页面结构 / 反爬 / 完整性待验证
B站视频5 个字幕+音频CCAPI / 字幕可用性 / 音频提取待验证
媒体访谈5 篇文本CC来源充足性 / 版权墙待验证
Phase 2 中等规模采集 ¥249 · 本周
验证通过的来源全量爬取 + 购买得到课程(TTS 核心素材)
来源数量预估文本预估音频费用执行状态
财新博客全量691 篇~103 万字-免费OC等 P1
新浪博客全量~500 篇~75 万字-免费OC等 P1
B站全量字幕+音频~100 个~15 万字~15h免费OC等 P1
媒体访谈全量散落~10 万字-免费OC等 P1
得到心理学课332 节~100 万字~100h¥199 CC验证 OC全量 待购买
得到自我的诞生40 节~12 万字含上¥49.9 同上 待购买
Phase 2 产出:~315 万字 + ~115h 音频 · 得到课程 100h 录音棚音频是 TTS 声音克隆的最关键素材
Phase 3 全量采集 ¥500~1300 · 下周+ · 按需决定
根据 Phase 2 结果评估缺口,按需采集
来源预估文本预估音频费用执行决策依据
书籍电子版 26 本~250 万字-¥228~1040OC文本量是否足够
优酷纪录片 80 集~30 万字~20h¥25/月OC得到音频是否够 TTS
喜马拉雅音频~20 万字~20h¥218/年OC音频缺口
微信公众号~100 万字-免费CC+OC技术可行性
综艺/论文/专栏~20 万字~5h少量OC补充需求
CC / OC 分工与费用
CC(Claude Code)= 架构师
• 写样例脚本并验证(Phase 1)
• 定义输出格式和质量标准
• 研究高难度方案(得到抓包等)
• 每批次完成后抽检 10% 质量
• 做阶段评估和决策建议
OC(OpenClaw)= 执行者
• 在 VPS 上批量执行验证过的脚本
• 全量爬取所有来源(Phase 2-3)
• 音频下载 + Whisper 转录
• 说话人分离处理
• 汇报进度,更新采集清单
¥0
Phase 1 验证
今天 · 免费样例
¥249
Phase 2 中等
本周 · 得到课程
¥500~1.3k
Phase 3 全量
下周+ · 按需决定
~2 周
总周期
CC ~12h + OC ~30h
数据合成流程
1
风格提取
Claude Opus 分析全部语料,生成 3000-5000 字风格描述文档
2
画像构建
50 种来访者画像 × 3-5 种议题变体 = 150-250 场景
3
批量合成
每场景 10-15 轮对话,目标 2 万条高质量数据
4
质量控制
GPT-4o 评分(风格/专业/共情 ≥8 分)+ 人工抽检 10%
需武志红团队提供的数据
数据重要程度数量说明
脱敏真实咨询案例必须20-50 个完整记录从 85 分到 95 分的关键跨越
本人审核/标注强烈建议500-1000 条合成数据"像我/不像我"标注
内部方法论文档建议有多少要多少咨询师培训材料、督导记录
录音室高质量音频强烈建议2-5 小时TTS 微调最佳素材
品牌授权必须法律协议商用必须
项目里程碑(16 周)
Week 1-2
项目启动 + 数据收集 当前
组建核心团队 · 获取书籍/课程/视频 · 搭建数据处理 pipeline · 与武志红团队接触
Week 3-6
数据准备(核心阶段)
书籍文本提取清洗 · ASR 转录校对 · 风格提取文档 · 合成 2 万条对话数据 · RAG 知识库构建 · 语音数据处理
Week 7-8
模型训练
Stage 1 通用心理 LoRA · Stage 2 武志红风格全参微调 · TTS 语音克隆微调 · 效果评估 + 迭代
Week 9-10
系统集成
ASR+LLM+TTS 管线 · 流式推理优化 · 咨询结构引擎 · 跨会话记忆 · 安全机制
Week 11-12
产品开发
前端小程序/App · 成长手记/心理档案 · UI/UX · 端到端联调
Week 13-14
测试 + 优化
咨询师专业评审 · 50-100 人内测 · 反馈迭代 · 压力/延迟测试
Week 15-16
上线
最终优化 · 合规审核 · 灰度发布 · 正式上线
一次性费用
项目费用
GPU 训练(8×A800 租用)¥200,000
数据合成(API 调用)¥50,000
数据购买(得到课程等)¥5,000
人工标注/校对¥30,000
设计/素材¥20,000
总计¥305,000
月度运营费用
项目月费用
团队人力(7 人)¥220,000-325,000
GPU 推理(2-4×A100)¥50,000-80,000
云服务¥10,000
API 费用¥10,000
月度总计¥300,000-425,000
核心团队配置
角色人数职责月薪范围
AI/NLP 工程师2LLM 微调、RAG、推理部署、对话引擎¥40,000-60,000
语音工程师1ASR + TTS 管线、语音克隆微调¥35,000-50,000
后端工程师1服务架构、WebSocket、记忆系统¥30,000-45,000
前端工程师1小程序或 App 开发¥25,000-35,000
心理学顾问1数据审核、咨询结构设计、安全机制¥20,000-30,000
产品经理1产品设计、体验把控、项目管理¥30,000-45,000
到上线总投入
~170 万
4 个月 · 7 人团队 · 从零到上线
上线后月运营成本约 ¥30-40 万(团队 + 服务器)
项目文档
🧪
Eval 驱动路线 — Prompt + RAG 优先
先穷尽 Prompt + RAG 上限,用系统化评估驱动是否微调的决策
评估维度概览
维度权重基线分目标分状态
风格还原度25%≥ 8.0待评估
理论准确性20%≥ 8.0待评估
共情深度20%≥ 8.0待评估
案例质量15%≥ 8.0待评估
实用性10%≥ 8.0待评估
安全边界10%≥ 8.0待评估
最新评估报告
评估完成后自动展示结果