项目总览
技术架构
数据准备
里程碑
预算与团队
文档资料
项目阶段
规划中
等待决策启动
预计周期
16
约 4 个月
总预算
170
到上线(含人力)
核心团队
7
AI/语音/后端/前端/心理/PM
语料总量
450 万字
26 本书 + 332 节课 + 视频
项目定义

构建武志红的 AI 数字分身,以 Chatbox(文字 + 语音)为交互形式,为用户提供接近武志红本人水平和风格的心理咨询体验。

核心体验指标
专业性(咨询师级别)目标 8/10
风格还原度目标 8/10
语音逼真度目标 MOS 4.0
对话延迟目标 <1.5s
武志红风格指纹
理论内核客体关系理论 + 经典精神分析
核心概念巨婴、全能自恋、共生关系、内在小孩
母题"成为你自己"
分析路径当前困境 → 原生家庭回溯 → 模式识别 → 洞察
语言特征温和但直接,善用日常案例,一句话点破本质
高频词感受、看见、真自我、假自我、投射、客体
标志性能力:用一句话直击问题本质("金句能力")——这是最关键的体验差异点
待决策事项
决策项选项建议状态
合作模式先做 Demo / 先谈合作先谈合作已确认
产品形态微信小程序 / 独立 App独立 App已确认
产品定位心理陪伴 / 心理咨询心理陪伴 + 部分心理咨询已确认
团队组建自建 / 部分外包全部自建已确认
商业模式订阅 / 按次 / 免费增值订阅制 ¥199/月已确认
第一步全面启动 / MVP 验证视合作谈判进展待定
系统架构
用户端(小程序/App)
       │
       ▼
┌─────────────────────────────────────────────────┐
│                    接入层                         │
│  WebSocket 长连接 · 流式传输 · 会话状态管理       │
└──────┬──────────────┬────────────────────┬──────┘
       │              │                    │
       ▼              ▼                    ▼
   ┌──────┐    ┌─────────────┐      ┌──────────┐
   │ ASR  │    │  LLM 引擎    │      │   TTS    │
   │ Fire │───▶│ Qwen2.5-72B │─────▶│ Qwen3-TTS│
   │ Red  │    │ 全参微调     │      │ 微调克隆  │
   │ ASR  │    │ + RAG 知识库 │      │ 武志红声音│
   └──────┘    └──────┬──────┘      └──────────┘
                      │
              ┌───────┴───────┐
              │    业务层      │
              │  咨询结构引擎  │
              │  情绪感知系统  │
              │  跨会话记忆   │
              │  安全/危机识别 │
              └───────┬───────┘
                      │
              ┌───────┴───────┐
              │    数据层      │
              │  Milvus 向量库 │
              │  用户心理档案  │
              │  会话历史     │
              └───────────────┘
技术选型
LLM 层
Qwen2.5-72B-Instruct 全参数微调 (8×A800) LLaMA-Factory vLLM 推理 DeepSpeed ZeRO-3
RAG 层
Milvus / Qdrant BGE-large-zh-v1.5 BGE-reranker-v2-m3 混合检索(向量+BM25)
语音层
Qwen3-TTS(微调克隆) FireRedASR SenseVoice(情绪识别) 流式合成
业务层
咨询结构状态机 多维情绪感知 跨会话记忆 危机干预协议
前端
微信小程序 / App WebSocket 流式音频播放
微调策略:两阶段 SFT
Stage 1:通用心理咨询
数据PsyQA + SmileChat + CPsyCounD(~8 万条)
方式LoRA 微调
目的基础心理咨询能力
耗时1-2 天
Stage 2:武志红风格注入
数据合成对话 2 万条 + 真实案例
方式全参数微调
目的说话像武志红、分析像武志红
耗时3-5 天
语料资源总览
来源类型预估量获取方式状态
26 本著作风格语料~250 万字电子书提取待开始
得到 332 节课风格语料~100 万字(80-100h 转录)购买 + ASR待开始
视频节目风格语料~30 万字(15-30h)视频平台 + ASR待开始
公众号/博客风格语料~70 万字爬取待开始
公开心理数据集通用能力~8 万条开源下载待开始
合成武志红风格对话核心训练数据2 万条 / 30-40 万轮Claude Opus 合成待开始
脱敏真实咨询案例核心训练数据20-50 个完整案例武志红团队提供需团队配合
得到课程音频TTS 微调5-10 小时精选片段从 80-100h 中筛选待开始
数据合成流程
1
风格提取
Claude Opus 分析全部语料,生成 3000-5000 字风格描述文档
2
画像构建
50 种来访者画像 × 3-5 种议题变体 = 150-250 场景
3
批量合成
每场景 10-15 轮对话,目标 2 万条高质量数据
4
质量控制
GPT-4o 评分(风格/专业/共情 ≥8 分)+ 人工抽检 10%
需武志红团队提供的数据
数据重要程度数量说明
脱敏真实咨询案例必须20-50 个完整记录从 85 分到 95 分的关键跨越
本人审核/标注强烈建议500-1000 条合成数据"像我/不像我"标注
内部方法论文档建议有多少要多少咨询师培训材料、督导记录
录音室高质量音频强烈建议2-5 小时TTS 微调最佳素材
品牌授权必须法律协议商用必须
项目里程碑(16 周)
Week 1-2
项目启动 + 数据收集 当前
组建核心团队 · 获取书籍/课程/视频 · 搭建数据处理 pipeline · 与武志红团队接触
Week 3-6
数据准备(核心阶段)
书籍文本提取清洗 · ASR 转录校对 · 风格提取文档 · 合成 2 万条对话数据 · RAG 知识库构建 · 语音数据处理
Week 7-8
模型训练
Stage 1 通用心理 LoRA · Stage 2 武志红风格全参微调 · TTS 语音克隆微调 · 效果评估 + 迭代
Week 9-10
系统集成
ASR+LLM+TTS 管线 · 流式推理优化 · 咨询结构引擎 · 跨会话记忆 · 安全机制
Week 11-12
产品开发
前端小程序/App · 成长手记/心理档案 · UI/UX · 端到端联调
Week 13-14
测试 + 优化
咨询师专业评审 · 50-100 人内测 · 反馈迭代 · 压力/延迟测试
Week 15-16
上线
最终优化 · 合规审核 · 灰度发布 · 正式上线
一次性费用
项目费用
GPU 训练(8×A800 租用)¥200,000
数据合成(API 调用)¥50,000
数据购买(得到课程等)¥5,000
人工标注/校对¥30,000
设计/素材¥20,000
总计¥305,000
月度运营费用
项目月费用
团队人力(7 人)¥220,000-325,000
GPU 推理(2-4×A100)¥50,000-80,000
云服务¥10,000
API 费用¥10,000
月度总计¥300,000-425,000
核心团队配置
角色人数职责月薪范围
AI/NLP 工程师2LLM 微调、RAG、推理部署、对话引擎¥40,000-60,000
语音工程师1ASR + TTS 管线、语音克隆微调¥35,000-50,000
后端工程师1服务架构、WebSocket、记忆系统¥30,000-45,000
前端工程师1小程序或 App 开发¥25,000-35,000
心理学顾问1数据审核、咨询结构设计、安全机制¥20,000-30,000
产品经理1产品设计、体验把控、项目管理¥30,000-45,000
到上线总投入
~170 万
4 个月 · 7 人团队 · 从零到上线
上线后月运营成本约 ¥30-40 万(团队 + 服务器)
项目文档