项目阶段
规划中
等待决策启动
预计周期
16 周
约 4 个月
总预算
170 万
到上线(含人力)
核心团队
7 人
AI/语音/后端/前端/心理/PM
语料总量
450 万字
26 本书 + 332 节课 + 视频
项目定义
构建武志红的 AI 数字分身,以 Chatbox(文字 + 语音)为交互形式,为用户提供接近武志红本人水平和风格的心理咨询体验。
核心体验指标
专业性(咨询师级别)目标 8/10
风格还原度目标 8/10
语音逼真度目标 MOS 4.0
对话延迟目标 <1.5s
武志红风格指纹
| 理论内核 | 客体关系理论 + 经典精神分析 |
| 核心概念 | 巨婴、全能自恋、共生关系、内在小孩 |
| 母题 | "成为你自己" |
| 分析路径 | 当前困境 → 原生家庭回溯 → 模式识别 → 洞察 |
| 语言特征 | 温和但直接,善用日常案例,一句话点破本质 |
| 高频词 | 感受、看见、真自我、假自我、投射、客体 |
标志性能力:用一句话直击问题本质("金句能力")——这是最关键的体验差异点
待决策事项
| 决策项 | 选项 | 建议 | 状态 |
|---|---|---|---|
| 合作模式 | 先做 Demo / 先谈合作 | 先谈合作 | 已确认 |
| 产品形态 | 微信小程序 / 独立 App | 独立 App | 已确认 |
| 产品定位 | 心理陪伴 / 心理咨询 | 心理陪伴 + 部分心理咨询 | 已确认 |
| 团队组建 | 自建 / 部分外包 | 全部自建 | 已确认 |
| 商业模式 | 订阅 / 按次 / 免费增值 | 订阅制 ¥199/月 | 已确认 |
| 第一步 | 全面启动 / MVP 验证 | 视合作谈判进展 | 待定 |
系统架构
用户端(小程序/App)
│
▼
┌─────────────────────────────────────────────────┐
│ 接入层 │
│ WebSocket 长连接 · 流式传输 · 会话状态管理 │
└──────┬──────────────┬────────────────────┬──────┘
│ │ │
▼ ▼ ▼
┌──────┐ ┌─────────────┐ ┌──────────┐
│ ASR │ │ LLM 引擎 │ │ TTS │
│ Fire │───▶│ Qwen2.5-72B │─────▶│ Qwen3-TTS│
│ Red │ │ 全参微调 │ │ 微调克隆 │
│ ASR │ │ + RAG 知识库 │ │ 武志红声音│
└──────┘ └──────┬──────┘ └──────────┘
│
┌───────┴───────┐
│ 业务层 │
│ 咨询结构引擎 │
│ 情绪感知系统 │
│ 跨会话记忆 │
│ 安全/危机识别 │
└───────┬───────┘
│
┌───────┴───────┐
│ 数据层 │
│ Milvus 向量库 │
│ 用户心理档案 │
│ 会话历史 │
└───────────────┘
技术选型
LLM 层
Qwen2.5-72B-Instruct
全参数微调 (8×A800)
LLaMA-Factory
vLLM 推理
DeepSpeed ZeRO-3
RAG 层
Milvus / Qdrant
BGE-large-zh-v1.5
BGE-reranker-v2-m3
混合检索(向量+BM25)
语音层
Qwen3-TTS(微调克隆)
FireRedASR
SenseVoice(情绪识别)
流式合成
业务层
咨询结构状态机
多维情绪感知
跨会话记忆
危机干预协议
前端
微信小程序 / App
WebSocket
流式音频播放
微调策略:两阶段 SFT
Stage 1:通用心理咨询
| 数据 | PsyQA + SmileChat + CPsyCounD(~8 万条) |
| 方式 | LoRA 微调 |
| 目的 | 基础心理咨询能力 |
| 耗时 | 1-2 天 |
Stage 2:武志红风格注入
| 数据 | 合成对话 2 万条 + 真实案例 |
| 方式 | 全参数微调 |
| 目的 | 说话像武志红、分析像武志红 |
| 耗时 | 3-5 天 |
语料资源总览
| 来源 | 类型 | 预估量 | 获取方式 | 状态 |
|---|---|---|---|---|
| 26 本著作 | 风格语料 | ~250 万字 | 电子书提取 | 待开始 |
| 得到 332 节课 | 风格语料 | ~100 万字(80-100h 转录) | 购买 + ASR | 待开始 |
| 视频节目 | 风格语料 | ~30 万字(15-30h) | 视频平台 + ASR | 待开始 |
| 公众号/博客 | 风格语料 | ~70 万字 | 爬取 | 待开始 |
| 公开心理数据集 | 通用能力 | ~8 万条 | 开源下载 | 待开始 |
| 合成武志红风格对话 | 核心训练数据 | 2 万条 / 30-40 万轮 | Claude Opus 合成 | 待开始 |
| 脱敏真实咨询案例 | 核心训练数据 | 20-50 个完整案例 | 武志红团队提供 | 需团队配合 |
| 得到课程音频 | TTS 微调 | 5-10 小时精选片段 | 从 80-100h 中筛选 | 待开始 |
数据合成流程
1
风格提取
Claude Opus 分析全部语料,生成 3000-5000 字风格描述文档
2
画像构建
50 种来访者画像 × 3-5 种议题变体 = 150-250 场景
3
批量合成
每场景 10-15 轮对话,目标 2 万条高质量数据
4
质量控制
GPT-4o 评分(风格/专业/共情 ≥8 分)+ 人工抽检 10%
需武志红团队提供的数据
| 数据 | 重要程度 | 数量 | 说明 |
|---|---|---|---|
| 脱敏真实咨询案例 | 必须 | 20-50 个完整记录 | 从 85 分到 95 分的关键跨越 |
| 本人审核/标注 | 强烈建议 | 500-1000 条合成数据 | "像我/不像我"标注 |
| 内部方法论文档 | 建议 | 有多少要多少 | 咨询师培训材料、督导记录 |
| 录音室高质量音频 | 强烈建议 | 2-5 小时 | TTS 微调最佳素材 |
| 品牌授权 | 必须 | 法律协议 | 商用必须 |
项目里程碑(16 周)
Week 1-2
项目启动 + 数据收集 当前
组建核心团队 · 获取书籍/课程/视频 · 搭建数据处理 pipeline · 与武志红团队接触
Week 3-6
数据准备(核心阶段)
书籍文本提取清洗 · ASR 转录校对 · 风格提取文档 · 合成 2 万条对话数据 · RAG 知识库构建 · 语音数据处理
Week 7-8
模型训练
Stage 1 通用心理 LoRA · Stage 2 武志红风格全参微调 · TTS 语音克隆微调 · 效果评估 + 迭代
Week 9-10
系统集成
ASR+LLM+TTS 管线 · 流式推理优化 · 咨询结构引擎 · 跨会话记忆 · 安全机制
Week 11-12
产品开发
前端小程序/App · 成长手记/心理档案 · UI/UX · 端到端联调
Week 13-14
测试 + 优化
咨询师专业评审 · 50-100 人内测 · 反馈迭代 · 压力/延迟测试
Week 15-16
上线
最终优化 · 合规审核 · 灰度发布 · 正式上线
一次性费用
| 项目 | 费用 |
|---|---|
| GPU 训练(8×A800 租用) | ¥200,000 |
| 数据合成(API 调用) | ¥50,000 |
| 数据购买(得到课程等) | ¥5,000 |
| 人工标注/校对 | ¥30,000 |
| 设计/素材 | ¥20,000 |
| 总计 | ¥305,000 |
月度运营费用
| 项目 | 月费用 |
|---|---|
| 团队人力(7 人) | ¥220,000-325,000 |
| GPU 推理(2-4×A100) | ¥50,000-80,000 |
| 云服务 | ¥10,000 |
| API 费用 | ¥10,000 |
| 月度总计 | ¥300,000-425,000 |
核心团队配置
| 角色 | 人数 | 职责 | 月薪范围 |
|---|---|---|---|
| AI/NLP 工程师 | 2 | LLM 微调、RAG、推理部署、对话引擎 | ¥40,000-60,000 |
| 语音工程师 | 1 | ASR + TTS 管线、语音克隆微调 | ¥35,000-50,000 |
| 后端工程师 | 1 | 服务架构、WebSocket、记忆系统 | ¥30,000-45,000 |
| 前端工程师 | 1 | 小程序或 App 开发 | ¥25,000-35,000 |
| 心理学顾问 | 1 | 数据审核、咨询结构设计、安全机制 | ¥20,000-30,000 |
| 产品经理 | 1 | 产品设计、体验把控、项目管理 | ¥30,000-45,000 |
到上线总投入
~170 万
4 个月 · 7 人团队 · 从零到上线
上线后月运营成本约 ¥30-40 万(团队 + 服务器)
项目文档