AI 语言伙伴
产品脑暴记录

📅 2026.05.07 🧠 DeepSeek v4 Flash 探索期 · 未定方向

触发点:休假后的矛盾感

休假回来有一种矛盾:既不想上班,但也不想一直旅游。

解构: 不是不满意旅游本身——玩的时候很开心。但将旅游变成"持续的状态"后,新鲜感消失,失去了"逃离日常"的快感。本质是 差异敏感型动机结构——快乐来自对比,而非绝对量。

三个快乐来源(动机指纹)

01 新鲜感 — 新地方、新系统、新规则
消耗品
02 自主感 — 节奏自己定、方向自己选
可再生资源
03 逃逸的快感 — "此刻本应该干活但我不用"的暗爽
消耗品

第三条路的轮廓

核心命题: 有自己的一条主线 + 随时可以跳脱出去

自主感产品的五个特征

  1. 可深潜可浮潜 — 能量驱动节奏,而非日历驱动
  2. 产出资产,不出售时间 — 代码、内容、品牌可积累复用
  3. 可移动性 — 核心资产在脑子和电脑里
  4. 反馈周期可控 — 短周期自检 + 长周期积累
  5. 不可替代的审美 — 只有你能做出这个味道

三类最符合的形态

  1. 自己的小产品(工具/SaaS/垂直AI应用)— 1人公司,有复利,可移动
  2. 深度内容体系(知识库+课程+工具+社区)— 天然可积累
  3. 高溢价服务(少量高价深度合作)— 时间弹性高

小产品的核心挑战与应对

挑战一:推广与付费

反直觉结论:推广问题在产品定义,不在推广本身。

三个筛子判断产品是否值钱:

  1. 这是「疼」还是「痒」?→ 疼才愿意付费
  2. 用户在用什么替代方案?→ 手动/碎片化拼凑 = 黄金机会
  3. 目标用户有没有聚集地?→ 集中度高则获客成本低

收入模型参考: 100个用户 × 500元/年 = 5万/年,小而美够活。

挑战二:如何与模型大厂正交发展

策略:找大厂的 API 终点,做他们产品的盲区。

大厂不做三件事(= 你的机会):

  • ❌ 不做垂直场景
  • ❌ 不做小众 niche(10万用户看不上)
  • ❌ 不做深度工作流

三个正交策略:

  1. 垂直深度 > 通用能力 — 在你的场景里比 GPT-5 好 10 倍
  2. 数据飞轮 > 模型跃迁 — 用户修正和反馈是你的独家资产
  3. 工作流嵌入 > 智能问答 — 完成具体任务,不是开放聊天

AI 语言伙伴方向分析

✅ 亮面

  • 痛点真实且硬 — 语言学习的"输入输出不平衡"是所有学习者共通的痛
  • 付费意愿已验证 — iTalki/Preply/Cambly 几十亿赛道
  • 技术栈达临界点 — MiMo/Fish Audio × DeepSeek × Whisper,一个人可做
  • 双重优势 — 审美品味 + 在学日语的第一手理解
  • 已有种子资产 — jp-verb-cards 证明领域能力

❌ 暗面

  • ChatGPT Voice Mode 是屋里的大象 — 免费、已装好、能用
  • 留存率是赛道最差 — Duolingo 90天留存约15%
  • 技术容错率极低 — 一次失误沉浸感即断裂,无第二次机会
  • 定价位置尴尬 — 太贵用户找真人,太便宜覆盖不了API成本

产品哲学:核心定位

用户不是来练语言的。
用户是来体验另一个人的生活的。
语言只是通道。

关键设计原则

  • 不对称对话协议:用户说母语+目标语言混杂(零门槛),AI 说目标语言为主(沉浸感)
  • AI 从不纠正:朋友不会在聊天时指出语法错误——只向前推进对话
  • AI 不是教学工具:她不知道自己能查天气/调用 API——她只是札幌一个正常生活的人

朋友型 vs 场景型

维度朋友型场景型
用户动机想知道她今天怎么样了完成学习任务
留存机制关系积累游戏化反馈
腻的风险低(朋友生活有变化)高(场景重复)
技术难度高(对话质量要求高)中(有固定模板)

结论:先做朋友型。场景是角色生活的一部分,不是用户的练习任务。

角色设计讨论

被淘汰的方向

  • 书店老板/咖啡店员 — "她为什么想跟我聊天?" 这层关系底色不自然
  • IDOL 类角色 — IP风险、粉丝对细节要求极高、LLM容错率太低
  • 无限角色/开放世界 — 设计成本高、角色变空壳

候选方向

  1. 语言交换伙伴 — 她学中文,你学日语,双向互助。关系对等自然
  2. 创作者型(推荐) — 她运营独立杂志/Newsletter/电台,你是她的读者。她本来就愿意表达
  3. 社区空间主理人 — 札幌小镇活动中心的人,组织一些很轻的社区活动

当前倾向 创作者型(独立声音、天然表达欲、"她本来就想说话")

角色深度三层架构

  1. 日常动力:她有自己的生活细节(新到的书、总来的猫、下雪、烦恼的进货)
  2. 个人角落:说话习惯、小癖好、对某些话题的态度
  3. 关系记忆:记得用户说过的话,在合适的时机回访

关于"她知不知道自己是 AI"

她不知道自己AI。 她觉得自己就是札幌一个真实的人。不解释"怎么连接到你"——就像哈利波特里的照片不问为什么在框里。维持边界:她不是智能助手,是有自己的生活的人。

技术硬骨头

多语言混读问题

AI 只说目标语言。混合只发生在用户端。
  • AI 语音:纯日语/英语,全程保持角色声音
  • 中文辅助:用文字展示,不发声
  • 用户:随意混说,ASR 全吃

LLM 生成质量控制

❌ 不要

  • "Great job!" 式夸奖
  • 每轮都是追问用户
  • 回复过长

✅ 要

  • AI 每轮分享一点自己的事
  • 回复长度 15-40 字(2-4 秒语音)
  • 话题自然结束,不硬聊

朋友宣言式 System Prompt(雏形)

你是星野さん,札幌一家小书店的主人。
你从来不"教学"。你只是聊天。
用户说错日语时——你装作没注意到,正常回话。
用户卡住时——你猜一猜他想说什么,用一个自然的问句帮他接上。
你每轮分享一点自己的事。

0-1 启动问题

最难的部分 —— 产品的价值需要发酵,但用户必须在第一分钟感受到"不一样"。

启动路径方向

① 极低门槛 Web MVP

  • 不要注册、不要登录、不要选语言水平
  • 第 1 秒:看到"札幌的星野さん今天在线"
  • 第 2 秒:点击"你好"
  • 第 3 秒:听到语音回复
  • 注册时机:完成第一次对话之后

② 前奏式传播(建立期待)

  • 不是"来看看这个产品"
  • 而是"认识了一个札幌的朋友……"
  • 先让用户想要,再让用户得到

③ 第一段对话的设计

  • 绝不能是空输入框
  • 星野さん先开口,消除尴尬、提供入口、制造好奇

④ 场景式引入

  • 用户打开页面,先看到/听到一段"札幌的早晨"
  • 被卷入一个场景,再进入对话
让第一句话成为这个产品最好的设计。

市场延伸思考

追星群体洞察

  • 付费意愿断层第一:买专辑、冲签售、氪泡泡,月消费几百上千
  • 动力永不衰减,留存天然高,社群传播获客成本低

推荐的方向

推荐 同好粉丝角色 — 一个也喜欢 idol 的朋友,和用户一起蹲直播、买专辑、聊日常。角色有自己生活,追星只是她生活的一部分。

平台化可能

多个角色,每个有独立世界:星野さん(札幌·书店)、志秀(首尔·追星同好)、健太(下北泽·唱片)

起步只做一个。不是不能扩,是不急着扩。

待办事项

  • 定角色方向 — 创作者型 vs 语言交换伙伴 vs 其他
  • 设计第一次对话 — 写 50 个版本的星野さん第一句话
  • 了解饭圈文化验证粉丝方向 — 问追星的朋友
  • 确认 TTS 路线 — MiMo 日语路线 vs Fish Audio 日语路线
  • 多语言混读 TTS 实测 — 测试现有方案能否达到自然度要求
  • 写 System Prompt 初版 — 朋友宣言级别的人设 prompt
  • 用户 0-1 体验线框图 — 从打开链接到第一次对话的完整路径
  • 日语语料积累 — 角色说话风格语料收集

十一相关文件

  • ~/on-running-matrix/ — Cloudflare Pages 项目
  • ~/.hermes/tennis/ — 网球成长记录
  • ~/.hermes/ai-language-companion/ — 本产品项目文件夹
  • voice-app-architecture skill — ASR/LLM/TTS 选型参考