语音转文字和语音对话

status
category
date
summary
slug
icon
tags
password
最近在做语音对话,顺便思考了一些问题:
  1. 现有的语音转文字功能做得怎么样?
  1. 二者的区别?使用场景有何不同?
  1. 二者是否应该共存?

功能定义和区别

notion image
语音转文字
notion image
语音对话
以纯文本聊天为基准
  1. 语音转文字功能是免去用户手动打字,而是将用户的语音转成文字,再发送,用户收到的也是文字
  1. 语音对话功能类似打电话,双方都是自己说话、听对方说话,整个过程和文字无关
注:
  1. App截图来自ChatGPT
  1. 本文讨论的语音对话,指的是建立在文字对话的基础上,通过用户语音输入、AI语音输出模拟的语音对话

用户场景和需求

忘掉上面这些已有的方案,只考虑两个场景在不同环节中,内容的媒介区别
场景
用户输出
用户发送的媒介
用户收到、AI输出的媒介
语音转文字
语音
文字
文字
语音对话
语音
语音
语音
用户使用不同的功能,本质上是在意这些功能的差异性。
从发送媒介的区别出发:
  1. 有用户在意「发送的内容是文字」本身,原因是文字具有某些特点,为了满足这个用户场景,就会自然做出一些产品决策:
    1. 可视性强,便于快速浏览:输入框一定需要支持多行文字展示
    2. 可预览,便于校对,便于消息接收方浏览:转文字的结果一定是填到输入框,而不是直接发送
    3. 输入效率低:使用语音转文字只是为了提高输入效率
  1. 有用户在意「发送的内容是语音」,语音同样具备一些特点:
    1. 有感情:可以表达情绪
    2. 可读性差:获得信息内容的效率低,对方可能不便收听,但对AI来说没有这个问题
    3. 输入效率高:既然追求效率,那么操作步骤就越少越好,即对讲机模式,松手即发送,无需二次确认
  1. 有用户在意「收到的内容是文字」
    1. 可读性强:需要真实看到文字本身,尤其是在字词写法、代码等场景,所以需要注意文字排版和富文本支持
    2. 阅读效率高:看文字比听声音效率高,要注意匹配AI吐字的速度、用户浏览的速度、屏幕滚动的速度
  1. 有用户在意「收到的内容是语音」
    1. 有感情:可以感受对方的情绪,AI的说话方式如果可以模仿人的语气、感情,那么人机交流就可以不止停留在冷冰冰的文字和语音,而是在交流方式、内容、情感上都可能还原出任何人交流的场景
    2. 其他的缺点都可以为上面这一点让步
 
上面的思考过程很微妙,一边在探索场景的区别,一边在寻找用户的终极需求,还一边在定义产品功能。

一些想法

  1. 已有A功能,要新增B功能的前提,不仅仅是A和B不一样,而是
    1. 差异性:A和B满足了不一样的需求
    2. 不可替代性:部分需求只有A或B能满足
    3. 必要性:这些需求都需要被满足
  1. 已有A功能,要将A功能迭代为B功能的前提是,B不仅能满足新需求,还能很好地满足本来被A满足了的需求。
  1. 用户场景是对用户所在情景、用户目的等属性的包括性归纳,是产品设计者人为反向定义出来的。
  1. 用户本身不思考抽象的用户场景,只关心一两个具体的功能性差别,或者感受。
  1. 要满足某个场景,就要做到极致。对看似可以兼顾两者的方案保持警惕,兼顾的含义从正反两面解读,可以认为是两者都满足一些,也可以认为是都没满足好。
  1. 从经验还原主义的角度来说,感受只能复刻过去的体验,也就是对已有场景的再次实现。
  1. 要警惕创造新场景的想法。
  1. 不要总觉得之前的场景是过时的,要尊重历史的进程和过程。
  1. 参考是有好有坏的,看竞品的时候,不要带着借鉴的想法先入为主,有可能它们的方案不够好,或者场景不一样。
  1. 满足好每一个场景,做好差异化,甚至走向极端。例如MacBook Air和MacBook Pro的产品线差异化,分别满足了轻便办公和性能需要,从Pro系列额外补充的接口也能看出这一点。
  1. 不要做一个折中和妥协方案,两个场景都没有满足好。这个教训是看了文心一言才学到的。
notion image
说完一段话自动发送,AI回复了文字,再自动朗读,如此重复,于是
  1. 在意发送文字的人,发送之前没法预览和校对
  1. 在意收到文字的人,消息内容又会被遮挡,且无法滑动交互
  1. 在意通过语音进行沉浸式聊天的人,又会被繁杂的文字打扰,机械的AI语音也很出戏
共勉。
Loading...

© 刘口子 2018-2025