流程·洞察
从 Siri 到「听写」,探索语音交互的几种可能
上月既是乔布斯去世 10 周年,也是 Siri 成为 iPhone 内置服务的 10 周年,科技媒体 Verge 的一篇文章坦言:10 岁的 Siri,依然是个不称职的语音助理。
Verge 的观点建立在 Siri 作为「通用语音交互入口」的基础之上,从这个角度去看,Siri 的确很傻,面对很多问题都无法给出有效的回应。
但在狭义层面,如果把 Siri 作为 iOS 应用生态的入口,或许可以有一番新的认知,打开搭载 iOS/iPadOS 设备的系统设置,找到「Siri 与搜索」,你会看到一系列默认设置,如下图所示:
上述这些设置构成了使用 Siri 的基础,你可以定制使用 Siri 的方式,比如是否通过按下顶部按钮或者是否在设备锁定的时候使用 Siri,同时还可以根据自己的喜好,定制与 Siri 交互的语言以及 Siri 的声音(男生还是女生)等等。
其次,Siri 还是快捷指令交互的重要手段。我曾在去年的一封邮件通讯里提出过「无应用化」的理念,即通过诸如快捷指令构建起一系列功能入口,取代我们之前「打开应用——寻找功能——打开功能」的应用使用方式,没有印象的朋友请参见第 57 期「iPad Power User」。
而借助 Siri 语音,基于快捷指令的「无应用化」可以更进一步减少对触控、键盘交互的依赖,比如下面这个快捷指令,这是我给邮件应用 Spark 设置的快捷指令,通过 Siri 唤醒,直接说「今天的邮件」即可跳转到 Spark,然后过滤出所有今天收到的邮件。
事实上,类似「今天的邮件」这样的唤醒词可以自行定制,默认情况下是根据快捷指令的名字而变化,比如如果把这个快捷指令名字改为「搜索邮件」,Siri 的唤醒词也会发生变化。
第三,语音还可以成为一种记录,在 iOS/iPadOS 里,语音备忘录是一个默认应用,它提供了简单而实用的语音记录功能,同时还拥有一定的编辑能力,既支持剪辑,还能调整播放速度、是否跳过静音以及是否增强录音(突出人声)等。
第四,如果说语音数据是一种非结构化数据,不便于检索,那么利用「听写」,则可以让你的思考变成结构化的数据。
「听写」功能位于 iOS/iPadOS 「设置/通用/键盘」处,如下图所示,你可以在这里自定义语言以及相应的键盘快捷键。
关于键盘快捷键我需要多说两句,系统默认的快捷键是敲击两下「Control」,这是一个适用于任何界面、任何应用的功能开关,当然你还可以将其修改为敲击两下「Command」。
另一方面,在支持「听写」功能的应用里,比如 Drafts,你还可以借助「地球仪+D」的键盘快捷键快速启动「听写」,这个时候,两个快捷键可同时使用。
「听写」能够帮助用户直接将语音转化为文本,支持停顿时的标点补齐甚至你也可以使用「逗号」、「句号」这样的关键词进行分句,另外也具有一定的纠错能力,方便后期的修订。
不过也需要提醒一点,目前「听写」还比较局限于一种语言,当出现两种语言混杂的时候,比如中英文放在一起的情况下,准确率比较低。
综上,通过设置 Siri、语音唤醒快捷指令、语音记录以及基于「听写」的结构化信息输出,狭义层面的语音交互依然具有非常多的应用场景,一方面,它构成了用户专属的功能入口,可定制化的语音命令直达某个特定功能;另一方面,「听写」成为语音与文本之间转换的桥梁,特别是在诸如 AirPods 等耳机的「助攻」之下,无需触控或键盘,你也可以快速把自己的思考「写」出来。
|