跨越感官 – 产品的多模态交互（系列五）

发布时间：2024-11-15 15:22:00 浏览量：92

在前几篇文章中，我们讨论了环境、注意力等内容，听觉作为仅次于视觉的重要感官，这篇文章，我们分析下其在人机交互中的作用和设计要素。

“人体是一个反映整个世界样子的镜子，眼睛印证了宇宙中有光的存在，耳朵印证了机械振动的存在。”

🪐本篇知识点概括：

1.听觉 – 仅次于视觉的第二高分辨率感官

2.听觉的人机交互参数

3.声音体验设计

4.语音交互设计

01 听觉 -仅次于视觉的第二高分辨率感官

听觉利用我们周围的空气，以振动波的形式传递压力，人们用有趣的方式感知这些振动的变化，比如感知到音高（pitch) ，和谐波(harmonic)。

「音高」指的是声音的频率，决定了我们听到的音调的高低。音高越高，频率越高，反之亦然。「和谐波」则是指在基本频率的基础上，声音中存在的其他频率成分，这些成分与基本频率的关系通常是整数倍的关系，形成了丰富的音色和音质。「音高」和「和谐波」在音乐和语言中都扮演着重要角色，影响着我们对声音的感知和理解。

我们可以做到有选择地集中注意力倾听，无论是森林中一只活跃的鸟，还是某个人在一个嘈杂的房间里说话（也称为“鸡尾酒会效应”）。这是因为我们的两只耳朵相隔一段距离，双耳听觉的配置让我们能够在 3D 空间中定位声源。空气是迄今为止最常见的振动，我们可以听到波通过大多数形式的物质传导，例如在水下游泳的时候，将耳朵贴在地上的时候，我们甚至可以使用骨骼传导声波设备。

听觉是仅次于视觉的第二高分辨率感官。通过语言和音乐，它与我们一些最具智力和创造力的追求息息相关。然而，当你把这些听觉体验拆解开来时，一首小提琴协奏曲、一句莎士比亚的歌词或溪流的潺潺流淌，实际上都是声源和我们耳朵之间的空间中吹过的一点空气。声音与自我表达最直接地联系在一起，发声是我们最早的交流能力之一。显然，听力与语言能力密切相关，副语言也占交流的很大一部分（即：非语言交流），如叹息、面部表情、手势、清嗓子，以及所说的话语的细微语气，称为韵律。

02 听觉的人机交互参数

范围：

频率/音高：20–20,000 赫兹（Hz）空气压缩波的每秒循环次数。振幅/体积：0–130 分贝（dB）气压变化的程度

分辨率：

频率和音量的高分辨率让在一串声音中可以很容易地区分音高和音量的微小差异，但是单独播放单个声音的时候就要困难得多。我们可以区分不同音色，距离、混响和颤音（这些术语通常用于描述人声和乐器。）

聚焦：

选择性听觉注意（又称「鸡尾酒会效应」）我们可以一次听到多种声音，就像管弦乐队中的不同乐器一样，也可以从许多不同的声音中挑选出单个声音。

反射：

惊吓反应，也称为战斗或逃跑，可能由突然、响亮或意外的声音或动作触发，也与其他感官相关。在过高的音量下，耳朵会停止对声音做出反应，以防止耳朵受伤。

听觉无障碍：

听力损失以 dB 为单位，随着年龄的增长而恶化。大约 20% 的人群患有某种形式的听力损失。

其他能力：

双耳听觉使我们能够感知物体在空间中相对于我们自己的位置（声源定位）。副语言是非语言交流的广义术语，韵律是一种描述语气、重音和其他意义载体的类型。即使是很低频的声音也可以感觉到振动。03 声音体验设计

对于设计师来说，专注和认知是针对声音体验进行设计的关键因素。因为以语音形式携带信息是认知密集型的，所以它传递的速度和对即时环境的有用性很重要。例如，谷歌地图对及时提供转弯方向的音效使用非常谨慎，为了保证不让用户收到难以记住的信息。

声音的早期用途是在远距离传递简单的信息。人们很快就发现，即使在其他人很忙的时候，声音也是吸引他人注意力的好方法。紧急救援人员车辆上的警报器、吓唬入侵者或在火灾中动员建筑物居民的响亮警报，以及教堂的钟声或祈祷的呼唤基本上是一种公共广播。这可能是因为听觉是我们最快的感官。更温和、更个人化的声音使用，例如电话铃声和手机消息提醒，设计的意图都旨在提醒而不是警告人们。现代生活的许多声音来源仍然是教堂塔楼上的金属钟和火车上的电话或蒸汽喇叭的复古设计，哔哔声就可以追溯到以前最古老的电动扬声器。

电子扬声器👆

当然，再现各类自然声音的能力有限，我们被声音提醒的方式也不需要如此复古。如今的声音设计变得更加有创意，例如大阪的地铁在每个车站到达时播放独特的歌曲，经常在通勤途中睡着的乘客可以很容易地识别出他们所在车站的独特旋律，提醒乘客在听到对应站点的歌曲时醒过来。

除了警报之外，功能性声音设计通常起着辅助作用，「邀请」或更常见的「确认」操作，打电话的时候，拨号音表示系统正常运行，要求用户采取行动。随着数字交互性取代模拟交互，「确认」变得越来越普遍，就像为您的相机提供的可自定义快门点击声音一样。声音经常用于补充其他感官（通常是视觉），因此在帮助盲人或视障人士时尤为常见，例如声音增强过马路信号或火车站的语音名称，不仅可以帮助那些没有视力的通勤者，还可以帮助那些视线可能被遮挡的人。

日本路旁电线杆顶端的红绿信号灯旁都安装了一个名叫“附音响装置信号机”的装置，它能在绿色信号灯时发出“布谷、布谷”的声音，提醒盲人过马路。

电子游戏大量使用声音，既作为互动元素，也作为叙事元素。电子游戏的一个有趣的子类型，“无画面”，意味着玩家要闭着眼睛玩，以 Papa Sangre 系列及其衍生产品为代表，例如本尼迪克特·康伯巴奇（Benedict Cumberbatch）讲述的夜鹰。它基于声音，使用双耳音频来传递位置感、动量和动作感，而游戏则由手机的加速计检测到的手势和原本空白屏幕上的控制器按钮组成。这些类型的探索不仅为游戏，而且为音频和触觉交互性开辟了新的、有用的（且有趣的）’赛道‘。

游戏 The Nightjar 将玩家放在一艘残疾的宇宙飞船上，而支持生命的关键系统又出现了故障。视力丧失加剧了游戏的心理恐怖，主要运用的就是听觉和触觉。

04 语音交互设计

基于语音的交互（如 Amazon Echo、Apple Siri、Google Home 和 Google Assistant，天猫精灵，小爱同学等）的兴起预示着语音将成为一个更强大的场所，但限制仍然存在，尤其是在听力方面，因为该技术无法在嘈杂的环境中再现人类的鸡尾酒会效果。语言通过添加思想、概念、问题、描述以及副语言的抽象来传达额外的细微含义，从而为已经信息密集的声音领域增添了内容。而语音是一种运动能力——产生声带振动并协调我们的嘴巴、舌头和嘴唇以创建特定音素的能力，通常将语音技术成为听觉界面（Voice User Interface），按理这应该是最快能被用户驾驭的人机交互界面，因为会说话是人类与身俱来的能力，但实际用户在使用语音交互时，还是存在很多无法自然使用的问题，比如，“并不知道机器可以理解我哪些话啊“ ”公共场合开口和我手机说话是不是有点尴尬啊？”

从智能音箱等AI工具的出现，到现在以ChatGPT为代表的实时语音交互能力在处理人类语言和令人信服地响应的能力方面都取得了巨大进步，但就像 R2D2 （電影星際大戰系列中的一個機器人角色）通过无字的语气和节奏传达含义一样，副语言和韵律始终是声音设计时需要重点关注的。（人类始终是富有情感响应的动物）

跨越感官 – 产品的多模态交互（系列五）

相似文章