干货丨人机交互研究的现状概述-

导读

一直以来，互动都是困扰着优化利用电脑的一个问题。人类与计算机交互所使用的方法也由来已久。但探索仍在继续，新的设计技术系统日益更新升级，过去的几十年中这一领域的研究一直快速增长着。在人机交互(HCI)领域中的成长不仅仅体现在互动质量的提高，在它的成长史中也开辟了不同的分支。不同的研究分支有异于设计常规互动，而是更多的关注多峰性而不是单峰性、关注智能自适应互动而不是基于命令/行动的互动，最终呈现的是主动而不是被动的互动。本文旨在提供一个人机交互系统发展现状的概述，第二节将介绍人机交互的基本定义和术语，概述现有的技术和该领域的最新进展，随后将描述人机交互设计中的不同架构。最后一部分将介绍一些人机交互的应用及其未来发展方向。

锁着计算机与人工智能的发展，中国汽车纵横来聊一聊人机交互这些事。

人机交互：定义，术语

人机交互有时称为人与机器的互动。人机交互的概念自然代表着计算机、或更普遍的来说是机器自身的兴起。事实上原因很清楚，最复杂的机器是毫无价值的，除非他们可以被人类使用得当，这个基本的争论代表着在设计人机交互时应考虑的主要的术语：功能性和可用性。

为什么一个真正被设计出来的系统可以由这个系统的功能来最终定义？系统的功能性可以怎样帮助达成系统的目的？一个系统的功能可以由它提供给用户一系列操作与服务来界定。当然，功能性的价值只有在它被用户有效利用时才是可见的。可用性是一个带有某些功能的系统可以被其用户有效利用和充分实现特定目标的范围和程度。功能性和可用性适当的平衡是一个系统获得真正有效性的必要条件。

当头脑中有这些概念时再考虑到计算机、机器和系统这些在文章中通常可以互换使用的术语，人机交互是应该是一个使用户、机器和所需的服务之间产生配合的设计，以在服务的质量和最优性能上达到一个特定的效果。例如，一架飞机零件设计工具应该在视图和设计上提供高的精度，而图形编辑软件可能不需要这样的精度，目前拥有的技术还可以影响用于相同目的但类型不同的人机交互设计，一个很好的例子是使用命令，菜单，图形用户界面(GUI)，或虚拟现实来访问任何指定计算机的某种功能。

人机交互概述

人机交互在过去十年中取得了巨大进步，几乎使人们无法识别哪些概念是虚幻的，哪些概念不是虚幻的，甚至是可以成为现实的。研究中的推力和营销手段的不断变化促使新技术可以及时提供给人们使用。然而，并不是所有的现有技术都可以被公众接触到或是负担得起。

3.1现有的人机交互技术

人机交互设计应该考虑人类行为和需要的许多方面，来确保其有用性。与简单的交互方法本身相比，人类参与机器交互程度的复杂性有时是隐形的。现有的互动复杂程度的不同不仅是因为功能或可用性程度不同，也与机器在市场金融、经济方面的影响有关。例如，一个电水壶不需要复杂的互动，它的功能仅仅是烧水，除了一个开关外，多余的互动功能都不划算。然而，一个简单的网站，在功能上可能有限，但为了吸引并留住顾客其可用性应是足够复杂的。

因此，在人机交互的设计中，活动程度应该被充分考虑，哪怕只有一个用户与一台机器。用户活跃度有三个不同的层次：物理层面，认知层面和情感层面。物理层面决定了人类和计算机力学相互作用；在认知层面解决用户了解系统并与之交互的问题；情感层面是最近新提出的一个问题，它不仅试图使互动成为愉悦的用户体验，也会通过改变用户的态度和情感来让用户继续使用这台机器。

本文的重点主要集中在物理层面交互的发展，并展示不同的交互方法是如何组合的(多模式交互)，探讨每个方法如何提高表现(智能交互)从而为用户提供一个最佳界面。现有的人机交互物理技术基本上可以根据设备基于不同人类感觉设计、分类，这些设备是主要依靠三个人类感官：视觉、听觉和触觉。

依靠视觉的输入设备是最常用的类型，通常基于开关或者指向装置。这个基于开关的设备可以是任何类型的接口，可以像使用键盘一样使用的按钮和开关。指向设备有很多，如鼠标、操纵杆、触摸屏面板、图形平板电脑、轨迹球和触控输入笔等。操纵杆是指那些有开关和指示能力的。而输出设备可以是任何类型的视觉显示或打印设备。

依靠听觉的设备更为先进，通常需要某种类型的语音识别。这些设备旨在促进尽可能多的交互，因此也更难以建立。听觉输出设备更容易创建，如今，由机器产生的各种非语音和语音信号的消息都被视为输出信号，哔哔声、警报以及GPS设备逐向道路导航命令都是简单的示例。

最困难和最昂贵的是构建触觉装置。“这种类型的界面通过触摸、重量和相对刚度生成皮肤和肌肉的感觉。”触觉装置通常生产用于虚拟现实或残疾辅助。

人机交互最新的方法和技术正在试图整合原交互方法，并与其他先进技术结合，如网络和动画。这些新进展可分为三个部分：可穿戴设备、无线设备和虚拟设备。技术的发展如此之快，以至这些新技术之间的界限逐渐消失，日益混合。这些设备的一些例子包括：GPS导航系统，军事加强设备(如热视觉、跟踪其他士兵运动使用的GPS、环境扫描)，无线电频率识别(RFID)产品、个人数字助理(PDA)、房地产虚拟旅游业务。其中一些新设备升级整合了之前的交互方法。如下图，这是一个虚拟键盘，将键盘字母用红色的光投射在固体表面上。设备通过传感器追踪用户在固体表面上打字的手指运动，并发送对应按键到设备中。

3.2在HCI的研究进展

在以下部分中，将介绍人机交互最近的研究方向和进展，即智能与自适应交互和无处不在的计算。这些交互包括不同级别的用户活动：身体、认知和情感。

3.2.1智能和自适应人机交互

广大公众所使用的设备虽然仍然是某种的纯命令/动作设置，而不是复杂的物理设备，我们还不知道有关智能理论的确切概念，然而我们可以通过市场上新设备的功能性和实用性来定义这些概念，正如前面提到过的，它是重要的经济和技术，提供了更方便的人机交互设计，更愉快和令人满意的用户体验。

为了实现这个目标，接口也越来越自然，便于每天使用，进化的接口在笔记工具是一个很好的例子。第一次出现打字机，然后出现键盘和触摸屏平板电脑，你可以用自己的笔迹进行书写，机器进行识别，甚至你可以进行语音输入，由机器进行识别，而不需再用手书写。新一代接口的一个重要的因素是区分智能方式，界面和用户交互，智能人机交互设计界面从某种智能感知响应用户，一个例子是使得说话人使用自然的语言来与用户和设备进行交流，明确的对用户进行视觉跟踪并进行相应的回应。

一个自适应人机交互可能是一个网站使用GUI销售各种产品，这个网站有能力识别用户，并保持一定的搜索和购买记录，并建议它认为用户可能需要购买的产品，大多数的这些类型的适应活动是那些处理认知与情感水平的用户活动。

另一个例子，它使用的智能与自适应接口是具有手写识别能力的，它可以适应手写PDA或平板电脑登录的用户，它拥有的字迹识别和修正能力来记住用户的文本。最后，另一个要考虑的有关智能接口的因素，大多数非智能人机交互设计在本质上是被动的，它们只在用户调用的时候响应，而最终的智能和适应性接口往往是积极的接口，这个例子是根据用户的口味提出自己的智能广告牌或广告，在接下来的部分，将组合不同的人机交互方法和并将如何能有助于智能自适应自然界面的方法进行讨论。

3.2.2无处不在的计算和环境智能

人机交互领域的最新研究成果，是无处不在的普适计算（普适计算）。这个术语经常互换使用环境智能和普适计算，是指人机交互的最终方法是删除在环境中的计算机的桌面和嵌入，使之成为无形的，而他们周围无处不在。普适计算的想法最初是由马克·韦泽在1998年他在施乐PARC计算机科学实验室担任首席技术专家时候提出的。他的想法是，将世界各地的计算机和日常物品进行连接，人们可以同时将环境和物品进行无线沟通。普适计算也被命名为计算的第三次浪潮，第一波是大型机时代，很多人一台电脑。然后是第二次浪潮，一人一台电脑被称为个人电脑时代。现在的普适计算引入了多台计算机，成为一个人的时代，下图示出了计算机的主要趋势。

人机交互系统架构

人机交互设计的最重要的因素是它的配置，事实上，任何给定的接口通常是由它提供的输入和输出的数量和多样性定义的。人机交互系统的体系结构显示这些输入和输出是什么，以及他们如何一起工作，以下各节介绍基于不同的配置和设计的接口。

4.1单峰人机交互系统

正如前面提到的，一个接口主要依靠它输入和输出设备的数量和多样性，这种渠道让用户可以通过此接口与计算机进行交互。每一个不同的独立的单通道称为方式。一个系统基于只有一个形态，叫做单峰，基于不同形式的性质，可以分为三个类别：

4.1.1基于视觉

4.1.2基于音频

4.1.3基于传感器

接下来的小节描述每个类别，每个方式，并提供实例和参考。

4.1.1基于视觉的人机交互

基于视觉的人机交互研究可能是该领域中最普遍的，考虑应用程序的范围和各种开放问题、方法，研究人员试图解决可视视觉信号的人的不同方面的反应，本节中的一些主要研究领域如下：

面部表情分析

身体运动跟踪（大型）

手势识别

凝视检测（眼动跟踪）

由于应用的不同每个地区目标也不同，但是每个区域的普遍观念大体是一致的。面部表情分析一般是处理视觉情绪认知，这个领域的研究焦点是人体运动跟踪和手势识别，这个领域可以有不同的研究目的但他们大多是用于直接命令中人与计算机的互动。目光检测则主要是以间接形式的使用户与机器间进行互动，更好地理解用户的注意力，例如帮助残疾的眼动跟踪系统，它主要作用在命令和动作场景，如指针运动、闪烁、点击。值得注意的是，一些研究人员试图协助甚至取代其他类型的相互作用（音频，传感器为主）与视觉方法。例如，唇读或唇运动跟踪是已知的用于语音识别纠错的一个有效的帮助。

4.1.2基于音频的人机交互

基于音频的计算机和人之间的交互是人机交互系统的另一个重要领域。这个领域主要处理不同的音频信号获得的信息，虽然音频信号的性质可能不可以作为视觉信号，但从音频信号收集到的信息却可以更值得信赖，更有用，在某些情况下，可以成为独特的信息提供者。本节中研究区域可分为以下几部分组成：

语音识别

说话人识别

听觉情感分析

人为噪声/登录检测（喘气，感叹，笑，哭，等）

音乐互动

从历史上看，语音识别和说话人识别的研究一直是主要的焦点。相比其他的音调和音高的语音数据，典型的人类听觉的迹象，如叹息，惊呼等帮助的情感分析，可以设计更智能化的人机交互系统。音乐的生成和互动是一个人机互动艺术领域非常新的应用，它主要集中在音频和视觉研究中。

4.1.3基于传感器的人机交互

本部分结合了各个领域的广泛应用。这些不同领域的共性是，在人机交互中至少有一个物理传感器，这些传感器如下所示可以非常原始的或非常复杂。

1笔式交互

2鼠标和键盘

3操纵杆

4运动跟踪传感器和数字转换器

5触觉传感器

6压力传感器

7味道/气味传感器。

这些传感器已经存在了一段时间，其中还有一些非常新的技术。笔式传感器主要在移动设备领域，并且涉及到笔势和手写识别领域。运动跟踪传感器/数字转换器是的最先进的技术，它彻底改变了电影、动画、艺术和游戏产业。他们以可穿戴或者关节传感器的形式出现，使得电脑更能与现实的世界进行交互，人们可以创建他们的世界，触觉和压力传感器应用在机器人和虚拟现实领域。新的机器人包括数以百计的触觉传感器，使机器人敏感和有触摸能力，这些类型的传感器还用于医疗手术应用。

4.2多通道人机交互系统

这个术语指的是多通道组合多个形式。在MMHCI系统，这些形式主要是参考方法，系统响应输入，即沟通渠道。这些渠道的定义是继承自人类类型的通信，基本上是人类的感官：视觉、听觉、触觉、嗅觉和味觉。

用机器进行交互包括这些可能的类型但是不限于这些类型，因此，通过两个或者两个以上是输入模式而不是传统的键盘和鼠标设备，一个多通道界面可以成为人机交互的促进者。这些输入设备的类型和工作模式可能相差很大，多通道界面将整合不同组合的语音、手势、目光、面部表情和其他非传统模式的输入。最普遍的一种支持的输入组合方法是手势和语音。虽然一个理想的多模态人机交互系统应该包含单个交互的方式，相关性的组合，每一种模式的实际边界和开放问题在每个形态反对限制上的融合。尽管在MMHCI上有很多进展，大多数现有的多通道系统应该区分对待，只在最后将不同的方式结合在一起。原因在于每个地区的开放问题尚未完善，意味着仍然有工作需要完成以获得可靠的工具，此外，角色不同的方式和他们的相互作用的份额并不科学。

人们在用多通道今夕信号传达和交往时候，需要分析多个不同传感器获得的输入信号，信号不是独立的，不能在最后的时候进行结合，相反这些输入数据应该被处理在一个联合的空间内，在实践中，除了上下文的问题检测和发展相结合的多感官信息的上下文相关的模型以外，人们应该配合所需的联合特征空间的大小。包括大维度，不同的功能，格式和时间校正。

一个有趣的方面是不同方式的合作。例如嘴唇运动跟踪(视觉基础)可以帮助语音识别方法(音频基础)，语音识别方法(音频基础)可以帮助命令采集在手势识别(视觉的基础)。接下来的一节将显示一些应用智能多式联运系统。

应用

一种典型的多通道系统是“把他放在那里”的示范系统。这个系统允许一个物体移动到一个新的位置并在屏幕上的地图说：“把东西放在那里”而指向对象本身，然后指向理想的目的地，多通道界面已经被用在许多应用程序包括使用地图的模拟。

多通道界面相比传统的交互拥有很多优势。首先，他们可以提供一个更自然的用户友好的体验。例如，在一个房地产系统中，你可以用一根手指点到一个房子，来查询房子的信息。使用一个指向手势选择一个对象，并使用语音查询关于它演示类型的自然体验多通道界面提供给他们的用户。另一个关键的优势是他们有适应不同人不同情况的能力。因此，在嘈杂的环境中，可提供通过手写输入，而不是语音，一些其他的多通道系统应用如下：

智能家居/办公室

驾驶员状态监视

智能游戏

电子商务

协助残疾人士

在下面的章节中，一些重要的多通道系统的应用将会更详细的进行论述。

5.1 适合残疾人使用的多通道系统

好的多通道应用程序可以解决和帮助残疾人（如双手残疾的人），这比起普通的程序更需要其他类型的接口。在这样的系统中，残疾用户可以声音和头部运动来操作机器，下图是这种系统的一个实际的例子，使用两种方式：言语和头部动作，这两个形式都十分活跃。头部位置表示在当前时刻的光标在屏幕上的坐标，对话提供所需的由光标选择的对象必须执行的动作含义的信息。

两种模式之间的同步是通过在语音检测开始计算的光标位置。这主要是由于在完整的句子的发音的过程中，光标所在位置的可移动磁头移动，则光标可以指向其他的图形对象，该命令出现在很短的时间，然后再开始短语输入一个人的大脑，下图显示了本系统的原理图。

Human’s Markers on
speech human’s head

尽管一些减小操作速度，多通道系统允许不使用标准的鼠标和键盘进行操作。因此这种系统可以成功地用于控制免提PC和手部有残疾的人士。

5.2情感识别多通道系统

我们的世界里，电脑越来越普及，它成为更加重要的机器。它们去感知和解释所有线索，内隐记忆和外显，使我们可以向他们提供我们的意图，一个自然的人机交互方式，不能仅仅基于明确表示命令，电脑将不得不在此基础上，推断出一个人的情绪状态检测各种行为信号，人们能够根据他们观察一个人的脸，身体和声音的情绪状态做出预测。

研究表明，如果一个人获得这些方式只有一个，面对的方式会产生最好的预测。当用脸部和身体进行预测，预测的精度就可以提高百分之三十五。这表明，受影响的确认，它的预测大部分集中在面部表情，可以大大受益于多通道融合技术。一直试图整合不止一个形态识别影响，其中的五官和身体姿势的功能相结合是产生的一个指标。综合脸部和身体的方式是另一个工作，与人类相似，机器分类情绪时是更基于脸部和身体的数据，而不是任何方式的单独数据。

与人类判断时，机器分类的情绪有中性、悲伤、愤怒或开心，这些是最准确的面部和声音结合数据。他们记录了四种情绪：“悲伤、愤怒、幸福和中性状态”。详细的面部运动数据和声音数据相联系，实验表明，面部识别系统的性能，克服了一个仅基于声音的信息。结果还表明，适当融合两种模式将有可衡量的改进。在有声信息的基础上的情感识别系统只有70.9％的整体性能，基于面部表情识别系统，拥有85％的整体性能，脸颊区域研究给情感分类给出重要的信息。另一方面，面部识别与声学信息的基础上的系统的双峰融合，这个分类系统的整体性能是89.1％。

5.3使用地图的多通道应用程序

不同的输入方式适合表达不同的信息。例如，演讲时提供了一个简单的和自然机制来表达查询有关选择的对象或要求对象发起一个给定的操作。然而演讲也可能有不适合的任务，如选择一个特定的区域在屏幕上或定义出一个特定的路径。这些类型的任务更好的适应用手或笔作手势。然而查询关于一个给定的区域并选择该地区都是典型的任务，应该有一个地图界面，因此，自然的结论是，使用地图的界面可以极大地改善用户体验，支持多个模式的输入，特别是语音和手势。

5.4多通道人机交互应用

人机接口通常必须提供一种机制来指向特定的位置和表达操作发起请求。正如前面所讨论的，前者交互的类型是伴随而至的手势，而后者是通过演讲更好地适应。因此，人机界面建立海军研究实验室(NRL)应该是意料之中的。海军研究实验室的接口允许用户指向一个位置而说“走过去”。此外，它允许用户使用PDA屏幕作为第三可能的交互，这可能是使用语音或手势识别失败时，另一种多通道人机界面，一个互动系统实验室建造的(ISL)，它允许使用语音请求机器人做一些手势用来指向对象的引用演讲。这样的一个例子是要求机器人“开关灯”，此外，在ISL的接口中，系统可能会要求当用户不确定输入的时候进行澄清。

5.5 在医学中的多通道人机交互

20世纪80年代早期，外科医生开始靠传统方法以达到自己的极限。人的手不能实行的许多任务，需要更大的放大倍率和小工具，需要更高的精度，定位和操纵人体的敏感部位，数字机器人由于其快速的改进，计算机科技和神经成像技术已经成为解决这些局限性的领先解决方案，机器人手术被引入到手术区。

卡尔斯鲁厄大学(德国)和哈佛医学院(美国)一直致力于开发人机界面，自适应机器人和多代理技术用于神经外科手术。神经外科手术机器人由以下主要组件：臂，反馈的视觉传感器，控制器，定位系统和一个数据处理中心。传感器为外科医生提供反馈从手术部位的实时成像，后者更新新的指令到机器人的控制器，然后使用计算机接口和一些操纵杆。

神经外科手术机器人提供手术规模要小得多，具有更高的准确度和精密度。

结论

人机交互的重要组成部分是系统设计。系统的质量取决于它是如何表示信息和用户的使用。新的研究方向是取代普通的常规方法，环境智能或普适计算称为第三波正试图嵌入到环境的技术，使它同时成为更自然的和无形的技术，虚拟现实也是一个推进人机交互领域的重要部分。

上一篇：上汽21亿投资印度工厂一同建厂的还有延锋

下一篇：吉利收购飞行汽车公司Terrafugia，飞行汽车要飞到中国市场了