平码五不中公式规律
  • / 18
  • 下载费用:30 金币  

与语音识别设备的非语音交互.pdf

关 键 ?#21097;?/dt>
语音 识别 设备 交互
  专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
摘要
申请专利号:

CN201580041836.9

申请日:

2015.07.27

公开号:

CN106662990A

公开日:

2017.05.10

当前法律状态:

实审

?#34892;?#24615;:

审中

法?#19978;?#24773;: 实质审查的生效IPC(主分类):G06F 3/16申请日:20150727|||公开
IPC分类号: G06F3/16; G06F3/01; G06F3/02; G06F3/023 主分类号: G06F3/16
申请人: 微软技术许可有限责任公司
发明人: A·S·李; O·E·穆里洛; Y·张; L·H·杰恩兹; L·施蒂费尔曼; M·R·沃尔夫; C·陈
地址: 美国华盛顿州
优?#28909;ǎ?/td> 2014.07.31 US 14/448,535
专利代理机构: 上海专利商标事务所有限公司 31100 代理人: 顾嘉运
PDF完整版下载: PDF下载
法律状态
申请(专利)号:

CN201580041836.9

授权公告号:

|||

法律状态公告日:

2017.06.06|||2017.05.10

法律状态类型:

实质审查的生效|||公开

摘要

提供了与语音输入系统进行交互的各实施例。一种示例提供了包括耳机、语音输入系统和非语音输入系统的电子设备。电子设备还包括指令,该指令可执行以通过音频输出向用户呈现请求,并通过第一输入模式接收响应于所述请求的用户输入,在所述第一输入模式中,用户输入通过语音输入系统做出,并?#19968;?#36890;过第二输入模式接收响应于所述请求的用户输入,在所述第二输入模式中,通过非语音输入系统作出对所述请求的响应。

权利要求书

1.一种电子设备,包括:
耳机;
语音输入系统;
非语音输入系统;以及
存储指令的存储器,所述指令可执行以:
通过音频输出向用户呈现请求,以及
通过第一输入模式接收响应于所述请求的用户输入,在所述第一输入模式中,用户输
入通过所述语音输入系统做出,并?#19968;?#36890;过第二输入模式接收响应于所述请求的用户输
入,在所述第二输入模式中,通过所述非语音输入系统作出对所述请求的响应。
2.如权利要求1所述的电子设备,其特征在于,所述非语音输入系统包括触摸输入传感
器、机械按键和运动传感器中的一个或多个。
3.如权利要求1所述的电子设备,其特征在于,所述非语音输入系统包括触摸输入传感
器、机械按键和运动传感器中的两个或更多个,并且其中所述指令可执行以接收通过第一
非语音模式的物理硬件交互和通过第二非语音模式的个人助理交互。
4.如权利要求1所述的电子设备,其特征在于,所述耳机被配置成与外部主机无线地通
信。
5.如权利要求4所述的电子设备,其特征在于,所述外部主机和耳机形成多部件设备的
具有分布式的功能的两个单独部件,并且其中所述非语音输入系统包括位于所述外部主机
上的触摸输入传感器、机械按键和运动传感器中的一个或多个,以及位于所述耳机上的触
摸输入传感器、机械按键和运动传感器中的一个或多个。
6.如权利要求5所述的电子设备,其特征在于,在所述外部主机上的所述触摸输入传感
器、机械按键和运动传感器中的一个或多个被配置为接收物理硬件输入,而所述耳机上的
触摸输入传感器、机械按键和运动传感器中的一个或多个被配置成接收个人助理输入。
7.如权利要求6所述的电子设备,其特征在于,所述物理硬件输入控制设备音量输出和
功?#39318;?#24577;中的一个或多个,并且其中所述个人助理输入包括正面响应组和?#22909;?#21709;应组。
8.如权利要求4所述的电子设备,其特征在于,所述外部主机设备独立于所述耳机,并
且其中所述耳机被配置为通过所述外部主机设备与外部网络进行通信。
9.如权利要求8所述的电子设备,其特征在于,所述耳机被配置为接收耳机物理硬件输
入和个人助理输入。
10.如权利要求8所述的电子设备,其特征在于,在独立的外部主机设备上的一个或多
个传感器被配置为接收耳机物理硬件输入。
11.一种被配置为与外部设备进行通信并通过所述外部设备与广域计算机网络进行通
信的耳机,所述耳机包括:
被配置为接收语音输入的语音输入系统;
被配置为通过所述耳机输出经合成的语音输出的合成语音输出系统;
包括接收非语音用户输入的两种或更多种模式的非语音输入系统;以及
指令,可执行以:
通过所述合成语音输出系统呈现请求,
可选地通过所述语音输入系统和通过非语音输入系统的第一模式来接收对所述请求
的响应,以及
通过所述非语音输入子系统的第二模式来接收物理硬件控制输入。
12.如权利要求11所述的耳机,其特征在于,所述非语音输入系统的所述第一模式包括
在所述耳机上的第一传感器,并且其中所述非语音输入系统的所述第二模式包括在所述耳
机上的第二传感器。
13.如权利要求11所述的耳机,其特征在于,所述非语音输入系统的所述第一模式包括
在所述耳机上的第一传感器,并且其中所述非语音输入系统的所述第二模式包括可执行以
接收通过所述外部设备作出的非语音输入的指令。
14.如权利要求11所述的耳机,其特征在于,所述非语音输入的所述第一模式包括运动
传感器,并且其中所述指令可执行以通过来自所述运动传感器的反馈标识第一姿势输入和
第二姿势输入,所述第一姿势输入包括对所述请求的肯定响应,而所述第二姿势输入包括
对所述请求的?#22909;?#21709;应。

说明书

与语音识别设备的非语音交互

附图简述

图1示意性地示出包括耳机和主机的示例个人助理计算设备。

图2示意性地示出图1的耳机和主机的示例实现。

图3是接收计算设备上的输入的示例方法的流程图。

图4解说了将非语音输入分成类似的输入类型的各个组的示例组织。

图5示意地示出了示例非语音输入。

图6示出了示例计算设备的框图。

详?#35813;?#36848;

语音输入系统可以被配置成识别并处理用户语音输入。语音输入系统可以在许多
不同类型的计算设备上被实现,包括但不局限于移动设备。例如,计算设备可以被配置为用
作主要通过语音输入来操作的个人助理计算设备。一种示例个人助理计算设备可以采用具
有耳机用户接口的可穿戴设备的形式。该耳机可以包括用于接收语音输入的一个或多个话
筒,并还可以包括用于(例如以合成语音形式)提供音频输出的扬声器。个人助理计算设备
可以包括可由该设备的处理系统执行以处理语音输入、响应于所述语音输入执行任务并呈
现任务的结果的指令。作为一个示例,个人助理计算设备可以通过合成语音输出(例如
“would you like a list of nearby restaurants?(你想要附近餐馆的列表吗?)”)呈现
一个选项,接收语音输入(“yes(是)”或“no(否)”),处理结果(例如将查询和位置信息(例如
全球定位系统(GPS)信息)一起呈?#25351;?#25628;索引擎),接收结果并通过耳机的扬声器呈现所述
结果。

在一些示例中,计算设备可以不包括显示屏。这样,语音可以是与设备交互的主要
模式。然而,在各种情况中,例如当用户处于公?#19981;?#22659;中或要不然不想说话时,与这样的计
算设备的交互可能难以以期望的隐私程度来执行。

公开了涉及通过非语音输入与语音输入系统进行交互的实施例。一种示例提供了
包括耳机、语音输入系统和非语音输入系统的电子设备。电子设备还包括指令,该指令可执
行以通过音频输出向用户呈现请求,并通过第一输入模式接收响应于所述请求的用户输
入,在所述第一输入模式中,用户输入通过语音输入系统来做出,并?#19968;?#36890;过第二输入模式
接收响应于所述请求的用户输入,在所述第二输入模式中,通过非语音输入系统做出对所
述请求的响应。

非语音输入可以被实现用于计算设备上,该计算设备可以利用语音作为主要输入
模式。所公开的实施例可以帮助扩展可在其中使用主要利用语音交互的个人助理计算设备
或其它设备的环境的范围,因为非语音输入模式可以允许在隐私关注可能阻碍语音交互的
环境中的交互。

非语音输入可以通过各种机制来实现,例如通过运动传感器(例如惯性运动传感
器)、图像传感器、触摸传感器、物理按键和其它非语音输入模式。因为基于语音输入的计算
设备,例如个人助理计算设备,可以支?#20013;?#22810;不同的用户交互,在所述个人助理计算设备的
每个期望控制被?#25104;?#21040;唯一的姿势或触摸输入的情况下,用户可能必须了解相对大量的非
语音输入以与该设备进行交互。

在一些实?#31181;校?#20010;人助理计算设备的各功能可以在两个或更多单独的设备(例如
耳机和与耳机通信的主机设备)之间分布。在这样的设备中,设备功能在主机和耳机之间的
分布可能增加与设备的非语音交互的复杂度,因为主机和耳机两者都可以包括用户输入模
式。

这样,为了减少非语音输入模式的潜在复杂度,公开了将各功能分组成较少数目
的非语音输入的示例,其中所述分组可以允许通过类似的输入来执行类似的功能。这可以
帮助用户更加容易地了解如何执行非语音交互。作为一个非限制性示例,可以基于正被控
制的功能由输入模式分组非语音输入。在这样的实?#31181;校?#36719;件交互(例如与个人助理功能的
交互)可以通过在耳机处接收到的输入来被执行,并且物理硬件交互(例如开机/关机、音量
控制、电容?#28304;?#25720;输入以及其它硬件输入设备)可以通过在与耳机分开的主机设备处的输
入来被执行。类?#39057;兀?#22312;其它实?#31181;校?#29289;理硬件交互可以在耳机上被执行,而个人助理交互
可以在主机上被执行。在又一些其它实?#31181;校?#29289;理硬件控制和个人助理软件交互可以通过
不同的输入设备(例如触摸传感器和运动传感器)在同一组件上(例如两者都在主机上或两
者都在耳机上)被执行。具体而言,物理硬件控制交互和个人助理控制可以通过不同的输入
模式被执行。以此方式,可以在与信息请求?#32479;?#29616;界面和物理设备界面的各用户交互之间
做出区分。

为了进一步减少用于与计算设备交互的非语音输入的数目,被做出来控制个人助
理的非语音输入可以进一步被分组成正面响应组和?#22909;?#21709;应组。对于正面响应组,同一非
语音输入可以被用于在不同的计算设备上下文中做出不同的肯定响应。例如,依据做出非
语音输入的上下?#27169;?#21516;一输入可以唤醒个人助理,肯定通过个人助理功能呈现的请求和/或
做出对正在完成的附?#26377;?#24687;的请求。类?#39057;兀?#22312;?#22909;?#21709;应组中,再?#25105;?#25454;在做出输入时的设
备的上下?#27169;?#38750;语音输入可以静音个人助理并驳回由个人助理所呈现的请求。以此方式,许
多看上去不同的动作和/或用户响应的逻辑分组可以通过将输入桶装入较小数目的类别
(例如物理硬件输入、正面输入和?#22909;?#36755;入)中来完成。

图1示出包括耳机102和主机104的示例个人助理计算设备100。在替换示例中,除
了耳机102之外个人助理计算设备100还可以包括第二耳机。第二耳机可以包括与耳机102
一样的功能或不同的功能。如在下面更加详?#38468;?#37322;的,耳机102可以包括多种输入机制,包
括接收语音输入的话筒和一个或多个接收非语音输入的其它传感器,例如运动传感器和/
或触摸传感器。耳机102还可以包括用于输出音频输出的一个或多个扬声器,包括但不局限
于给用户106的合成语音输出。扬声器可以是未遮挡的以允许环?#25104;?#38899;和来自其它源的音
频?#25191;?#29992;户的耳朵。通过在被配置为驻留在用户的耳朵中的组件(例如耳机)中提供语音输
入和输出(例如话筒和扬声器),由用户做出的语音输入以及来自个人助理计算设备的语音
和其它音频输出可以被不起眼地呈现,而不会受到背景噪声的破坏,并且同时保持输出的
隐私性。

耳机102可被配置成通过合适的有线或无线通信机制与主机104通信。而且,主机
104可以被配置成由用户穿戴。例如,主机104可以被配置为被作为项链佩戴、佩戴到手腕
上、夹在用户的衣服上(例如皮带、衬?#39304;?#33136;带、衣领),装在口袋、公文包、钱包或用户的其它
贴身配件中,或以任何其它合适的方式被佩戴。

主机104可以包括用于与外部网络(例如因特网)对接的外部网络通信系统,以允
许个人助理功能与用于执行搜索查询和其它任务的外部网络对接。例如,用户可以通过到
耳机的语音输入请求接收在用户当前位置两个街区的半径内的所有的餐馆的列表。耳机
102可以检测该语音输入并将所述请求发?#36879;?#20027;机104。主机104随后可以获得与查询有关
的信息(例如搜索结果)并将所述信息发?#36879;?#32819;机102。随后,餐馆的列表可以通过耳机102
的合成语音输出被呈?#25351;?#29992;户。

用户的语音输入的识别和/或解释可以由耳机102、主机104和/或通过网络与主机
和/或耳机通信的远程计算设备来部?#21482;?#20840;部执行。类?#39057;兀?#21512;成语音输出可以由耳机102、
主机104和/或外部计算设备来生成,如下参考图2和3所述的。

如上所述,在一些环境中,用户可能不希望通过语音输入与耳机102和主机104交
互。这样,耳机102和/或主机104可以被配置成接收来自用户的非语音输入。作为一个非限
制性示例,物理硬件控制,例如设备开机/关机控制和音量提高/?#26723;?#25511;制可以被用作在主
机104上的一种或多种非语音输入机制。在主机104上的非语音输入机制的示例可以包括但
不限于一个或多个机械按键(例如滚轮、切换按键、换档开关(paddle switch)或其它按键
或开关),一个或多个触摸传感器和/或一个或多个运动传感器。而且,在这样的示例中,个
人助理交互,例如激活个人助理或响应由个人助理所提供的请求,可以通过耳机102上的一
个或多个非语音输入机制来被执行。耳机102上的非语音输入机制的示例可以包括但不限
于一个或多个运动传感器、触摸传感器和/或机械按键。

将理解,图1所示的硬件配置是出于示例的目的而被呈现的,且不旨在以任何方式
进行限制。在其它示例中,主机可以采用任何其它合适的配置,例如手腕佩戴设备、项链、储
藏在鞋跟中的气垫(puck)或储藏在用户的身体上使用塑料、挂钩和环形紧固件的低型面设
备和/或某种其它机制。在另外的示例中,主机可以不是形成具有耳机的多组件设备的专用
的个人助理计算设备组件,而是代之以外部的独立的设备,例如移动计算设备、膝上设备或
其它设备,它们不必被配置为由用户穿戴。在又一些示例中,设备可以不包括主机,并且所
有的功能可以驻留在耳机中。

图2示意性示出个人助理计算设备100的示例配置的框图200,并且解说可以被包
括在耳机102和主机104上的示例组件。耳机102包括一个或多个用于接收用户输入的传感
器。这样的传感器可以包括,但不局限于,运动传感器202、触摸传感器204、机械输入机制
206和话筒208。任何合适的运动传感器可以被使用,包括但不局限于一个或多个陀螺仪、加
速度计、磁力计或检测在一个或多个轴中的运动的其它传感器。类?#39057;兀?#20219;何合适的触摸传
感器可以被使用,包括但不限于电容性、电阻性和光学触摸传感器。合适的机械输入机制
206的示例包括但不限于滚轮、按键、转盘和/或其它合适的机械输入机制。耳机102还包括
用于将信息呈?#25351;?#29992;户的一个或多个输出,例如一个或多个扬声器210以及可能的其它输
出机制212,例如触觉输出(例如振动输出系统)。

耳机102还包括主机通信系统214,其被配置为允许与主机104或其它个人助理计
算设备组件的通信。主机通信系统214可以通过任何合适的有线或无线通信协议与主机104
通信。

耳机102还可以包括逻辑子系统216和存储子系统218。存储子系统包括被配置成
保持可由逻辑子系统216执行以实现例如此处描述的方法和过程的一个或多个物理设备的
指令。存储子系统可以?#19988;资?#23384;储器、非?#36164;?#23384;储器或这两者的组合。在逻辑子系统216中
实现的方法和过程可以包括语音识别和解释220以及语音输出合成222。语音识别和解释
220可以包括可由逻辑子系统216执行以识别如话筒208所检测到的由用户做出的语音输入
以及将所述语音输入解?#32479;?#21629;令和/或对信息的请求的指令。语音输出合成222可以包括可
由逻辑子系统216执行以从接收自例如主机104的信息中生成要通过一个或多个扬声器210
被呈?#25351;?#29992;户的经合成的语音输出的指令。存储子系统218还可以包括可由逻辑子系统216
执行以接收来自运动传感器202、触摸传感器204和/或机械输入机制206的信号并将所述信
号解释为用于控制信息检索和/或语音输出合成的命令的指令。

如上所述,在各种不同的实?#31181;校?#36825;些功能可以被不同地分布在主机和耳机之间。
例如,语音识别和解释、和/或语音输出合成功能也可以在主机上执行,或在主机和耳机之
间分布。术语“语音输入系统”在本文中可以被用于描述可以被用于接收和解释语音输入的
组件(硬件、固件和/或软件)。这样的组件可以包括,例如,用于接收语音输入的话筒208、以
及语音识别和解释指令220。这样的指令还可以在耳机远程地驻留(例如驻留在主机上,如
下更加详?#35813;?#36848;地),并且语音输入系统可以(以原始或经处理的格式)发送来自话筒的信
号,以用于要被远程执行的语音识别和解释。

术语“非语音输入系统”在本文中可以被用于描述可以被用于接收和解释非语音
输入的组件(硬件、固件和/或软件)。非语音输入系统可以包括例如运动传感器202、触摸传
感器204以及机械输入机制206中的一个或多个,以及可执行以将来自这些传感器的用户输
入信号解?#32479;?#29992;于控制对主机的信息检索和/或经合成的语音的输出的命令的指令。如上
所述,在各个实?#31181;校?#36825;些组件可以位于耳机、主机(如下更加详?#35813;?#36848;地)上,或分布在耳
机和主机之间。

术语“合成语音输出系统”在本文中可以被用于描述可以被用于通过音频输出系
统提供语音输出的组件(硬件、固件和/或软件)。合成语音输出系统可以包括例如语音输出
合成指令222和扬声器210。语音输出合成指令还可以至少部分位于主机104上,如下更加详
?#35813;?#36848;地。

主机104还包括一个或多个用于接收用户输入的输入机制。例如,主机可以包括一
个或多个运动传感器224、触摸传感器226以及机械输入机制228,例如如上针对耳机所述的
那些。主机104还包括用于与耳机102通信的耳机通信系统230以及用于与外部网络242(例
如计算机网络、移动电话网络和/或其它合适的外部网络)进行通信的外部网络通信系统
232。

主机104还可以包括逻辑子系统234和存储子系统236。存储子系统236包括被配置
成保持可由逻辑子系统234执行以实现例如此处描述的方法和过程的指令的一个或多个物
理设备。这样的指令可以包括语音识别和解释指令238以及语音输出合成指令240。如上所
述,这些功能还可以驻留在耳机102上或分布在耳机102和主机104之间。

存储子系统236还可以包括可由逻辑子系统234执行以接收来自运动传感器224、
触摸传感器226和/或机械输入机制228的信号并将所述信号解释为控制个人助理计算设
备、音量控制或其它物理硬件功能的命令的指令。以下将参考图6来描述关于逻辑子系统和
存储子系统配置的附加?#38468;凇?br />

个人助理计算设备100还可以包括信息请求和检索系统,其可以被称为个人助理。
个人助理可以包括可执行以接收对信息的请求(作为语音输入、作为(例如基于地理位置、
时间、所接收的消息或任何其它合适的触发器)和/或以任何其它合适的方式进行响应而算
术生成的请求),将对信息的请求发?#36879;?#22806;部网络,从外部网络接收所请求的信息并将所述
信息发?#36879;?#21512;成语音输出系统的指令。可执行以操作个人助理的指令可以位于耳机102、主
机104上或分布在设备之间。所述个人助理的一些指令也可以驻留在通过计算机网络被访
问的一个或多个远程计算设备上。个人助理还可以包括将信息呈?#25351;?#29992;户的指令,例如对
更多信息、澄清、交互发起或其它命令或查询的请求。

图3示出了解说用于管理在个人助理计算设备上的输入的方法的实施例的流程
图。方法300可根据存储在耳机和/或主机或任何其它合适的设备或设备的组合上的指令,
在以上参考图1和2所描述的个人助理计算设备100上执行。方法300包括,在302,通过音频
输出呈现请求。所述请求可以以任何合适的方式,例如通过经由耳机上的话筒所呈现的经
合成的语音输出,被呈现。所述请求可以包括任何合适的查询,例如对已经被呈现的信息的
确认的请求。经合成的语音输出可以在耳机上被生成,如在304处所示,或在主机上被生成
并随后被发?#36879;?#32819;机以供呈现,如在306处所示。

在308,方法300包括接收响应于所述请求的用户输入。各种用户输入可以被接收,
例如由所述请求所引起的问题的肯定或驳回。在一些环境中,用户可以提供用户输入给语
音输入系统,如在310处所示。然而,在其它环境中,例如当在非私密环境中用户与个人助理
计算设备交互时,用户可能希望避免与个人助理计算设备通过语音进行通信。在这些环境
中,响应于所述请求的输入可以在耳机处通过第一非语音输入模式来做出,如在312处所
示。在耳机处的非语音输入可以包括由一个或多个非语音输入机制,例如运动传感器、触摸
传感器和/或机械输入机制,所检测到的非语音输入。非语音输入可以在耳机处被处理或被
发?#36879;?#20027;机设备以供处理。

如上所述,通过第一非语音输入模式所做出的各非语音输入可以被分类到正面响
应组311和?#22909;?#21709;应组313中,而不同的姿势和/或触摸输入被?#25104;?#21040;每个组。各种不同的输
入可以被分组到这些组中的每个组中。例如,由于由个人助理计算设备在302向用户呈现的
各请求可以通过简单的yes(是)或no(否)响应来应答,“yes”响应可以被包括在正面响应组
中,而“no”响应则在?#22909;?#21709;应组中。在一些上下文中,用户可以能够请求附?#26377;?#24687;作为对个
人助理请求的响应(“tell me more(告知我更多)”输入)。这样的输入可以被分组为正面响
应。而且,作出激活个人助理(“调用”)的请求的用户输入可以被分组为正面响应。类?#39057;兀?br />个人助理的静音(“do not bother me(不要打搅我)”输入)可以与“no”响应一起被分组为
?#22909;?#21709;应。

在一些实?#31181;校?#22312;正面响应组中的每个响应可以由命令输入来指示,例如作为示
例在耳机上的(通过运动传感器和/或触摸传感器所检测到的)点头或单次轻击。类?#39057;兀?#22312;
?#22909;?#21709;应组中的每个响应可以由不同的公共输入来指示,例如前后摇头或通过轻击耳机两
次,这些都是非限制性示例。用于正面和?#22909;?#21709;应组的其它说明?#28304;?#25720;和姿势输入在下面
关于图5被描述。

由于正面和?#22909;?#21709;应组每个都可以利用公共的输入(在各组之间是不同的),基于
产生所述响应的请求的上下?#27169;?#21487;以将用户想要做出的特定命令与共享相同公共输入的其
它命令区分开来。例如,如果由个人助理所呈现的请求包括查询“would you like me to
find more restaurants in your area?(你需要我查?#20197;?#20320;的区域中的更多的餐馆
吗?)?#20445;?#26681;据所述问题的上下?#27169;?#27491;面响应输入将被解释为“yes(是)”响应。在另一个示例
中,如果在没有来自个人助理的先前请求的情况下提供了正面响应输入,则该响应输入可
以被解释为对激活个人助理的调用。在另外的示例中,如果用户向如上所述的针对附加餐
馆的查询输入?#22909;?#21709;应输入,则个人助理可以将该?#22909;?#21709;应解释为no(否),而不是静音。为
了在这样的情况下静音个人助理,?#22909;?#21709;应输入可以例如被第二次输入。

在图3继续,如上所述,物理硬件交互可以被认为是除了用于语音系统交互的正面
和?#22909;?#36755;入组之外的附加输入组。如此,方法300包括,在314,通过第二非语音输入模式接
收物理硬件控制输入。非语音输入的第二模式与第一模式的区别在于:第二模式控制设备
的硬件功能,例如开机/关机或提高/?#26723;?#38899;量,而第一模式控制个人助理的功能,例如对由
个人助理提供的请求进行响应。在一些实?#31181;校?#36890;过非语音输入的第二模式做出的输入可
以对主机来做出,如在316处所示。这样,主机可以包括一种或多种输入机制,例如按键或触
摸传感器,通过其用户可以进行输入以便对(包括耳机的)个人助理计算设备进行开机或关
机或调节由耳机提供的音频输出的音量。

在其它示例中,非语音输入的第二模式的输入可以由耳机来做出,如在318处所
示。在这些示例中,非语音输入的第二模式可以利用与非语音输入的第一模式不同的输入
传感器。作为说明性示例,非语音输入的第一模式可以将一个运动传感器用于与个人助理
的正面和?#22909;?#20132;互,然而非语音输入的第二模式可以将一个触摸传感器或机械输入用于物
理硬件控制。

图4示出解说了个人助理计算设备控制的组织的示例框图400,并且根据非限制性
示例解说了可以在主机和耳机处被作出的输入。对个人助理计算设备作出的输入可以被细
分成三个输入类别:在耳机处作出的非语音正面响应420、也在耳机处作出的非语音?#22909;?#21709;
应430以及在主机处作出的物理硬件输入440。

非语音正面响应420包括肯定响应422(例如yes(是))、调用424以及告知我更多响
应426。非语音?#22909;?#21709;应430包括驳回响应432(例如no(否))和静音434。物理硬件输入包括
开机/关机442和提高/?#26723;?#38899;量444。这样的组织可以允许通过被分组成各逻辑组的相对较
少数目的用户输入来执行相对较大数目的交互。该组织可以有利地为用户提供更多可访问
的、直观的用户体验,因为用户可以沿着在示意框图400中所描述的组织的线?#26041;?#36755;入组要
么与耳机要么与主机相关联。该组织还可以简化专用于处理这些各种输入的硬件和软件资
源,因为所述组织将某些输入职责加载给耳机,同时将其它输入职责?#23545;?#21040;主机。

图5示出说明如何实现图4的正面和?#22909;?#20998;组的输入的非限制性示例的框图500。
在一些实?#31181;校?#38750;语音输入可以通过轻击输入(例如触摸输入)被实现,如在510处示出。在
该示例中,正面输入可以通过第一触摸输入512(例如通过用一根?#31181;?#36731;击耳机的表面)来
被执行。在一些示例中,所述输入可以包括轻击耳机的?#25105;?#34920;面(例如以供通过运动传感器
检测),而在其它示例中,所述输入可以包括轻击耳机的特定位置(例如在触摸传感器上轻
击)。类?#39057;?#22312;该示例中,?#22909;?#36755;入可以通过第二触摸输入514(例如通过用两根?#31181;?#36731;击耳
机的表面)来被执行。

在一些实?#31181;校?#38750;语音输入还可以通过机械输入520来被执行。在本示例中,正面
输入可以通过第一机械输入522,例如通过点击按键并将按键保持在按下状态达少于阈值
时间量的时间,来被执行。指示?#22909;?#36755;入的第二机械输入524可以通过点击按键并保?#25191;?#38408;
值时间量(例如作为非限制性示例为四或更多秒),来被执行。

而且,在一些实?#31181;校?#38750;语音输入可以通过头部姿势来被执行。在该示例中,正面
输入可以由第一姿势输入532(例如通过以可由运动传感器检测到的上下点头的方式)来被
执行。指示?#22909;?#36755;入的第二姿势输入534可以包括来回摇头的方式。

应当理解,上面的示例输入仅是作为示例而提供并且并不进行限定,因为其它输
入也是可能的。例如,?#22909;?#32452;触摸输入可以包括轻击耳机的表面两次。在另一个示例中,负
面组机械输入可以包括点击按键两次。实际上,任?#26410;?#25720;、机械或姿势输入均在本公开的范
围之内。

这样,上述系统和方法提供了电子设备的第一示例,所述电子设备包括耳机、语音
输入系统、非语音输入系统以及指令,所述指令可执行以通过音频输出向用户呈现请求,并
通过第一输入模式接收响应于所述请求的用户输入,在所述第一输入模式中,用户输入通
过语音输入系统做出,并?#19968;?#36890;过第二输入模式接收响应于所述请求的用户输入,在所述
第二输入模式中,通过非语音输入系统作出对所述请求的响应。

非语音输入系统可以包括触摸输入传感器、机械按键和运动传感器中的一个或多
个。非语音输入系统可以包括触摸输入传感器、机械按键和运动传感器中的两个或更多个,
并且所述指令可执行以接收通过第一非语音模式的物理硬件交互和通过第二非语音模式
的个人助理交互。

耳机可以被配置成与外部主机无线地通信。在一个示例中,外部主机和耳机形成
多部件设备的具有分布式的功能的两个单独部件,并且非语音输入系统可以包括位于外部
主机上的触摸输入传感器、机械按键和运动传感器中的一个或多个,以及位于耳机上的触
摸输入传感器、机械按键和运动传感器中的一个或多个。所述外部主机上的触摸输入传感
器、机械按键和运动传感器中的一个或多个可以被配置为接收物理硬件输入,而所述耳机
上的触摸输入传感器、机械按键和运动传感器中的一个或多个可被配置成接收个人助理输
入。物理硬件输入可以控制设备音量输出和功?#39318;?#24577;中的一个或多个,而个人助理输入可
以包括正面交互组和?#22909;?#20132;互组。

在另一个示例中,外部主机设备独立于耳机,并且耳机被配置为通过外部主机设
备与外部网络通信。耳机可以被配置为接收耳机物理硬件输入和个人助理输入。在独立的
外部主机设备上的一个或多个传感器可以被配置为接收耳机物理硬件输入。

在另一个示例中,被配置成与外部设备通信并通过所述外部设备与广域计算机网
络通信的耳机包括被配置为接收语音输入的语音输入系统、被配置为通过耳机输出经合成
的语音输出的合成语音输出系统以及包括接收非语音用户输入的两种或更多种模式的非
语音输入系统。耳机还包括指令,所述指令可执行以通过合成语音输出系统呈现请求,可选
地通过语音输入系统和通过非语音输入系统的第一模式接收对所述请求的响应,并通过非
语音输入子系统的第二模式接收物理硬件控制输入。

在一个示例中,非语音输入系统的第一模式可以包括在耳机上的第一传感器,而
非语音输入系统的第二模式可以包括在耳机上的第二传感器。在另一个示例中,非语音输
入系统的第一模式可以包括在耳机上的第一传感器,而非语音输入系统的第二模式可以包
括可执行以接收通过外部设备作出的非语音输入的指令。在另外的示例中,非语音输入的
第一模式可以包括运动传感器,并且所述指令可执行以通过来自运动传感器的反馈标识第
一姿势输入和第二姿势输入,第一姿势输入包括对所述请求的肯定响应,而第二姿势输入
包括对所述请求的?#22909;?#21709;应。

在又另一个示例中,多组件设备包括主机和耳机。所述主机包括耳机通信系统、被
配置为在广域网上通信的通信系统、包括一种或多种非语音输入模式的主机用户输入系
统,以及保持可由主机逻辑子系统执行的指令的主机存储子系统。所述耳机包括主机通信
系统、合成语音输出系统、包括一种或多种非语音输入传感器的耳机输入系统,以及保持可
由耳机逻辑子系统执行的指令的耳机存储子系统。在主机和耳机上的指令可执行以在主机
输入系统处接收物理硬件控制输入,并接收用于与个人助理进行交互的非语音输入。

主机用户输入系统可以包括触摸输入传感器、机械按键和运动传感器中的一个或
多个。在主机用户输入系统处的硬件控制输入可以控制设备音频音量输出和功?#39318;?#24577;。用
于与个人助理进行交互的非语音输入可以包括通过来自耳机输入系统的触摸传感器的反
馈所标识的触摸输入。用于与个人助理进行交互的非语音输入可以包括通过来自耳机输入
子系统的运动传感器的反馈所标识的姿势输入。

用于与个人助理进行交互的非语音输入可以包括肯定响应输入组,所述肯定响应
输入组包括以下中的一个或多个:耳机激活的请求、通过合成语音输出子系统呈现的请求
的肯定以及响应于通过合成语音输出子系统呈现的请求的附?#26377;?#24687;请求。

用于与个人助理进行交互的非语音输入可以包括?#22909;?#21709;应输入组,所述?#22909;?#21709;应
输入组包括以下中的一个或多个:至少所述合成语音输出系统的停用请求和通过合成语音
输出子系统呈现的请求的驳回。

在一些实施例中,本文中描述的方法和过程可以与一个或多个计算设备的计算系
统绑定。具体而言,这样的方法和过程可被实现为计算机应用程序或服务、应用编程接口
(API)、库和/或其他计算机程序产品。

图6示意性地示出了可执行上述方法和过程中的一个或多个的计算系统600的非
限制性实施例。计算系统600可以是耳机102、和/或主机104、和/或与耳机102和/或主机104
对接的外部设备的一种非限制性示例。以简化形式示出了计算系统600。计算系统600还可
采取以下形式:一个或多个个人计算机、服务器计算机、平板计算机、家庭娱乐计算机、网络
计算设备、游戏设备、移动计算设备、移动通信设备(例如,智能电话)、具有嵌入式计算系统
的物品(例如器械、保健物品、衣服和其它可穿戴物品、基础设施、运输物品等,其可以被统
称为物联网)和/或其他计算设备。

计算系统600包括逻辑子系统602和存储子系统604。计算系统600可任选地包括输
入子系统606、通信子系统608和/或图6未示出的其他组件。

逻辑子系统602包括被配置成执行指令的一个或多个物理设备。例如,逻辑子系统
可以被配置为执行作为一个或多个应用、服务、程序、例程、库、对象、组件、数据结构或其它
逻辑构造的一部分的指令。这种指令可被实现以执行任务、实现数据类型、转换一个或多个
部件的状态、实现技术效果、或以其他方式得到期望结果。

逻辑子系统可包括被配置成执行软件指令的一个或多个处理器。附加地或替代
地,逻辑子系统可包括被配置成执行硬件或固件指令的一个或多个硬件或固件逻辑机。逻
辑子系统的处理器可以是单核的或多核的,其上执行的指令可以被配置用于串行、并行和/
或分布式处理。逻辑子系统的个体组件可任选地分布在两个或更多个分开的设备之间,所
述设备可以位于远程以及/或者被配置用于协同处理。逻辑子系统的各方面可由以云计算
配置进行配置的可远程访问的联网计算设备来虚拟化和执行。

存储子系统604包括被配置成保持可由逻辑子系统执行的指令以实?#25191;?#22788;描述的
方法和过程的一个或多个物理设备。在实?#25191;?#31867;方法和过程时,存储子系统604的状态可以
被变换——例如,以保持不同的数据。

存储子系统604可以包括可移动和/或内置设备。存储子系统604可以包括光学存
储器(例如,CD、DVD、HD-DVD、蓝光碟等)、半导体存储器(例如,RAM、EPROM、EEPROM等)和/或
磁?#28304;?#20648;器(例如,硬盘驱动器、软盘驱动器、磁带驱动器、MRAM等)、等?#21462;?#23384;储子系统604可
包括?#36164;?#24615;、非?#36164;?#24615;、动态、静态、读/?#30784;?#21482;读、随机存取、顺序存取、位置可寻址、文件可
寻址和/或内容可寻址设备。

可以理解,存储子系统604包括一个或多个物理设备。然而,本文描述的指令的各
方面可替换地通过不由物理设备在有限时长内持有的通信介质(例如,电磁信号、光信号
等)来传播。

逻辑子系统602和存储子系统604的各方面可以被一起集成到一个或多个硬件逻
辑组件中。这些硬件逻辑组件可包括例如现场可编程门阵列(FPGA)、程序和应用专用的集
成电路(PASIC/ASIC)、程序和应用专用的标准产品(PSSP/ASSP)、片上系统(SOC)以及复杂
可编程逻辑器件(CPLD)。

输入子系统606可包括诸如键盘、鼠标、触摸屏或游戏控制器等一个或多个用户输
入设备或者与这些用户输入设备对接。在一些实施例中,输入子系统可以包括或相接于所
选择的自然用户输入(NUI)部件。这样的部件可以是集成式的或者是外设,并且输入动作的
转换和/或处理可以在板上或板下处理。示例NUI部件可包括用于语言和/或语音识别的话
筒;用于机器视觉和/或姿势识别的红外、色彩、立体显示和/或深度相机;用于运动检测和/
或意图识别的头部跟踪器、眼睛跟踪器、加速计和/或陀螺仪;以及用于评估脑部活动的电
场感测部件。

通信子系统608可以被配置成将计算系统600与一个或多个其它计算设备可通信
地耦合。通信子系统608可包括与一个或多个不同通信协议兼容的有线和/或无线通信设
备。作为非限制性示例,通信子系统可被配置成用于经由无线电话网络或者有线或无线局
域网或广域网来进行通信。在一些实施例中,通信子系统可允许计算系统600经由诸如因特
网这样的网络将消息发送至其他设备以及/或者从其他设备接收消息。

将会理解,本文描述的配置和/或方式本质是示例性的,这些具体实施例或本文示
例不应被视为限制性的,因为许多变体是可能的。本文描述的具体例程或方法可以表示任
何数量的处理策略中的一个或多个。如此,所示和/或所述的各种动作可以以所示和/或所
述顺序、以其他顺序、并行地执行,或者被省略。同样,上述过程的次序可以改变。

本公开的主题包括各种过程、系统和配置的所?#34892;?#39062;和非显而易见的组合和子组
合、和此处所公开的其他特征、功能、动作、和/或特性、以及其任何和全部等效物。

关于本文
本文标题:与语音识别设备的非语音交互.pdf
链接地址:http://www.pqiex.tw/p-6091776.html
关于我们 - 网站声明 - 网?#38236;?#22270; - 资源地图 - 友情链接 - 网站客服 - 联系我们

[email protected] 2017-2018 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备17046363号-1 
 


收起
展开
平码五不中公式规律 澳门通app 黑杰克21点游戏下载 捕鱼来了怎么上分 菠萝彩软件 ∪乐娱乐国际平台 383财神捕鱼 今天晚上福彩3d的丹东全图 双喜大厅辅助 加拿大蛋蛋28精准预测网站 手机淘宝快3