B体育等名词出现在我们的日常生活中,比如智能电视,智能音箱,智能扫地机。这些产品中有的是真智能,有的可能也就是蹭热度。科沃斯今年新推一款智能空气净化机器人,Z1。很高兴厂家发来一个样机给我试用测评一下。那么让我们看看这个机器人是不是真的智能。总的来说这次的这款产品还是很哇塞。尤其是语音操控,和自动导航这两部分功能。从外形上看,也是科技感十足B体育。那么接下来我们来看看它都用了啥黑科技。
与Z1的初次交流开始于OK-YIKO(发音亦可),Z1便会彬彬有礼地问你需要什么帮助。传统按键式操控方式,总体来说对老人和小孩都很不友好,新鲜事物的学习成本对老人来说太高了,有些厂商常常把这些最需要智能的群体挡在了智能设备的外面。而语音操控功能则可以大大地降低使用者的门槛。一番体验下来,Z1的语音操控非常顺滑,只要喊出OK-YIKO,Z1就会回复你,这让我对其背后的语音唤醒技术非常好奇,所以决定深入研究了一下B体育。
语音唤醒(Keyword Spotting, KWS)简单说就是,在连续语流中实时检测出说话人特定片段。一个好的唤醒系统中实时性非常重要,OK-YIKO说出口,机器人就应该马上能作出响应,这样用户的体验才会更好。同是要有较高的召回率、较低的虚警率、功耗低等特点。
但是Z1面临的技术难点也很多,一方面需要在低功耗下达到高性能要求,另一方面用户使用场景多种多样,设备也常没有经过专业声学设计,远场、大噪声、强干扰、高回声、高混响等情况下仍然面临召回率低、虚警率高的问题。
科沃斯语音团队针对唤醒系统以上难点,进行了大量研究和一系列的优化改进B体育,在非常苛刻的噪声环境下仍然表现优异。让我们来看看是怎么做到的。
传统的语音唤醒基于HMM的keyword/filler技术。在基于HMM的keyword/filler框架中,需要针对唤醒词来构建解码网络,其中包含keyword和filler路径,通过维特比算法来获取最优路径并进行判决B体育,在端上资源受限的应用条件下,通常该解码过程会占据比较大的计算量,因此对功耗和延迟都会带来一定影响。
所以科沃斯语音团队,基于大规模语言模型和transformer神经网络算法,采用各种深度网络及训练学习方法,实现更准确、更高效的各类语音语义算法模型。
针对复杂声学环境,特别是噪声和干扰人声场景,我们对送给唤醒模型的声学信号进行前处理,以提升其语音信号质量。传统的语音增强模型通常只能区分语音和环境噪声,将噪声抑制并提取出所有的语音信号。 该做法在多说话人的人声干扰场景下有很大缺陷,因为其无法将说唤醒词的人声从混合着干扰人声的信号中成功提取。基于深度学习的文本相关语音增强模型,在训练阶段将训练目标设定为说特定唤醒词的语音,而其它环境噪声和非唤醒词的干扰人声均作为需要被抑制的对象。这样训练出的语音增强模型,将只增强特定唤醒词语音,有效地抑制其它人声和噪声,从而提升唤醒模型在复杂声学环境中的鲁棒性。
在机器人实际使用环境中,由于有干扰声源的存在,使得很难从带噪数据中准确估计目标说话人的方位,特别是当有多人在同时说话时,也无法判断哪一个是目标说话人。因此科沃斯语音团队采用耳听八方(multi-look) 的思路,在空间中设定若干待增强的方向B体育,增强这个方向的声源,轮流将增强信号送入唤醒模块,增强模型的适应能力。Multi-look唤醒技术大大提高了噪声下的唤醒性能。
为什么需要一个移动空气净化机器人?买个固定的空气净化器不香么?这恰恰是我要科普的重点啦~空气净化器目前最大的痛点就是,净化范围有限。如果单独静置在一个地方,那么很难有效净化整个家庭的空间。据统计中国城镇人口人均居住面积约40平方米。
以一个三口之家为例,在一个三室一厅的环境下一个固定空气净化器在净化90分钟后各个房间的PM2.5值如下。
这次科沃斯给净化器安上了腿,净化器就可以自己在家庭中跑来跑去,有效净化整个空间。如下图所示,科沃斯Z1在净化了大概65分钟后基本上所有房间PM2. 5的值已经降到了稳定范围。普通的净化器只能净化一定的范围,其他的空间只能是通过空气的流动来慢慢稀释。但是对Z1来说,净化范围不再受到局限一台净化器就能有效净化所有房间。
Z1机器人首次搭载RGBD传感器,采用了RGB摄像头+深度摄像头(D)的多传感器融合,实现了更强大的避障能力,实时对机器人前方的物体进行识别,精准识别多种家具(如茶几、床、床头柜、沙发)和多种生活杂物。结合上深度摄像头的深度信息,帮助Z1机器人更准确的了解自己和障碍间的距离,提前做好规划,聪明地避开。
那背后是如何做到的呢? 科沃斯机器人内置的目标检测模型和系统工作流程,如图所示
科沃斯正单阶段模型进行目标检测建模。在模型结构方面,科沃斯则沿用了SSD detector的设计思路,但是设计了一个计算量显著减少的轻量特征抽取网络以替换SSD中的VGG backbone,具体说来就是使用depthwise separable convolutions替换了传统的卷积操作,这种方式仅需要1/9的计算量就可以完成3*3的传统卷积。还将浅层特征与高层特征进行拼接,有效提升了机器人视野中的小型目标的召回率等。可以说这个改进的模型结构更加契合扫地机器人的低功耗、小型物体召回要求高等特点。
机器人建图也是一个重要的环节,地图质量的好坏决定了机器人日后在此环境种自动导航的稳定性。建图过程一般是是让机器人在房间内走一圈,走完后,机器人会通过扫描到的信息生成一个2D平面图。这样的话,机器人建图算是完成了。生成2D平面图这个过程依靠了科沃斯自己的算法TrueMapping2.0。
传统来说,机器人都会使用LDS(Laser Direct Structuring)激光雷达三角测距来建图,通过高速旋转发射激光,再通过激光发射后触及障碍物反射回来的时间判断自己和障碍物之间的距离,从而判断相对位置,实现定位。
传统的LDS激光雷达通过把发射的光调制成一定频率的周期型信号,检测反射调制光和发射调制光之间的相位差,间接测量飞行时间。由于LDS传感器的像素尺寸相对较小,可实现相对高的图像分辨率,但从原理上看,调制频率越高则测距精度越好,高调制频率意味着对应的测距距离不能太大,同时测量的精度较低。因此传统的LDS激光雷达只能获得低密度点云。
而科沃斯的TrueMapping2.0使用了iPhone13 Pro上相同的dToF LiDAR激光雷达。与LDS相比,dToF采用APD器件(雪崩光电二极管),利用了载流子的雪崩倍增效应来放大光电信号以提高检测的灵敏度。 传感器阵列进行时间测距,具备低功耗、抗干扰等优势,测量精度在工作范围内相对稳定,适用于对测距精度要求高的较远距离测距场景。
所以,dToF LiDAR可以通过高密度ToF传感像素阵列来得到测量场景的高分辨率距离/深度分布。因此,一方面在探测距离上dToF(10米)显著优于普通的LDS(6.5米)。一方面,对细小物体的探测能力也更强,4倍于LDS。更多的优势,我总结于下表中:
这是我见过的第一台空气净化机器人,估计算是行业内的天花板了吧。可以看到科沃斯在产品研发方面还投入很多的精力,科研团队也在定会上发表了自己的研究论文。总体来说科沃斯团队的研究工作还是非常严谨的。不愧是行业头部企业,走在科技的最前沿。