OpenAI、微软、Meta先后下场,海外AI终端之战在:眼镜!

原文来源:硬 AI

作者 | 卜淑清

图片来源:由无界 AI生成

全球AI竞争必将在明年进入新一轮高潮,各大科技巨头围绕智能眼镜展开的争夺战也将成为焦点。

随着多模态AI强势崛起,Meta、谷歌、微软、OpenAI 等公司正竞相将更强大的AI技术应用于智能眼镜和其他可穿戴设备。

据The Information最新报道,谷歌虽然已经终止了增强现实(AR)眼镜项目,但仍在为智能眼镜开发软件。上周,谷歌史上最强AI模型Gemini展示了其多模态功能,向打造一个“始终在线”的AI助手的目标迈出第一步,但这距离真正实现可能仍需要数年时间。

该媒体援引一位知情人士报道,OpenAI最近考虑将其物体识别软件GPT-4与Vision嵌入到Snapchat母公司Snap公司的Spectacles智能眼镜产品中,这可能会为其带来新的功能。

Meta将一款多模态AI语音助手嵌入了他们正在与奢侈品墨镜公司Ray-Ban合作开发的智能眼镜,该助手可以描述佩戴者看到的东西,为衬衫搭配裤子提出建议,并可以将西班牙语文本翻译成英语。

另外,近几个月亚马逊也在讨论一种新型AI设备,据悉该设备也具备类似的视觉能力。


01 谷歌:仍在开发智能眼镜软件


据报道,谷歌虽然早在年中就取消了智能眼镜的开发,但仍在为其开发软件,谷歌计划将软件授权给硬件制造商,类似于为三星等手机制造商开发安卓移动操作系统的方式。

谷歌上周发布视频展示了Gemini 的部分功能,比如自动识别用户表演的电影,对面前物品提出建议,以及学习新游戏的能力。

Gemini家族目前有Gemini Ultra,Gemini Pro和Gemini Nano三个成员,将向不同的客户群开放,但谷歌并未在视频中公开其所谓的高级版Gemini,视频中的用户交互也做了渲染。

尽管如此,该视频展示了谷歌打造一个“始终在线”的AI助手的愿景,它可以实时响应和理解用户正在做的事情和看到的东西。

知情人士向The Information透露,要实现这种“环境计算”仍需数年时间。作为第一步,谷歌正在重新设计Pixel手机的操作系统,嵌入小型的Gemini模型驱动Pixie AI助手,处理更加复杂和多模态的任务。据此前报道,Pixie能够根据用户拍的照片,推荐附近的商店买到相关商品。

谷歌的核心搜索技术就是预测和提供用户需要的信息,因此开发这样的AI设备非常符合谷歌的定位。谷歌十年前试水的眼镜就是一个失败案例,由于外形尴尬、实用性有限,用户并不买单。

后来,谷歌对摄像头设计进行了调整,并推动安卓手机厂商将手机摄像头打造成“第三只眼”,可以扫描环境并将图像发送到谷歌云端分析,为用户提供上下文信息,但这个想法最终缩水成图像搜索应用Google Lens。


02 OpenAI:与Snap强强联手


The Information援引一位知情人士报道,OpenAI最近考虑将其物体识别软件GPT-4与Vision嵌入到Snapchat母公司Snap公司的Spectacles智能眼镜产品中,这可能会为其带来新的功能。

早在今年3月份,OpenAI就展示了其AI软件根据手绘草图来构建网站的能力。或许是为了充分发挥大模型的强大功能,从那时起,OpenAI首席执行官Sam Altman就多次表示,对构建一种新的基于AI的消费类设备感兴趣。

值得注意的是,OpenAI本身没有设备团队,但可以与其他公司合作,比如Snap这样的设备制造商,或者AI芯片设计商。

另外,Altman还正在投资一家名叫“Humane”的AI设备制造商,这家公司制造带摄像头的可穿戴设备“AI brooch”,计划制造可以取代智能手机的AI设备。


03 微软:积极推进智能眼镜相关AI技术开发


微软正在积极推进可应用于智能眼镜和其他小型设备的AI技术的研发,这些技术或基于语音或图像识别,目的是赋能更多样化的智能硬件。

The Information认为,这些工作可能基于微软现有的 HoloLens AR头显来展开。

报道称,微软正在为 HoloLens嵌入一种AI软件,用户可以通过语音与 OpenAI技术驱动的聊天机器人讨论相机拍摄的物体。


04 苹果:已在硬件上做好准备


苹果在多模态AI技术上较竞争对手相对落后,但也在这一领域开展了一定工作。具体来说,

苹果已通过即将发售的Vision Pro头显,在硬件上做好应用多模态AI技术的准备。

苹果在AI算法方面落后于同行,直到今年才开始重点研究大型语言模型(LLM),此前相关研究仅停留在初步阶段。

The Information报道称,目前没有迹象表明Vision Pro会在近期具备复杂的物体识别等多模态功能。

但是,苹果这些年致力于增强Vision Pro 的计算机视觉能力,使其可以快速识别周遭环境,例如识别家具、判断环境是客厅、卧室还是厨房,苹果目前正在开发可以识别图像和视频的多模态模型。

Vision Pro的一个主要障碍是体积较大、笨重,也不太适合户外佩戴。今年早些时候,苹果据传暂停了AR眼镜的研发以专注推出头显产品。目前不清楚眼镜项目何时重新启动,但未来可能实现多模态功能。


05 Meta:与Ray-Bans优势互补


12月12日,Meta和奢侈品墨镜公司Ray-Bans合作的新产品——Meta Ray-Bans智能眼镜,开始推出多项AI功能:拍照、计算食物卡路里、识别植物、翻译等。从媒体和扎克伯格的试用来看,Meta Ray-Bans智能眼镜AI功能的表现似乎还不错。

早在今年9月接受媒体采访时,扎克伯格就透露过,Meta会在智能眼镜上推出多模态AI功能。所谓的多模态,即支持文本、图像、语音等多种形式的媒介输入的AI。

据报道,Meta未来还计划让眼镜能够检测人体的感官数据,进一步强化多模态能力。眼镜上搭载的高通AI芯片目前似乎表现良好,Meta未来还计划进一步对使用流程进行优化。

目前,Meta眼镜已经上架销售,售价为300美元,AI功能处于早期测试阶段,仅向部分用户开放。但值得指出的是,Meta也表示,会使用匿名数据来帮助改进眼镜的AI服务,可能会让许多关心隐私的用户感到不适。


06 亚马逊:计划退出多模态AI新设备


据直接了解该项目的人士向The Information透露,今年夏天,亚马逊Alexa团队计划推出一款能够运行多模态AI的新设备。

这位人士表示,该团队特别感兴趣的是,如何减少在设备上处理图像、视频和语音的AI计算和内存需求。

报道称,目前尚不清楚该项目是否获得资金支持,也不清楚该设备打算为客户解决什么问题,但它与亚马逊老产品 Echo 语音助理设备系列是分开的。

Alexa 团队多年来一直致力于新型设备的开发,其中包括一款名为 Echo Frames 的智能音频眼镜。然而,目前尚不清楚,亚马逊是否会在该眼镜的基础上开发具有视觉识别功能的设备,因为它不搭载屏幕显示器或摄像头。