英伟达发布Jarvis：可汇聚语音视频等传感器信息的多模AI SDK-域名频道资讯站

英伟达发布Jarvis：可汇聚语音视频等传感器信息的多模AI SDK

（来自：Nvidia，via Neowin）

据悉，Nvidia Jarvis 提供完整的工作流，来构建、训练和部署基于 GPU 加速的 AI 系统。这套系统用于手势、凝视等视觉提示，以及情境语音。

如前所述，Jarvis 是该公司试图同时处理来自不同传感器的多个输入的尝试。这种方法的背后，旨在帮助构建上下文，在基于对话的 AI 应用程序中，准确地预测和生成响应。

为此，英伟达在其博客文章中举例说明了可能会有所帮助的一些案例。比如将语音输入和唇语识别相融合，凝视讲述人是否正在与现场的 AI 代理、或其他人员进行交流。

此外，Nvidia Jarvis 包含了可根据用户需求而进行调整的模块。对于视觉类应用，Jarvis 具有用于人员检测和跟踪、手势、唇部活动、注视、以及身体姿势检测的模块。

英伟达发布Jarvis：可汇聚语音视频等传感器信息的多模AI SDK

对于语音类应用，Jarvis 可以分析情感、对话建模、以及意图和实体分类。为将这些功能集成到系统中，Nvidia 已采用融合算法来同步这些模型的工作。

Nvidia 声称，基于 Jarvis 的应用程序，在与 Nvidia 神经模块（NeMo）结合时效果最佳。NeMo 是一个与框架无关的工具包，用于创建围绕神经模块构建的 A I应用程序。

基于云的应用程序，亦可使用 EGX 平台，部署和使用基于 Jarvis 开发的服务。Jarvis 在 Nvidia EGX 堆栈上运行，该公司自诩为全球首个边缘计算超算平台，且与 Kubernetes 基础架构兼容。

最后，Jarvis 现已开放早期访问，感兴趣的朋友可注册并登录 Nvidia 账户，以申请早期访问。

本文素材来自互联网

英伟达发布Jarvis：可汇聚语音视频等传感器信息的多模AI SDK

相关推荐

热门标签

热门文章

中国专业的网站域名及网站空间提供商