微软称其人工智能能够像人相同描绘图画
米乐体育直播

  准确地描绘图画,而不仅仅是像一个毫无条理的机器人,长期以来一向是人工智能的方针。2016年,谷歌表明,其人工智能能够为图画增加简直与人类相同的字幕,准确率为94%。现在微软说它现已更进一步:研讨人员现已建立了一个比人类更准确的人工智能体系,以至于它现在坐落nocaps图画捕获基准的排行榜首位。微软宣称,它比自2015年以来一向运用的图画字幕模型好两倍。

  尽管这自身便是一个值得注意的里程碑,但微软并不仅仅将这项技能独家。它现在供给新的字幕模型作为Azure认知服务的一部分,这样任何开发者都能够把它带到他们的应用程序中。今日,它也能够在Seeing AI中运用,这是微软为瞎子和视障用户开发的应用程序,能够协助他们了解周围的国际。本年晚些时候,字幕形式还将改善您在PowerPoint中用于Web、Windows和Mac的演示文稿,它还会在桌面平台上的Word和Outlook中弹出。

  Azure AI首席副总裁埃里克·博伊德说:“[图画字幕]是人工智能中最扎手的问题之一。它不仅代表着了解场景中的物体,还代表了它们是怎么交互的,以及怎么描绘它们。”优化字幕技能能够协助每一个用户:它让你更简单在搜索引擎中找到你正在寻觅的图画。关于视障用户来说,它能够让网络和软件导航变得非常好。

  看到公司揄扬他们的人工智能研讨立异并不稀有,但这些发现敏捷布置到运送产品中的状况要稀有得多。Azure AI认知服务CTO黄学冬,考虑到对用户的潜在优点,力推将其快速整合到Azure中。他的团队用标有特定关键字的图画练习了这个模型,这协助它供给了一种大多数人工智能结构所没有的视觉言语。一般,这些类型的模型运用图画和完好的字幕进行练习,这使得模型更难了解特定对象是怎么交互的。

  黄学冬在一篇博客文章中说:“这种视觉词汇的预练习本质上是练习体系所需的教育;咱们正在尽力教育这种运动回忆。”这便是为什么这个新模型在nocaps基准中占有了一席之地,该基准专心于确认人工智能对他们曾经从未见过的图画的字幕才能有多好。

  可是,尽管打破基准含义严重,但对微软新形式的真实检测将是它在实际国际中的运作方法。依据Boyd的说法,看到人工智能开发人员Saqib Shaik,他自己也是一个瞎子,也在微软推进更好的可拜访性,他将其描绘为比他们之前供给的产品有了戏剧性的改善。现在微软现已建立了一个新的里程碑,看看谷歌和其他研讨人员的竞赛模型怎么竞赛将是一件风趣的工作。