最新新闻:

随着AI芯片的改进 TOPS是衡量其功率的最佳方法吗

时间:2020-10-21 16:51:01来源:互联网

有时,一家年轻的公司会声称自己拥有的经验比合乎逻辑的经验还多-一家刚开业的律师事务所可能会吹捧60年的法律经验,但实际上由三人组成,每人均执业20年。数字“ 60”引起您的注意并概括了一些内容,但可能让您想知道是否更喜欢拥有60年经验的律师。实际上,没有普遍正确的答案。您的选择应基于您要寻找的服务类型。一位律师在某些任务上可能是高超的,而在其他任务上却不出色,而三位经验丰富的律师则可以涵盖更多的学科。

如果您理解该示例,那么您还将理解使用“ TOPS”评估AI芯片性能的挑战,“ TOPS”是指每秒数万亿次操作或“每秒万亿次操作”的指标。在过去的几年中,移动和笔记本电脑芯片已发展为包括专用AI处理器,通常由TOPS对其进行测量以作为对能力的抽象衡量。苹果的A14 Bionic为新的iPad Air平板电脑带来11 TOPS的“机器学习性能”,而高通公司的智能手机就绪的Snapdragon 865则宣称AI处理速度更快,达到15 TOPS。

但是,无论您是要为企业购买新的支持AI的计算机的高管,还是希望了解下一部手机将具有多少功能的最终用户,您都可能想知道这些TOPS数量的真正含义。为了使这个概念神秘化,并从某种角度对其进行介绍,让我们从较高的角度看待TOPS的概念,以及一些公司如何使用该指标营销芯片的示例。

TOPS,解释

尽管有些人在评估计算能力时不喜欢使用抽象性能指标,但客户往往更喜欢简单的,看似可理解的提炼,而不是替代品。TOPS是简化度量标准的经典示例:它以单个数字告诉您一个AI芯片在一秒钟内可以处理多少次计算操作-换句话说,它可以在很短的时间内解决多少基本数学问题。尽管TOPS不能区分芯片可以处理的操作类型或质量,但是如果一个AI芯片提供5个TOPS,而另一个AI芯片提供10个TOPS,则您可以正确地假设第二个芯片的速度是第一个芯片的两倍。

是的,在其他条件相同的情况下,在一秒钟内完成比去年版本快一倍的芯片可能是一个巨大的飞跃。随着AI芯片的发展和成熟,AI处理的年度改进甚至可能达到9倍。,而不仅仅是两个。但是从芯片到芯片,可能存在多个处理AI任务的处理核心,以及某些芯片专门从事的操作和任务类型的差异。一家公司的解决方案可能针对常见的计算机视觉任务进行了优化,或者能够压缩深度学习模型,使其比那些针对特定目的的竞争对手更具优势;不管有什么想法,另一个可能都非常可靠。就像上面的律师事务所的示例一样,将所有内容精简为一个数字就消除了该数字的计算方式的细微差别,从而可能使客户分心于专门知识,而这些专业知识对开发人员影响很大。

像TOPS这样的简单措施具有吸引力,但是随着时间的流逝,它们往往会失去最初可能具有的意义和市场吸引力。视频游戏机曾经用“位”来衡量,直到Atari Jaguar成为第一个“ 64位”游戏机为止,这表明当整体系统性能更为重要时,专注于单个指标是愚蠢的。索尼的“ 32位” PlayStation最终以400:1的比例超过了美洲虎,而任天堂的64位控制台以3:1的比例超过了美洲虎,但几乎不再依赖于位作为功能的代理。近年来,经典的CPU速度指标兆赫兹和千兆赫兹在确定整体计算机性能方面的相关性也越来越低。

苹果在TOPS

多年来,苹果一直在努力减少使用抽象的数字性能指标:您可能会尝试,在苹果的网站上找不到有关A13 Bionic或A14 Bionic芯片的千兆赫兹速度以及iPhone的特定容量的参考。电池–最多将A14的处理性能描述为“令人振奋”,并提供了在各种电池使用情况下可以预期的小时数示例。但是随着对基于AI的应用程序的兴趣的增长,苹果公司非典型地引起了人们对其最新AI芯片每秒可以处理多少万亿次运算的关注,即使您需要花点时间才能找到细节。

苹果刚刚推出的A14 Bionic芯片将为2020 iPad Air以及计划于下个月宣布的多款iPhone 12机型提供动力。在这一点上,苹果并未对A14 Bionic的性能进行过多的说明,只是指出它使iPad Air的速度比其前代产品更快,并且内部具有更多的晶体管。但是它提供了有关A14的“下一代16核神经引擎”的一些细节,这是一款具有11 TOPS处理性能的专用AI芯片-与具有8核的A13 Bionic相比,“机器学习性能提高了2倍”具有5 TOPS的神经引擎。

此前,苹果公司指出,A13的神经引擎专用于机器学习,并辅以CPU上的两个机器学习加速器以及一个机器学习控制器来自动平衡效率和性能。根据任务和当前系统范围内的资源分配,控制器可以将机器学习操作动态分配给CPU,GPU或神经引擎,因此,无论可用的处理器和内核如何,AI任务都能尽快完成。

当您注意到Apple还声称A14和A12之间的计算速度提高了10倍时,就会有些困惑。这似乎专门指的是CPU上的机器学习加速器,加速器可能是未指定任务的主处理器,或者在其他情况下占用了神经引擎或GPU时是辅助处理器。苹果并没有确切地解释A14如何路由特定的AI / ML任务,大概是因为它认为大多数用户都不希望知道细节。

高通TOPS

苹果公司“告诉他们的知识只比他们需要知道的多一点”的方法与高通公司形成鲜明对比,高通公司通常需要工程专业知识和非典型的长期注意力来消化。高通谈论一种新的旗舰级Snapdragon芯片组时,它公开了将各种AI任务分配给多个专用处理器的事实,但提供了TOPS数据作为简单的汇总指标。对于专注于智能手机的Snapdragon 865,其AI值为15 TOPS,而其新的第二代Snapdragon 8cx笔记本电脑芯片则具有9 TOPS的AI性能。

当您尝试弄清楚高通公司如何准确地得出这些数字时,就会产生混乱。像以前的Snapdragon芯片一样,865包含一个“高通AI引擎”,该引擎可在从Kryo CPU和Adreno GPU到Hexagon数字信号处理器(DSP)的多个处理器上聚合AI性能。高通公司最新的AI引擎是“第五代”,其中包括Adreno 650 GPU有望比上一代产品的AI TOPS高出2倍,再加上新的AI混合精度指令,以及Hexagon 698 DSP声称TOPS高出4倍,并且其压缩功能降低了深度学习模型所需的带宽。高通似乎正在将单独芯片的数量加在一起,得出其15 TOPS总数。

如果这些细节不足以使您动脑子,高通公司还指出,Hexagon 698包括AI增强功能,例如张量,标量和矢量加速,以及传感中心(Sensing Hub),它始终保持开启状态,可最大限度地减少等待相机或语音激活时打开电源。这些AI功能不一定是Snapdragons独有的,但该公司倾向于以Apple所不具备的方式来关注它们,而且其软件合作伙伴(包括Google和Microsoft)不惧怕使用硬件来推动AI-供电的移动设备可以做到。尽管微软可能希望使用AI功能来改善笔记本电脑或平板电脑的用户身份验证,但Google可能会依靠AI驱动的摄像头让手机自我检测它是否在汽车,办公室或电影院中,并相应地调整其行为。

尽管新的Snapdragon 8cx的TOPS比865(9 TOPS)要少,而价格较便宜的Snapdragon 8c(6 TOPS)和7c(5 TOPS)却要高得多,但请注意,高通公司仅通过将专用的AI处理功能包含在其中,就处于领先地位。笔记本电脑芯片组,这是从移动基础上向上构建笔记本电脑平台的一项好处。这为Snapdragon笔记本电脑芯片提供了优于AI处理器的英特尔处理器的先天优势,我们可以合理地期望看到苹果在今年晚些时候开始向“ Apple Silicon”过渡时采用相同的策略来区分Mac。看到苹果的第一批Mac芯片在整体性能和AI性能上都击败了Snapdragons并不奇怪,但是我们可能不得不等到11月才能听到细节。

华为,联发科技和三星在TOPS上

除了苹果和高通的AI芯片外,还有其他选择。中国的华为,台湾的联发科技和韩国的三星都制造了自己的具有AI功能的移动处理器。

华为的海思半导体部门制造了旗舰芯片,称为Kirin 990和Kirin 990 5G,通过两核或三核设计来区分其达芬奇神经处理单元。达芬奇的两个NPU都包含一个“微型核心”,但是5G版本从一个“大核心”跃升至两个,从而为高端芯片提供了额外的功能。该公司表示,微内核可以提供比大内核高24倍的AI面部识别效率,而大内核则可以处理更大的AI任务。它没有透露任何麒麟990型号的TOPS数量。由于美国政府的禁令,他们显然已经停产了。

联发科技当前的旗舰产品Dimensity 1000+包括一个称为APU 3.0的AI处理单元。APU 3.0可替代地描述为六核处理器或六AI处理器解决方案,承诺“最高4.5 TOPS性能”,可满足AI摄像头,AI助手,应用内和OS级AI需求。由于联发科技的芯片通常用于中端智能手机和诸如扬声器和电视之类的价格适中的智能设备,因此同时不足为奇的是,它并没有在性能方面处于领先地位,并且有趣的是,考虑到有多少AI功能将很快被视为廉价“智能”产品的赌注产品。

最后但并非最不重要的一点是,三星的Exynos 990具有与DSP配对的“双核神经处理单元”,有望“达到约15 TOPS”。该公司表示,其AI功能使智能手机具有“智能相机,虚拟助手和扩展现实”功能,其中包括相机场景识别以改善图像优化。三星在许多市场上特别使用高通的Snapdragon 865替代Exynos 990,许多观察者认为,即使三星完全控制自己的制造和定价,Exynos芯片也无法与Snapdragons相提并论。

顶部的顶部

移动处理器已经变得非常流行并且至关重要,但是它们并不是市场上仅有的带有专用AI硬件的芯片,也不是功能最强大的芯片。高通公司的Cloud AI 100推理加速器专为数据中心而设计,承诺以75瓦的功率提供高达400 TOPS的AI性能,尽管该公司使用另一种指标-ResNet-50深度神经网络处理-可以将其推理性能与竞争对手的解决方案如英特尔的100瓦Habana GoyaASIC(快4倍)和英伟达的70瓦特斯拉T4(快10倍)。根据各种服务器级外形规格提供的功率,许多高端AI芯片组都提供了多种速度级别,其中任何一种都将远远超过智能手机或平板电脑提供的小型可充电电池组。

要考虑的另一个关键因素是AI处理器在整个硬件包中的相对作用。Nvidia或Qualcomm推理加速器很可能被设计为全天候处理机器学习任务,而智能手机,平板电脑和计算机中的AI处理器通常并不是其各自设备的明星功能。在过去的几年中,甚至没有人考虑将芯片全职投入AI功能,但是随着AI成为各种设备越来越引人注目的卖点,工程师将继续努力设计和销售性能更高的解决方案。

就像过去几年的控制台和计算机性能大战一样,依靠TOPS作为单个数据点来评估任何解决方案的AI处理潜力可能是不明智的,如果您是作为AI专家来阅读此书的,或开发人员,在阅读本文之前,您可能已经知道很多。尽管考虑购买人工智能设备的最终用户应该看过去的数字,而不是执行对他们重要的任务的解决方案,但企业应该考虑将TOPS与其他指标和功能(例如是否存在特定的加速器)一起考虑,在AI硬件上的投资将值得保留多年。

声明:文章仅代表原作者观点,不代表本站立场;如有侵权、违规,可直接反馈本站,我们将会作修改或删除处理。

图文推荐

热点排行

精彩文章

热门推荐