新的工具可以帮助减少人工智能模型消耗的能量

当你在谷歌上搜索航班时,你可能已经注意到,现在每个航班的碳排放估价值都显示在其成本旁边。这是一种告知客户他们对环境的影响,并让他们将这些信息纳入决策的方式。

计算机行业还没有类似的透明度,尽管它的碳排放量超过了整个航空业。人工智能模型加剧了这种能源需求。像ChatGPT这样的大型流行模型标志着大规模人工智能的趋势,它推动了对数据中心的预测,即到2030年,数据中心将消耗全球21%的电力供应。

麻省理工学院林肯实验室超级计算中心(LLSC)正在开发帮助数据中心控制能源使用的技术。他们的技术范围很广,从简单但有效的改变,比如功率限制硬件,到采用可以早期阻止人工智能训练的新工具。至关重要的是,他们发现这些技术对模型性能的影响很小。

从更广泛的角度来看,他们的工作是推动绿色计算研究和促进透明文化。&#quot;能源意识计算并不是一个真正的研究领域,因为每个人都持有自己的数据,”LLSC高级职员维贾伊·加德帕利(Vijay Gadepally)说,他领导着能源意识研究工作。&#quot;总得有人开始,我们希望其他人也会跟进。”

抑制能量和冷却

与许多数据中心一样,LLSC在其硬件上运行的人工智能作业数量显著增加。注意到能源使用的增加,LLSC的计算机科学家对如何更有效地运行工作感到好奇。绿色计算是该中心的一个原则,它完全由无碳能源供电。

训练一个人工智能模型——它从庞大的数据集中学习模式的过程——需要使用图形处理单元(gpu),这是一种耗电的硬件。举个例子,训练GPT-3 (ChatGPT的前身)的gpu估计消耗了1300兆瓦时的电力,大致相当于1450个普通美国家庭每月的用电量。

当大多数人因为计算能力而选择GPU时,制造商提供了限制GPU功耗的方法。LLSC的研究员Siddharth Samsi说:&#quot;我们研究了封顶功率的影响,发现根据不同的模型,我们可以减少大约12%到15%的能耗。”

限制运算能力的代价是增加任务时间——gpu完成任务的时间将增加3%,Gadepally说,考虑到模型通常需要几天甚至几个月的训练时间,这种增加&#quot;几乎不明显”。在其中一个实验中,他们训练了流行的BERT语言模型,将GPU功率限制在150瓦,训练时间增加了两个小时(从80小时增加到82小时),但节省的能源相当于一个美国家庭一周的能源。

然后,该团队开发了一个软件,将这种功率上限功能插入到广泛使用的调度系统Slurm中。该软件允许数据中心所有者在整个系统或每个作业的基础上设置限制。

Gadepally说:&#quot;我们今天就可以部署这种干预措施,我们已经在我们所有的系统中这样做了。”

副作用也出现了。由于施加了功率限制,LLSC超级计算机上的gpu运行温度降低了约30华氏度,温度也更加稳定,减少了冷却系统的压力。运行硬件冷却器还可以潜在地提高可靠性和使用寿命。他们现在可以考虑推迟购买新硬件,以减少中心的&#quot;隐含碳”,或通过设备制造产生的排放,直到使用新硬件所获得的效率抵消了这方面的碳足迹。他们还通过战略性地将工作安排在夜间和冬季运行来寻找减少冷却需求的方法。

&#quot;数据中心可以使用这些易于实现的方法来提高效率,而不需要修改代码或基础设施,”Gadepally说。

从整体上看数据中心的运营,以找到减少运营的机会,这可能需要大量的时间。为了让其他人更容易地完成这个过程,该团队与东北大学的Devesh Tiwari教授和Baolin Li教授合作,最近开发并发布了一个综合框架,用于分析高性能计算系统的碳足迹。系统从业者可以使用这个分析框架来更好地理解他们当前系统的可持续性,并考虑下一代系统的变化。

调整模型的训练和使用方式

除了对数据中心运营进行调整外,该团队还在设计提高人工智能模型开发效率的方法。

在训练模型时,人工智能开发人员通常专注于提高准确性,他们以以前的模型为起点。为了达到预期的输出,他们必须弄清楚要使用什么参数,而要得到正确的结果可能需要测试数千种配置。这个过程被称为超参数优化,是LLSC研究人员发现的一个减少能源浪费的成熟领域。

Gadepally说:&#quot;我们已经开发了一个模型,基本上可以观察给定配置的学习速度。”根据这个比率,他们的模型可以预测可能的表现。表现不佳的模型被提前停止。他说:&#quot;我们可以在早期给你一个非常准确的估计,最好的模型将出现在100个运行模型的前10名中。”

在他们的研究中,这种提前停止导致了显著的节约:用于模型训练的能量减少了80%。他们已经将这项技术应用于计算机视觉、自然语言处理和材料设计应用的模型开发中。

&#quot;在我看来,这项技术在推进人工智能模型的训练方式方面具有最大的潜力,”Gadepally说。

训练只是人工智能模型排放的一部分。随着时间的推移,排放的最大贡献者是模型推理,或者是实时运行模型的过程,比如当用户与ChatGPT聊天时。为了快速响应,这些模型使用冗余硬件,一直运行,等待用户提出问题。

提高推理效率的一种方法是使用最合适的硬件。该团队还与东北大学合作创建了一个优化器,该优化器将模型与最节能的硬件组合相匹配,例如用于推理计算密集型部分的高功率gpu和用于要求较低方面的低功耗中央处理器(cpu)。这项工作最近在国际ACM高性能并行和分布式计算研讨会上获得了最佳论文奖。

使用此优化器可以减少10- 20%的能源使用,同时仍然满足相同的&#quot;服务质量目标”(模型的响应速度)。

这个工具对云计算客户特别有帮助,他们从数据中心租用系统,必须从数以千计的选项中选择硬件。&#quot;大多数客户高估了自己的需求;他们选择功能强大的硬件只是因为他们不知道有什么更好的选择。”

日益增长的绿色计算意识

通过实施这些干预措施节省的能源也降低了开发人工智能的相关成本,通常是一对一的比例。事实上,成本通常被用作能源消耗的代表。考虑到这些节省,为什么没有更多的数据中心投资于绿色技术呢?

&#quot;我认为这是一个激励错位的问题,”萨姆西说。&#quot;人们竞相打造更大、更好的模型,几乎所有次要考虑都被搁置一边。”

他们指出,虽然一些数据中心购买了可再生能源信用额度,但这些可再生能源不足以满足日益增长的能源需求。数据中心的大部分电力来自化石燃料,而用于冷却的水正在加剧流域的压力。

由于没有对节能技术进行系统的研究,也可能存在犹豫。这就是为什么这个团队一直在同行评议的场所推动他们的研究,而不是在开源存储库中。一些大型行业参与者,如谷歌DeepMind,已经应用机器学习来提高数据中心的效率,但还没有让其他人可以部署或复制他们的工作。

顶级人工智能会议正在推动制定伦理声明,考虑人工智能可能如何被滥用。该团队认为气候方面是一个人工智能伦理话题,尚未得到太多关注,但这似乎也在慢慢改变。一些研究人员现在正在披露训练最新模型的碳足迹,正如Meta AI最近的报告所示,工业界也在能源透明度方面表现出转变。

他们还承认,如果没有工具可以向人工智能开发者展示他们的消费情况,透明度就很难实现。报告是LLSC今年的路线图。他们希望能够显示每个LLSC用户,对于每个工作,他们消耗了多少能源,以及这个数量与其他用户相比如何,类似于家庭能源报告。

这部分工作需要与硬件制造商更紧密地合作,以便更容易和更准确地从硬件上获取这些数据。如果制造商能够标准化数据的读取方式,那么节能和报告工具就可以跨不同的硬件平台应用。LLSC的研究人员和英特尔正在合作解决这个问题。

即使对于人工智能开发者来说,他们意识到人工智能对能源的强烈需求,他们自己也不能做太多来遏制这种能源使用。LLSC团队希望帮助其他数据中心应用这些干预措施,并为用户提供能源意识选项。他们的第一个合作伙伴是美国空军,它是这项研究的赞助商,运营着数千个数据中心。应用这些技术可以显著降低它们的能耗和成本。

Gadepally表示:&#quot;我们将控制权交给希望减少足迹的人工智能开发人员。&#quot;我真的需要无偿地训练没有前途的模型吗?”我是否愿意放慢gpu的运行速度以节省能源?据我们所知,没有其他超级计算中心允许您考虑这些选项。今天,使用我们的工具,你可以做出决定。”


作者:凯莉·福伊|麻省理工学院林肯实验室

链接:https://www.sciencedaily.com/releases/2023/10/231004105145.htm

著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

声明:海森大数据刊发或者转载此文只是出于传递、分享更多信息之目的,并不意味认同其观点或证实其描述。若有来源标注错误或侵犯了您的合法权益,请作者与本网联系,我们将及时更正、删除,谢谢。电话:15264513609,邮箱:1027830374@qq.com

栏目

行业新闻

公司动态


相关

MIT推出Boltz-1

AI设计抗体笼药物:诺奖

Meta推出OMat24

AI有望改变“试错法”研

探索人工智能在3D医学图


时间

2023-10-13 12:42:18


作者

凯莉·福伊|麻省理工学院林肯实验室