B体育经过计算,GPT-3每进行10-50次的基本询问对线毫升的水。如何将可持续的理念植入AI开发设计阶段,从而避免这个革命性行业重蹈老工业化时代“先污染再治理”覆辙?
建立更复杂的环境和气候模型可以帮助人们理解气候变化的机理,利用先进的模型去优化整合低碳能源系统,用算法去判定天气和农作物的长势从而服务精准农业……在由OpenAI带领的这一波人工智能热潮中,AI能给社会经济带来可持续发展的助力。AI的应用因此被放在聚光灯下,引发许多未来的美好期待。
少有人知的是,在人工智能技术的基础研究和产品设计过程中,需要耗费大量的水电等自然资源,产生非常高的碳足迹和水足迹。就像AI给人类社会带来效率提升的同时也带来治理和道德危机一样,在环境影响和可持续发展命题上,AI亦是一把“双刃剑”。
“在微软最先进的美国数据中心训练 GPT-3 ,可直接蒸发70万升清洁淡水,但这些信息一直被保密,这一点非常令人担忧。”加州大学河滨分校电气与计算机工程系副教授任绍磊(Shaolei Ren)在接受界面新闻专访时说。任绍磊的研究主要聚焦于“人工智能+可持续性”,致力于使人工智能和计算技术带领我们的社会走向更加可持续和公平的路径。他尤其聚焦人工智能的用水问题,并早在2013年起就开始研究。
任绍磊介绍,人工智能(AI)模型,尤其是像 GPT-3、GPT-4 这样的大型模型,其碳足迹越来越大,这点一直受到公众关注。但人工智能模型同样重要而巨大的水足迹仍未引起足够重视。目前,淡水匮乏已成为全球共同面临的最紧迫挑战之一。到2027年,全球人工智能需求可能会产生42-66亿立方米的取水量,这相当于丹麦每年取水总量的4-6倍。
如何提高AI大厂在能耗方面的信息披露透明度、如何通过合理的数据中心地理布局来降低能耗?更重要的,如何将可持续的理念植入AI开发设计阶段,从而避免这个革命性行业重蹈老工业化时代“先污染再治理”覆辙?任绍磊透过对微软和谷歌的案例分析试图提供一些解决方案。对于同样在人工智能领域迅猛布局的中国来说,也有启发意义。
记者:我读过您的一篇研究,是关于GPT-3耗水量的,印象深刻。能跟我们详细介绍一下这个研究么?
任绍磊:我在2013年就做过数据中心耗水的研究,但当时这个研究离普通人的生活太远了B体育,没有得到很多关注。由于AI行业发展迅猛,很多学者近几年开始关注AI的碳足迹,但是关注水足迹的人很少。我就想,是不是可以做AI水资源消耗的文章?根据我之前的研究基础,AI在水资源方面的消耗应该是非常巨大的。
AI的发展都基于大规模的数据中心,而数据中心耗电量巨大,95%以上的电能会转化成热能。降热降温需要消耗大量的水。现在主要有两种方式降温:一种是利用水蒸发带走热量,也就是利用冷却塔,这个过程需要消耗大量的水;还有一种是直接用空气流动散热,通俗地说就是“用风吹”,但在天气热的时候需要用水预凉,天气干燥的时候需要用水加湿。
在微软全球数据中心,平均来算大概每用一度电就要蒸发掉一升水。而这一度电大概能支撑数据中心一台服务器工作20分钟到一个小时。这一升水还只是数据中心直接用水。为了产生这一度电,在发电环节还要消耗大量的水。按照业界平均水平,每发一度电要消耗大约3-6升水。
根据微软公布的官方数据,GPT-3每产生100页的对线千瓦时的电。经过我们的计算,GPT-3每进行10-50次的基本询问对线毫升的水。也就是说,每一次询问对线毫升以上的水。在微软最先进的美国数据中心训练GPT-3可直接消耗70万升清洁淡水,足够生产 370辆宝马汽车或370辆奔驰汽车。而且,这些水不是“取水”,而是消耗掉并不可再生的。
任绍磊:是的,温度和冷却方式会对耗水量有较大影响。比如说,微软宣布GPT-4是在美国爱荷华州进行数据训练的,那里平均气温比较低。根据我们的研究,如果是在天气较热的美国亚利桑那州训练,耗水量将是爱荷华的11倍。
温度的影响不难理解,相对较低温有利于散热。在冷却方式方面,在气温适宜的地方,可以采用直接引入室外冷空气降温的办法,不用冷却塔水蒸发带走热量,也不需要预先冷却空气,就减少了大部分耗水。
任绍磊:对,我们在研究中就提出了建议,由于人工智能的工作是通过互联网进行的,因此可以很简单地采取诸如交换任务发送等方式,更加灵活地使用数据中心。将计算请求转移到由清洁能源供电的数据中心,或者转移到用水量较少的较冷地区的数据中心,这是一种对气候有利的变化。而从用户体验的角度来看,也没有太大影响。
记者:您的另一项研究探讨了人工智能模型的加速增长可能加剧环境不平等,能跟我们介绍一下这项研究么?
任绍磊:总的来说,人工智能的环境足迹在某些地区比其他地区高得多。这是因为在实际建设数据中心或相关大型基础设施时,公司大多选择相对偏远的地区。比如在美国,很多数据中心的选址都是经济相对没那么发达,人口没那么稠密的地区。反过来说,如果是在经济实力比较强的社区,数据中心往往会因为噪音、空气、水热污染等问题招来强烈的民意反弹,导致建设计划流产。
因此,这就导致了一个恶性循环。越是欠发达社区,越有可能建设那些带来负面环境影响的AI基础设施,从而进一步恶化当地的环境,加剧环境不平等。
记者:但是如我们之前讨论的,从减少能耗角度看,数据中心也适宜建设在温度比较低、地广人稀的地方。如果这些地方恰好是比较薄弱的社区,我们怎么去平衡效率和公平的问题?
任绍磊:是的,有时候很难两全,需要去平衡。我们需要注意,环境要素不是免费的,“凉快”不是免费的。因为发电和数据中心运行还无法做到100%清洁能源供电,怎么衡量环境要素投入的经济价值?怎么为负面环境影响,对当地居民做出生态补偿?这些都是我们应该思考的问题。比如说在美国,微软在很多地区会建设数据中心配套的污水处理厂或风力发电厂,这就是对当地环境的一种补偿。
我注意到许多美国科技公司已经非常关注环境公平问题,有时候甚至把公平放在效率和成本之前。比如Meta(Facebook)在自己的ESG报告里,就是把环境公平放在首要考虑位置,它的能源消耗的信息披露也是最全面的。微软计划在印度建设的数据中心,甚至已经宣布不直接用水冷却,而改用利用空气冷却的冷凝器,这可能是考虑到印度缺水又很热。用冷凝器降温可以避免在当地直接耗水,但却大大增加了制冷能耗,导致发电环节用水大幅上升,因此总体用水量是否减少还不好判断。总之,在社会舆论压力下,许多大厂都不得不更多地去考虑社会环境效益。
记者:您的文章点名了一些大厂,所以产生了比较大的影响力。您的研究中还提到谷歌在2022年,仅自有数据中心就消耗近200亿升水用于现场冷却,其中大部分是饮用水,总体用水量较2021年增加约20%。您的研究都是基于公开数据么?研究发表后,这些大厂跟您联系过么?
任绍磊:微软没有联系过我,但是在相关媒体报道出来之后,微软有进一步公布更详细的提高水资源利用效率的方式。谷歌有间接联系过我们大学,对研究所用的数据提出了一些质疑,但又拒绝提供自己更详细的数据。我们最终版论文的所有数据均来自官方数据、政府数据或者业界知名的研究机构数据,去掉了所有我们自己根据模型推算的数据。
任绍磊:还有提升空间。比如说微软披露了自己每个数据中心的用水效率,没有披露相应的用水量和用电量;谷歌披露了每个数据中心的用水量,又没有披露用水效率。有一种解释是,如果用水用电量和效率都披露了,就能算出它的实际用水用电量,从而得出企业部署在当地的业务量。但这也不是什么商业机密,Meta就详细公布了每个业务地点的用电量、用水量,有的地方甚至包括了发电环节的用水量B体育。
只有更充分的信息披露,才能给公众知情权,也会给公司带来更多的改进压力。从这方面看,高科技大厂特别是耗能较大的AI大厂应该提高能耗披露透明度。
界面新闻:除了数据中心所在地温度和冷却方式会影响耗水量外,还有什么方法能改进AI产业发展的可持续性呢?
任绍磊:另一个方法其实就是少用点儿能耗,也就是不用那么大的计算模型,用小一些的模型去构建你的AI产品,用水用电自然会降低。其实在GPT的训练过程中,微软也会使用大小不一样的模型去模拟,小模型就是大模型压缩出来的,去掉了一些不太重要的参数,它也能回答绝大多数基本问题。甚至小模型的响应速度更快,也就是回答问题更快,因为它更灵活,计算量更小了。这就好比消费者买车,奔驰车和QQ车其实都能满足基本需求,那也不一定任何消费者都需要去买奔驰。
记者:但是AI现在的发展阶段,仿佛是各个大厂在搞算力上的“军备竞赛”,追求更大、更强、更智能,基于实际需求的、可持续发展的理念似乎还很少在产品开发阶段被关注到。
任绍磊:对,这就是我想说的问题。AI发展要可持续,怎样才是“治本”之道?现在大厂在数据中心选址上做文章,在大楼建设上做文章,其实都是治标不治本。特别是考虑到AI的本质,就是“更聪明”、使用更少资源去做事。这些大厂其实在可持续开发方面,根本没有用到自己的专长。在软件开发阶段,码农们不会考虑能耗问题,而是怎么高大上怎么来;程序写出来了,先上线跑再说,先能赚到钱再说。至于需要多少电、需要多少水,那就让公司去买;负面环境影响大了,公司再去想怎么抵消环境影响。
前几天我刚去开了一个会议,大家非常关注一个理念,叫做Software Sustainability by Design,也就是具有可持续性的软件设计,美国已经有一些协会和组织在推行这个理念。很多人已经注意到,不计环境成本的软件开发带来了很多能源资源浪费和不可逆的环境影响。这就好比第一步走错了,楼建歪了,你是可以再修补,但修补成本就会很高。而如果在软件设计阶段就考虑到节能,综合成本会低得多。
记者:您说的这个太重要了,也很有启发性。因为大家直觉上会觉得软件开发不是一个重自然资源消耗的行业,也就容易忽视全产业链的环境负面影响,忽视了把可持续理念前移到开发阶段的重要性B体育。您跟一些“码农”聊过么?他们怎么看Software Sustainability by Design?
任绍磊:其实很难要求一些传统的“码农”去注意节能问题,因为从他们的学习、训练来看B体育,都不会接触到能源的议题。这需要企业从顶层设计上,引入一些专业人士,去平衡各方面的因素,也是一个比较复杂的决策过程,涉及到从ESG角度去做公司治理和生产流程的改变。
我观察到微软已经引入了一些这方面的外部专家,比如说前罗格斯大学的教授Ricardo Bianchini,以前我们一起做可持续计算方面的研究,现在在微软负责数据中心能耗及绿色计算;去年底,微软还挖来了前白宫总统能源助理Melanie Nakagawa任首席可持续发展官,她在微软的主要工作之一就是负责水资源优化。
任绍磊:中国的AI产业发展当然也是非常快的,数据中心的产业规模也非常大。国内很多数据中心的建设也已经考虑了环境因素,比如贵州、内蒙的数据中心比较多,这也在一定程度上减少了能耗。但与此同时,国内还有很多大厂委托的第三方数据中心,也有相当一部分分布在长三角、京津冀等地区。
在AI分配计算任务时,也可以考虑更为灵活地在各个地方的数据中心转换。以前可能更多考虑速度问题,比如北京的用户要看一个视频,那当然调用北京的数据中心最快;但现在的网络延时已经非常小了,考虑到能耗问题,是不是也可以调用内蒙的数据中心?这个时间差用户是感受不到的B体育,但是综合起来对服务器的负载有很大影响。尤其是对AI的训练,这个太灵活了,全国各地数据中心转一圈儿都可以,要充分考虑环境成本来考虑选址。