通过生成性人工智能改善空气质量 机器学习博客

利用生成式AI改善空气质量

作者: Sandra Topic, Gabriel Verreault, Venkat Viswanathan, QiongZhang,2024年6月18日发布于和


关键要点

  • 加纳是全球第27个最污染的国家,面临严重的空气污染问题。
  • 多个非洲国家开始采用低成本空气质量传感器,以加强空气质量监测。
  • Afri-SET通过技术来解决各国空气质量数据的整合挑战,并助力政府和民间社会进行有效的空气质量管理。
  • 在2023年举行的世界最大空气质量黑客马拉松中,超过170个团队提出了33个解决方案,其中一项利用生成式AI来标准化低成本传感器空气质量数据,名列前茅。

加纳当前是全球第27个最污染的国家,面临着严重的空气质量挑战。许多非洲国家已意识到空气质量监测的重要性,因此开始采用低成本空气质量传感器。旨在利用技术应对这些挑战,该中心与合作,提供适合非洲的关键评估。

2023年12月6日至8日,非营利组织与AWS合作,组织了全球最大的,旨在解决空气污染这一全球紧迫的健康与环境问题。超过170个技术团队利用最新的云计算、机器学习与人工智能技术,开发出33个解决方案。本博文中提到的解决方案正是针对Afri- SET的挑战,且被评为前三名的获胜方案之一。

本文介绍了一项利用生成式人工智能()标准化非洲低成本传感器空气质量数据的解决方案,特别针对低成本传感器的数据整合问题。该解决方案利用生成式AI,特别是大型语言模型(LLMs),来应对多样的传感器数据问题,并自动生成Python函数以处理不同的数据格式。其基本目标是构建一个与制造商无关的数据库,利用生成式AI的能力标准化传感器输出、同步数据并进行准确修正。

当前挑战

Afri- SET目前从众多来源合并数据,并为每个传感器制造商采用定制方法。由于数据格式各异,这一手动同步过程资源密集,限制了广泛数据编排的潜力。该平台虽然可用,但处理来自不同制造商的csv和json文件时需要耗费大量精力。

目标是自动化来自各传感器制造商的数据整合工作,以便在加纳的首都阿克拉及整个西非地区进行可扩展应用。尽管面临挑战,Afri- SET在资源有限的情况下,希望为寻求在其平台上托管传感器的数据管理解决方案,提供准确的低成本传感器数据。如今的努力多集中在数据清洗上,导致宝贵的技能未能用于传感器校准的机器学习模型构建。此外,他们希望能够报告来自低成本传感器的修正数据,这需要超出特定污染物的信息。

该解决方案具有以下要求:

  • 云托管 :解决方案必须部署在云上,以保证可扩展性和可访问性。
  • 自动数据导入 :需要一个自动系统,能够识别与同步新(未见过的)多样数据格式,尽量减少人工介入。
  • 格式灵活性 :应支持csv和json格式的输入,并对格式具有灵活性(如合理的列名、计量单位、任何嵌套结构或格式不规范的csv,例如缺少列或多余列)。
  • 保留原始副本 :保留一份未修改过的数据副本以便参考和验证是至关重要的。
  • 成本效益 :应只在需要时调用LLM生成可重用代码,避免直接处理数据以最大限度降低成本。

目标是构建一个一键解决方案,能够自动将不同的数据结构和格式(csv和json)转换为统一的数据库,具体如以下示例图所示。这允许数据聚合,以便进行制造商无关的分析。

删除)

解决方案概述

所提议的解决方案通过利用Anthropic的Claude2.1基础模型生成Python代码,将输入数据转换为统一的数据格式。LLMs在编写代码和推理方面表现优异,但在直接与时间序列数据交互时通常效果不佳。在这个解决方案中,我们利用LLMs的推理和编码能力创建可重用的抽取、转换、加载(ETL)流程,将不符合通用标准的传感器数据文件转换以便存储和后续校准与分析。此外,我们还利用LLMs的推理能力,以理解空气质量传感器标签的含义,例如颗粒物(PM)、相对湿度、温度等。

下图展示了解决方案的概念架构:

删除)

解决方案流程

解决方案从读取原始数据文件(csv和json文件)(步骤1),并检查之前是否见过此设备类型(或数据格式)。如果是,解决方案将检索并执行先前生成的Python代码(步骤2),并将转换后的数据存储在S3中(步骤10)。仅对新的设备数据文件类型调用LLM(尚未生成代码)。这样做是为了优化性能并减少LLM调用成本。如果未找到适用于特定设备数据的Python代码,解决方案将通知操作员检查新数据格式(步骤3和步骤4)。此时,操作员检查新数据格式,并验证该格式是否来自新制造商(步骤5)。进一步,解决方案检查文件是csv还是json。如果是csv文件,数据可以通过不需要LLM调用的Python函数直接转换为Pandas数据框。如果是json文件,LLM会被调用生成一个Python函数,基于json有效负载的schema创建Pandas数据框,并考虑其嵌套程度(步骤6)。

我们通过三种不同的提示(输入字符串)调用LLM生成操作数据的Python函数:

  1. 第一次调用(步骤6)生成一个将json文件转换为Pandas数据框的Python函数。来自制造商的json文件具有不同的schema。一些输入数据使用值类型与值的对作为测量。后者格式导致数据框包含一列值类型和一列值。这些列需要进行透视。
  2. 第二次调用(步骤7)确定数据是否需要进行透视,并在需要时生成用于透视的Python函数。输入数据的另一个问题是同一空气质量测量可能会有不同的名称,例如"p1""和"pm1"代表同一种测量。
  3. 第三次调用(步骤8)专注于数据清洗。它生成一个将数据框转换为公共数据格式的Python函数。该Python函数可以包含步骤以统一相同测量类型的列名和删除不必要的列。

所有由LLM生成的Python代码都存储在库中(步骤9),以便用于日常处理原始设备数据文件并转换为通用格式。

随后,数据存储在亚马逊S3中(步骤10),并可以发布到,以便其他组织使用经过校准的空气质量数据。

下面的屏幕截图仅作为提议的前端展示,因为该解决方案旨在与Afri-SET现有的后端系统集成。

删除)

结果

所提方法最大限度地减少了LLM调用,从而优化了成本和资源。解决方案仅在检测到新数据格式时才调用LLM。生成的代码将被存储,以便相同格式的输入数据(之前见过)可以重用该代码进行数据处理。

人机互动机制保障了数据导入。仅当检测到新数据格式时,才会触发以避免加重Afri-SET资源的负担。对每一步的数据转换进行人工验证是可选的。

自动代码生成将数据工程的工作量从几个月减少到几天。Afri- SET可以利用此解决方案根据输入数据的格式自动生成Python代码。输出数据被转换为标准化格式,并以Parquet格式存储在亚马逊S3中,这是一种高效的列式存储格式。如有必要,它可以进一步扩展到使用(无服务器数据集成服务)和(无服务器和交互式分析服务)的数据湖平台进行数据分析和可视化。凭借AWSGlue的自定义连接器,将数据在Amazon S3与其他应用程序之间转移变得轻而易举。此外,这对于Afri- SET的软件工程师来说是一种无代码体验,使其能够轻松构建数据管道。

结论

该解决方案便于数据集成,助力扩大低成本空气质量监测。它提供了数据驱动的信息立法,促进社区赋权并鼓励创新。

这一旨在收集准确数据的倡议,标志着朝向更清洁、更健康环境的重大进步。我们相信,AWS技术可以通过类似于此处描述的技术性解决方案来有效应对空气质量不佳的问题。如果您希望原型类似的解决方案,请申请参与。

如往常一样,AWS欢迎您的反馈,请在评论区留言您的看法和问题。


作者简介

删除)SandraTopic 是AWS的环境公平领袖。在这个角色中,她利用其工程背景寻找利用技术解决全球“待办事项清单”的新方法,推动积极的社会影响。Sandra的经历包括社会企业家精神及在科技公司领导可持续发展和人工智能工作。

删除)Qiong (Jo) Zhang ,博士,AWS高级合作解决方案架构师,专注于AI/ML。她目前的研究兴趣包括联邦学习、分布式训练和生成式AI。她拥有30多项专利,并共同撰写了100多篇期刊/会议论文。她还是2016年IEEENetSoft、2011年IEEE ICC、2010年ONDM和2005年IEEE GLOBECOM的最佳论文奖获得者。

删除)GabrielVerreault 是AWS工业制造部门的高级合作解决方案架构师。Gabriel与AWS合作伙伴共同定义、构建和传播以智能制造、可持续性和AI/ML为基础的解决方案。Gabriel还在工业数据平台、预测性维护以及AI/ML与工业工作负载结合方面拥有专业知识。

删除)Venkatavaradhan (Venkat) Viswanathan 是亚马逊网络服务的全球合作伙伴解决方案架构师。Venkat是一名数据、AI、ML、生成式AI和高级分析技术战略领袖。Venkat还是Databricks的全球主题专家,并帮助AWS客户在AWS上设计、构建、保护和优化Databricks工作负载。

Leave a Reply

Required fields are marked *