通俗解读版

水厂智能加药系统
通俗解读

一份面向非数据背景读者的项目讲解
读完即可完整理解技术原理与应用价值 💧

SECTION · 01

这个项目要解决什么问题

一句话:让 电脑替水厂师傅 每 15 分钟自动算出最优 PAC 投加量,比人工更准、更省药剂。

水厂运行中,有一道关键工序叫混凝加药——原水进厂后,按浊度情况投加 PAC(聚合氯化铝),让水中悬浮物凝聚成大块矾花,再沉淀去除。

核心难点是:究竟应该投加多少?目前在大多数水厂,这一决定完全依赖操作员的经验——观察水色、判断矾花大小、凭手感调阀。

本项目要做的事情是:用在线传感器持续采集水质数据,让计算机模型从历史数据中学习经验,实现每 15 分钟自动给出最优投加量、自动控制阀门。

举个类比

过去看中医靠老大夫的经验把脉开方,现在中医诊断也开始借助仪器辅助。本项目相当于做了一位"AI 医师"——它把过去一整年里几万次"什么样的水加多少药、效果如何"都熟记在心,新的水样进来扫一眼就能给出处方。

核心要点 把师傅几十年的经验数字化、模型化,让计算机 24 小时持续运行,加药更精准、不疲劳、不受情绪影响。
SECTION · 02

当前水厂存在哪些痛点

不是说现行做法不好,而是有 四个结构性问题,仅靠人力难以根本解决。
熟悉的场景 水厂里常见这种情况:经验丰富的老师傅扔下一句"今天阀门多开两圈,水有点浑"——他自己往往也说不清"为什么是两圈而不是一圈半",就是经验。这种"说不清楚的经验",恰恰是本项目要让计算机学会的东西。
核心要点 药剂超量 + 响应滞后 + 调整粗放 + 经验难传——这四个问题,是本项目要系统性解决的。
SECTION · 03

整体方案分几步

总共 五步,从"准备数据"到"部署到水厂",环环相扣。后面每一节会展开讲一步。
1
合成一年的水厂数据
真实水厂数据涉及保密、且通常存在缺失,所以按物理规律自行生成一份高仿真数据集。
2
把原始数据加工成"特征"
原始数据无法直接被模型有效利用,需要先加工为"半成品"——例如"过去 1 小时浊度的均值"。
3
训练两个 AI 模型
同时训练两种特性互补的算法,让它们各自学会"看到这种水况,应该投加多少药"。
4
让 AI 解释自己的决策
模型不能像黑箱一样只给答案,必须能说明"为什么要加这么多",操作员才敢真正使用。
5
两个模型对比择优
让两个模型在同一份测试数据上较量,按场景采用"日常主用 + 应急切换"的双保险策略。

下面将一步一步讲清楚。每一步对应原版网页上的一个章节模块。

SECTION · 04 · 对应原网页 §1 数据合成

第一步:合成一年的水厂数据

为什么不用真数据?因为难以获取。所以按物理规律 自行生成一份高仿真数据。

先说明为什么不用真实水厂数据:

因此,团队选择了另一条路径:按水利行业的真实规律,构造一年的水厂运行数据

举个类比

这与拍摄科教片的逻辑相同——不可能真的去等一场地震发生再开机,但可以根据地震学原理,用计算机模拟一场"虚拟地震",模拟得越接近真实越有研究价值。本项目所做的就是"模拟一年的水厂运行"。

如何确保合成数据真实可信?核心是按因果关系逐层构建,而非随机生成。整个数据生成框架共 5 层:

这 5 层逐级递进,每一层的因果关系都有明确的数学公式,全部参考水利行业教材与学术文献。

类比水厂日常 汛期来临时,从业人员都清楚:台风过境后几小时内浊度必定大幅上升——这条"台风 → 暴雨 → 河水浊度 → 进厂浊度"的因果链,本项目就是把它编写成数学公式交给计算机执行。

最终生成的数据规模:

35,040
全年总数据点
15分钟
每条采样间隔
10
每条记录的水质参数

简单核算:365 天 × 24 小时 × 4 次(每小时 4 个 15 分钟) = 35,040 条。这就是 AI 模型用以学习的全部"教材"。

想了解更多 · 每个参数是如何计算出来的

气温为例,公式为:年平均 18℃ + 季节波动(夏季高 13℃、冬季低 13℃)+ 昼夜波动 + 随机噪声。

再以降雨为例,按真实概率分布生成:6–8 月降雨集中,全年总量 1042 mm(接近扬州地区真实年降水量),其中包含 3 次"暴雨级"事件。

这些公式均按水利、气象行业的标准模型构建,并非任意设定。

核心要点 合成数据不等于"假数据",而是"按真实规律生成的数据"——类似虚拟现实,物理引擎是真实的,模拟的内容服务于研究目的。
SECTION · 05 · 对应原网页 §2 特征工程

第二步:把数据加工成"特征"

原始数据无法直接被模型有效利用。必须先 加工成模型容易理解的"半成品",这一步称为"特征工程"。
举个类比

原始数据如同从地里挖出的土豆——粗糙、带泥。直接送进模型如同直接啃,既难消化也难吸收。需要先:洗净、削皮、切丁、调味,再交给"厨师"加工。这一步在数据领域称为 特征工程

原始采集的水质参数只有 10 项(浊度、水温、pH、流量等),但经过加工后,模型实际能"读到"的是 122 项。多出的 112 项从何而来?

第一种加工:滑动平均

不仅看"当前浊度",还要计算"过去 1 小时浊度的均值"、"过去 4 小时的均值"、"过去 24 小时的均值"。

类比水厂日常 操作员判断是否调药,从来不会只看一个瞬时值,而是会回顾"刚才一段时间的趋势"。这一加工方式让模型也学会"回头看"。

第二种加工:变化率

计算"过去 15 分钟内,浊度上升或下降了多少"。这能让模型提前感知"水质趋势正在变化"。

第三种加工:交互特征(最具洞察力的一类)

把两个相关参数相乘。例如 流量 × 浊度 = 当前进厂的总污染负荷。这个组合值比单看任一参数更能反映真实工况。

举个类比

就像调味品中糖与醋的组合——单独使用各自有限,组合起来便成就了糖醋系列菜肴。模型读取"流量 × 浊度"也是同样的道理。

这 122 项加工后的数据中,最终筛除了一批冗余或无关的(例如某些数据彼此高度重复,或与加药量关联性极低),保留对预测最有效的特征。这些就是模型真正吸收的"营养"。

核心要点 模型的智能程度不取决于数据量,而取决于数据加工的质量。这一步最考验工程能力——也最不容易被外行看到,所以常被低估。
SECTION · 06 · 对应原网页 §3 §4

第三步:训练两个 AI 模型

本项目并非只采用单一模型,而是 同时训练两种特性互补的模型,让它们各自发挥长处。

这两个模型在原网页的专业名称是 XGBoostLSTM。名称无需记忆,下面把它们当作两位特性不同的"师傅"来介绍。

模型 A · "决策投票型" XGBoost

行业术语:梯度提升决策树

工作方式:可以理解为水厂里有 500 位小型专家,每位只看几项指标、给出一个建议,最终对所有建议加权汇总,得到最终投加量。

性格特点:

  • 响应快——单次推理仅需 不到 1 毫秒(远快于人眼眨动)
  • 可解释——可以追溯每一位"专家"投了什么票、贡献了多少
  • 稳定可靠——在常规水质场景表现优异,是工业界部署最广的算法

局限:对"水质趋势变化"不敏感——它仅观察"当前时刻",不会回顾历史走势。

模型 B · "记忆推断型" LSTM

行业术语:长短期记忆神经网络

工作方式:这一模型具备短期记忆能力。在做决策前,会回顾"过去 6 小时水质如何变化",再综合判断。

性格特点:

  • 能够预判——暴雨初期就可以"推测"出后续浊度走势
  • 趋势敏感——对"水质突然变化"的捕捉能力出色

局限:

  • 响应稍慢——单次推理约需 10 毫秒(比模型 A 慢约 20 倍,但仍远快于人工)
  • 解释性弱——难以清晰说明"为什么得出这个结论"(类似有些资深师傅,做对了但讲不清道理)

为何要并行训练两个模型?因为没有完美的单一模型——常规工况模型 A 占优,突发场景模型 B 更强。

想了解更多 · 这两个模型是如何"训练"的

训练 = 让模型反复做练习题、对答案、自我修正。

团队将 35,040 条数据按比例切分为三份:

· 70% 作为练习题供模型反复学习

· 15% 作为小测验,监控学习效果

· 15% 留作最终"高考",验证真实能力

模型 A 训练 500 轮,模型 B 训练数百轮。每一轮训练都会修正错误、不断收敛。

核心要点 本项目没有押宝单一模型,而是同时训练两个——一个响应快、一个能预判,针对不同水况各自发挥。
SECTION · 07 · 对应原网页 §3 SHAP 部分

第四步:让 AI 解释自己的决策

模型给出"投加 8 mg/L"——操作员凭什么相信?所以必须让模型 "出具决策依据",逐项说明判断逻辑。
举个类比

类似医生开处方——病人不会接受医生只说"开 3 片阿司匹林"而不解释。医生需要说明"血压偏高、近期受寒、年龄因素..."等一系列依据,构成一份完整的诊断逻辑。

模型也需要"出具决策依据"。本项目采用的技术称为 SHAP,专门用来解释模型的每一次决策。

具体形式如何?例如某一时刻模型建议"投加 8 mg/L 的 PAC",SHAP 给出的决策依据如下:

📋 模型决策依据
基础剂量5.0 mg/L
+ 浊度偏高(120 NTU)+2.0
+ 水温偏低(8℃)+1.0
− pH 在最佳范围(7.2)−0.2
− 流量偏低(3500 m³/h)−0.5
+ 其他细微影响+0.7
最终建议8.0 mg/L

每一项加减都清晰可查。操作员一目了然——"主要因为浊度上升和水温偏低,所以多投加了 3 mg/L"。

为什么这一步最关键 水厂将决策权交给一个"黑箱模型"是不可接受的——一旦发生事故,无法追责。但若模型每一次决策都附带依据,便具备了可审计、可学习、可信任的基础。这也是本项目投入最大精力的环节。
核心要点 本项目交付的不是一个"黑箱模型",而是 "每一次决策都可解释的模型"——这是真正落地水厂的前提。
SECTION · 08 · 对应原网页 §5 模型对比

第五步:两个模型对比择优

两位"师傅"训练完成后,需要 同台测试,对比谁更准、谁更适合什么场景。

团队用之前预留的"高考题"(15% 的数据)让两个模型同时进行预测,对比结果如下:

对比维度模型 A · XGBoost模型 B · LSTM
预测精度(误差越小越好)误差 0.86误差 0.89
响应速度0.5 毫秒10 毫秒
可解释性(5/5)较弱(2/5)
常规水质表现更优持平
暴雨突变表现一般更优(提前预判)
部署难度中等(需配置较好硬件)

结论清晰:

核心要点 本项目不偏袒任一模型,哪种场景哪个模型更强就采用哪个。这是负责任的工程决策方式。
SECTION · 09 · 对应原网页 §6 效果评估

实际效益:到底能省多少

本节给出 核心数据。这些数字是与客户沟通时的关键论据。

团队将"AI 加药"和"人工加药"在同一年的同一份数据上对比,得出以下结果。

💰 经济效益

−13.7%
PAC 药剂用量减少
¥6.3万/年
药剂费节约
10万吨
日处理水量基准

注:以日处理 10 万吨的水厂、PAC 单价 2000 元/吨 测算。规模越大节约越显著——30 万吨规模水厂年节约可接近 20 万元

💧 水质效益

指标人工加药AI 加药
出水浊度均值0.19 NTU0.13 NTU
国标达标率(≤1 NTU)97.7%98.8%
最大出水浊度峰值4.46 NTU1.81 NTU
水质波动幅度0.3660.152(降低过半)

归纳为:水质更优、超标次数减少近一半、整体稳定性显著提升。

⚡ 响应速度

人工调整模式下,从"水质变化"到"完成投加调整"需要 30–60 分钟。AI 模式下每 15 分钟一次决策,平均响应可控制在 8 分钟以内——这对暴雨等突变场景至关重要。

客观说明 若仅按"药剂节约"测算,投资静态回收期约 8 年——并不算迅速。但客户真正看重的价值在于:水质稳定性提升(事故率下降)、缓解人才流失压力(无人值守可行)、长期运营效率提升。这些"间接价值"才是投资决策的关键。
核心要点 药剂节约只是显性收益,真正的长期价值是"水质稳定 + 操作人力解放"。向客户阐述时应突出这一层。
SECTION · 10 · 对应原网页 §7 系统架构

系统如何落地到水厂

技术再先进,不能落地等于零。本节介绍部署方案。

本项目设计了 "边缘 + 云端" 双层架构。听起来抽象,实质就是两台计算机:

🏭
水厂内部:边缘计算节点
一台标准工业计算机,体积小巧。AI 模型部署其中,每 15 分钟自动决策、自动控阀。断网情况下仍可独立运行,因为模型已下载至本地。
☁️
远端机房:云端训练节点
负责定期重新训练模型——例如水厂运行半年后,将这半年新数据传回云端,重新训练以使模型更精准,再将新模型推送至水厂的边缘节点。

与现有系统如何对接?

水厂普遍部署有控制系统 SCADA。本系统的 AI 不替代它,而是作为辅助接入——SCADA 继续承担原有职责,AI 仅向其提供"建议投加 8 mg/L",最终的阀门控制仍由 SCADA 执行。

🛡️ 故障保障机制

系统设计了三级降级保护

关键卖点 水厂决策者最大的顾虑是"装上 AI 后,AI 一旦故障全厂瘫痪"。本系统设计的核心理念正是:"AI 退下,规则顶上,水厂永不停摆。"
核心要点 能部署、能对接、出问题不会塌——把这三点向客户讲清楚,他们就能放心。
SECTION · 11

术语对照表

在与客户或同行沟通中可能听到的 12 个核心术语,每个都附通俗解释。
AI(人工智能)Artificial Intelligence
通过的技术。本质是数学,并非神秘事物。
模型Model
AI 学习完成后形成的""——输入水质数据,输出加药量建议。
算法Algorithm
即""。不同算法代表不同的解题思路——XGBoost 是其中一种、LSTM 是另一种。
数据Data
即""。每 15 分钟测量一次水质并保存,就是数据。
特征 / 特征工程Feature Engineering
将原始数据加工为模型易用的""。例如"过去 1 小时浊度的均值"就是一项特征。
训练Training
让 AI 的过程。训练充分则预测精准。
XGBoost
一种 AI 算法。可类比为。响应快、精度高、可解释——工业界部署最广的算法之一。
LSTM
另一种 AI 算法。可类比为。能识别趋势、预判突变。
SHAP
让 AI 的技术——清晰说明"为什么投加这一剂量"。是模型可解释性的核心技术。
RMSE / R²
两项——衡量预测准确度。RMSE 越小越好(误差小),R² 越接近 1 越好(拟合程度高)。
边缘 / 云端Edge / Cloud
边缘 = (执行决策)。云端 = (更新模型)。
SCADA
水厂现有的。本项目的 AI 不替换它,而是作为辅助接入。