导读:“他山之石,可以攻玉”,本文将医疗领域已经成熟的人体健康评分指标系统——APACHE体系的思想,引入到联宝科技工业大数据领域数据分析和数据挖掘场景中。主要内容包括:① 背景介绍;② APACHE体系简介;③ 笔记本健康度评估体系;④ 应用案例。
01背景介绍
首先和大家分享下联宝科技概况。
1. 联宝科技概况
联宝科技,是联想集团的全资子公司,成立于2011年,是联想集团在全球最大的PC研发和制造基地,也是国家智能制造示范基地。到2020年底,联宝科技累计出货量达到1.7亿台套;其中仅2020年出货量就达到3800万台套,营收超过1000亿人民币,进出口额超百亿美元,是合肥第一大企业,同时连续7年蝉联安徽省最大进出口企业。目前全球的笔记本电脑售量中,每6台售出的笔记本电脑就有1台来自联宝科技工厂。
2. 联想智能制造体系架构
联想集团的智能制造体系架构主要包含4层:
- 智造技术:主要包括自动化、物联网、边缘计算、数字孪生、5G、区块链、大数据、人工智能等先进技术。
- 五大能力:主要包括端(终端产品)、边(边缘计算)、云(云计算)、网(工业互联网)、智(智能化)。
- 四化目标:主要产品个性化(定制产品需求、柔性敏捷生产)、供应协同化(供应透明协同、客户交付可视)、服务主动化(产品全程追溯、客户极致体验)、决策智能化(全面数据分析、智能高效解决)。
- 全价值链:主要应用于基于产品的端到端研发、生产、供应、销售、服务等。
3. 智能制造核心能力
联宝科技在智能制造领域的核心竞争力,主要表现在以下方面:
研发:
- 打造联想创新高端旗舰产品(X1家族,YOGA等)
- 超过1000项专利,原创设计连续四年获红点/IF大奖
- 国家级工业设计中心、博士后科研工作站
供应链:
- 超过288家核心供应商,提供有竞争力的供应和成本
- PC业界领先的交付能力
生产制造:
- 国家智能制造示范基地,国家级绿色工厂
- 柔性的智能制造能力,平均日处理订单达4000笔,80%为小于5台的订单
- 包含23条先进的SMT线,自动化率高达75%,设备与原材料管理系统无缝对接物流网络
质量管理:
- 获批CNAS国家认可的产品保证实验室
- 产品测试覆盖1100项测试、8项军规测试
仓库系统:
- 高度智能化原材料及成品立体仓储系统
- 24小时通关速度业界标杆
4. 联宝科技的数据现状
联宝科技拥有包括供应链数据、产品研发设计测试数据、生产制造数据、生产测试数据、维修数据、售后数据等在内的海量高维多源异构工业大数据。从产品测试这一部分来看,每年就会产生超过180亿条产品功能测试高维数据;此外,产品测试时序数据每年可达35万亿条,目前已涵盖260个关键指标。
工业大数据在数据挖掘和应用方面尚处于起步阶段,还远远没有互联网公司,以及医疗、保险、金融等领域发展得成熟。联想集团已经在该领域进行了一段时间的探索,在PC行业目前处于领先地位。
5. PSI指标管理,提升客户体验
接下来分享一个联想内部实际落地的案例,其主要是通过对销售端数据的分析和挖掘提升用户体验。该案例依托自建Olympia平台,结合人工智能技术,对各大互联网电商平台收集的客户反馈和评论信息进行数据挖掘与分析,帮助联想产品进行计划改善,提升产品的设计、制造、质量控制等,提升客户对产品的满意度。
Olympia分析平台,构建了一套集数据采集、数据分析、报表展示、智能决策于一体的全价值链用户满意度平台,以大数据视角观察客户对产品的评价,通过对用户评价进行多属性情感分析,多角度展示并还原用户的喜好和期望。Olympia实时监控和分析客户满意度指标,及时预警,垂直算取,精准洞察用户对产品的满意程度和改善方向;闭环管理,通过流程设计和节点控制,实现问题触发、跟踪、验证和关闭的全流程闭环管理。
6. Kano模型算法:洞察客户需求
引入Kano模型理论,采用自然语言识别、K-means聚类、多元线性回归等算法,结合客户评论数据建模运算,直接判定客户需求。
相较于传统Kano模型,KKMA ( Kano,K-means,MDS,Adaboost ) 回归模型的优势在于:更可信、更灵活、更高效
Kano模型算法智能分析展示:
02APACHE体系简介
1. APACHE体系概念
本章节详细介绍医疗领域APACHE体系,将医疗领域成熟的方法应用到工业大数据的分析中。
APACHE全称是Acute Physiology and Chronic Health Evaluation(急性生理和慢性健康状况评估体系),创建于1981年,至今已发展到第5代。APACHE体系,是通过人的各项体检指标与医疗行业相关的知识经验相结合,形成的健康度评分模型。
2. APACHE体系框架
人的体检参数包括血常规等各项指标。综合考虑急性生理学评分、年龄以及慢性健康状况评分,APACHE评分系统可以为医生进行疾病诊断、治疗效果评估、医疗资源分配等工作提供强有力的辅助,对于个人的身体健康状况评估及疾病预防也有着积极的参考作用。
3. APACHE体系-数据用例
下面介绍两个典型的数据用例:
数据用例1的左侧列举了人体的各项生理指标,右侧给出了基于生理指标的参考范围并结合经验提供了对应的评分标准。
数据用例2在数据用例1的基础上,增加了维度的交互评分。例如,左上角图标展示的Glasgow昏迷评分标准,根据人在不同的运动条件下的各种表现,来判断人的昏迷程度;右下角的图表展示的酸碱失衡评分标准,通过将PH和PaCO2两个不能单独评分的维度进行交互,得到最终评分。
4. APACHE体系-评分案例
基于多个急性胰腺炎数据集的APACHE II评分案例:
上图是根据多个医疗机构或医院的急性胰腺炎患者数据集在包括APACHE系统评分在内的多个维度表现下的死亡率预估。通过对各指标维度的优化和学习,整体预测模型的参数也可以得到不断的优化提升。
基于ICU初期APACHE II 评分及多器官衰竭评分(OFS)的死亡概率预估案例:
上图是基于急性胰腺炎病人在ICU初期各项体检参数结合多器官衰竭评分对病人的死亡率等维度进行的概率预估。由于使用是ICU入住初期未经治疗介入的数据,该评估模型可以有效的跟踪医疗方案的实施效果,为医生及时提供治疗方案调整及优化的参考依据。
03笔记本健康度评估体系
基于APACHE健康评分体系的思想,我们能够建立笔记本健康度评估体系。
1. 数据相似性比对
上图中,左图是人的各项生理指标(例如体温、血压、心率等),右侧是笔记本电脑的各项状态检测指标(如功耗、温度等),可以看出两者具有较高的相似度,因此可以借鉴APACHE体系的思想,落地于笔记本各项指标,搭建笔记本健康度指标体系。
2. 大数据分析架构
我们的大数据分析架构如上图所示,整体架构主要包括数据层、决策层和应用层这三大部分。
数据层:
- 数据层主要包括产品设计数据和产品制程数据这两大部分;
- 产品设计数据和产品的实物没有关系,是在产品实物产生之前使用的设计标准、设计规范等;
- 产品制程数据,产线实际生产的笔记本产品埋点采集到的数据。包括产品研发数据、产品生产数据、产品售后数据等多个部分;
- 产品设计数据和产品制程数据可借助数字孪生技术相互关联;
- 在实际工程化的过程中,最核心也是挑战最大的工作是数据的治理,这也是一切上层应用的基石。
决策层:
- 决策层可以理解为对笔记本电脑制造行业的各岗位相关知识、经验进行抽取和学习,最终沉淀成模型和工具;
- 决策层的模型包括但不限于统计分布模型、机器学习模型、异常检测模型、异常拦截模型、质量管理模型、健康评分模型等;
- 随着行业知识的积累,模型不断扩充,系统的功能随之逐渐强大。
应用层:
- 应用层可理解为根据业务场景的需要,对决策层的模型进行定制化输出和应用;
- 应用层可涵盖生产制造监控、产品健康度评估、质量追踪溯源、业务流程优化等笔记本制造全流程场景。
3. 健康度分析流程
笔记本电脑健康度分析的大致流程如上图所示。
首先,对笔记本设计、研发、调试、供应链、生产、组装、测试、维修、售后等全数据链条的工业大数据资产,就其总体情况进行初步的描述性分析,从数据特征、数据分布等多个角度,利用可视化等方式总览数据。
对数据进行特征工程,根据不同算法需求进行数据预处理。消除缺失值、唯一值、无效值、无效特征等对模型学习效果的影响,深入理解各特征的业务背景并进行合理的特征交互与增广等工作,选择合适的编码方法、归一化标准化方法对数据进行处理。
使用经过预处理的数据,选择合适的模型、参数优化方式、模型融合方式等进行模型的设计、搭建、训练、优化及迭代。基于业务场景的具体需求,设计调整评估指标、输出指标等。从功能、部件、产品、服务等具体维度,进行健康度评分标准的业务化设计与落地,最终形成稳定可实施的业务工具及系统。
4. 流程框架-数据层
采购数据:
- 供应商数据:供应商信息、订单数据、生产质量数据
- 元器件数据:配置数据、性能数据、异常数据
生产测试数据:
- MES数据:生产过站数据
- 生产设备数据:IoT数据
- 产品测试数据:功能测试数据、压力测试性能数据、部件状态数据
厂内维修数据:机型配置、异常站别、异常部件/功能、换修件记录、异常描述
第三方服务商售后维修数据:机型配置、异常站别、异常部件/功能、换修件记录、异常描述
5. 流程框架-决策层
基于以上数据,在决策层把相关数据聚集起来,建立起相关数据之间的关系。这里简单介绍两个模型类别案例:
① 统计分布模型
针对笔记本电脑的散热性能,对大量笔记本电脑的CPU温度做机器数的统计分布分析;正常情况下不同CPU温度对应的机器数量近似符合正态分布;结合质量管理中的6σ原则进行阈值区间划分,作为异常区间的参考标准,可对个体健康度进行判断。
对于整体的大数据应用方法来说,如果某一段时间数据的分布存在整体偏移,可以基于此追溯到生产过程中产生的批量异常(比如,是不是某个位置的螺丝没锁好,等);另一方面,还可以基于统计分布结合相关生产批次信息对供应商做质量管理和监控,早期介入并识别不合格的供应商。
② 机器学习算法案例
另一类模型则是通过人工智能技术,对大数据进行价值挖掘。例如,我们会用到孤立森林算法、聚类算法、各类集成学习算法等进行异常检测分析。
例如,在机器生产过程中会产生关于CPU、GPU等部件的大量底层数据。假如有一定量的出货机器出现了相关部件的售后异常,那么我们可以结合这些机器在工厂生产阶段留存的全链条数据进行算法的训练与学习,得到能在后续生产制造阶段及时预警或拦截高风险机器与部件的模型,显著的提高产品质量并降低售后异常率。
6. 流程框架-应用层
异常检测场景主要包括部件异常检测和功能异常检测等——问题诊断,解决已出现问题
部件异常:
- 主板:通过CPU, GPU, Memory等基于CGTT的测试数据,对主板零部件进行异常诊断,可以帮助我们对机器进行现场快速鉴定和维修,提高生产效率;
- 硬盘:基于SSD, HDD等数据,利用SMART等专业化定制化硬盘健康指标体系进行硬盘异常预警及诊断,提前拦截存在质量风险的硬盘,可改善供应评价,并优化对供应商的质量标准要求。
功能异常:相较于部件异常检测,功能性异常检测相对更加复杂
- 对于卡顿、异常关机、死机等非正常现象,往往需要多种数据相互关联和匹配,基于SmartRunIn大数据测试平台对这类现象问题进行定位,以便后续更好地进行设计优化和质量管理;
- 对于散热异常等现象,可基于设计数据及温度传感器测量数据等,对机器温度异常问题做详细定位。
下图是笔记本健康度评分示例。真实的评分表设计方式基于数据维度特征及算法特征会有较大的不同。此处案例表只是对于设计思想的一种呈现,可能并不符合真实业务场景:
应用层目前主要应用于产品全生命周期的优化:
- 设计端:基于历史设计数据的设计参数优化
- 采购端:基于供应商数据的供应商画像、基于零部件数据的元器件画像
- 生产端:基于生产售后数据的生产回溯及问题定位
- 测试端:基于测试数据的测试项加严及优化策略
- 销售端:基于健康度预测的售后响应预案
04应用案例
案例1:Disk异常检测与预测
下面展示一个落地的应用案例——笔记本磁盘异常检测分析,使用S.M.A.R.T.(Self-Monitoring Analysis And Reporting Technology)指标体系配合生产制造数据进行笔记本产品硬盘部件的自我检测分析与报告。
和磁盘分析相关的指标基于不同硬件类别有100多个维度的多种搭配模式,这里以SSD为例,展示部分参数:
异常检测分析的流程如下:
在生产测试阶段,数据采集工具将会对所有机器的主硬盘进行数据采集。当售后数据出现了硬盘异常的记录,该机器在生产端留存的数据将会被标记为硬盘异常。在对正负样本不平衡数据进行采样处理后,我们将数据集再进行训练集、测试集的划分,并利用机器学习算法进行模型的训练与调优。基于FDR、FAR等强业务指标的约束,模型的优化目标被限定在业务可用的范围内。再结合具体业务场景的定制化健康评分设计,模型能够落地部署并很好的应用到质量管理、设计优化等业务环节。
FDR(False Detection Rate):查全率,即一块硬盘实际为坏盘,而模型预测为坏盘的概率;查全率越高越好
FAR(False Alarm Rate):误报率,即一块硬盘实际为好盘,而模型预测为坏盘的概率;误报率越低越好。
案例2:主板零部件健康度评估
接下来展示一个针对时序数据处理的案例。下图中展示的是对CPU加载不同电压的情况下,CPU的Core0频率数据以及CPU的power工况数据。
基于零部件时序数据,可以设计搭建用于进行时序数据异常检测的模型。将测试数据与售后异常数据标签相结合,进行模型的训练与迭代优化,以进行风险机器的预测拦截及特定部件的健康度评分工作。
05
展望
目前AI技术在电商、互联网、金融等领域已经应用成熟,但是在工业制造领域还是一片蓝海,具有巨大的潜力和广阔的前景。我们的研究尚处于起步阶段,在整个工业互联网中,对工业大数据的应用场景也尚未形成成熟的生态体系。这对于我们来说,是挑战也是机遇。联宝科技未来也愿意基于这个方向进行更多的尝试和探索,以推动该领域的发展和应用。
今天的分享就到这里,谢谢大家。
分享嘉宾:
分享嘉宾:陈陶根 联宝科技
编辑整理:王吉东 昆仑数据
出品平台:DataFunTalk