Labs 导读
为了更好地解决行业合作、交互可信和数据共享问题,实现跨行业的模型共享训练以及生态构建,天津公司人工智能实验室打造了“珍珑”,一款基于“区块链+联邦学习”的多方数据共享模型训练引擎,用于智慧零售、风险评估和满意度预测等场景,实现多方隐私数据共享,构建数据生态,打破数据孤岛,挖掘数据联合价值,从而实现多方安全计算。
“珍珑”取名字珍珑棋局,来自于天龙八部小说情节,逍遥派掌门人无崖子摆出一个“珍珑”棋局,邀请天下英雄来破解。可是30年均无人解得,最后,棋局竟然被虚竹闭着眼睛胡乱撞开。珍珑,就是要汇聚各行业数据来产生价值,又能安全可信,最终一招点睛,全盘皆活。
这就是珍珑的价值,通过引入先进的联邦学习技术,充分发挥联邦学习的跨行业模型共享能力,并将AI模型上链,结合联盟链去中心化、开放、防篡改、匿名、可追溯的关键特性,打造构思奇巧又智慧共赢的共享智能引擎系统,在运营商、本地生活、视频内容、交通出行等多行业数据的支撑下,实现精确的营销识别,并推荐最佳产品权益,让区块链+联邦学习成为智慧零售的引擎、智脑。
1 珍珑的创新点
(1)打造联邦学习的模型共享训练引擎,实现更精准的推荐。
基于联邦学习模型实现中国移动和互联网合作伙伴间的共享、共贏 ,在保护各企业的数据安全的基础上,协调多方资源,实现企业间的联合建模,提升数据挖掘和推荐的准确率。联邦学习模型具有合理的激励机制,参与方提供的数据越多,其模型的学习效果越好。珍珑采用纵向联邦学习机制,取出合作方针对相同用户而特征不同的那部分数据进行共享训练。
(2)打破数据壁垒,实现多方安全计算的新机制
“珍珑”打破坚固的数据壁垒,其联邦学习模型可以很好的解决数据不可出数据库的壁垒问题,企业数据不需要出仓,不存在原始数据被复制,以及传输过程中的安全隐患,即可完成多方联合建模,取得比单独企业数据更好的预测效果,联邦学习框架,也支持获取更全面的客户特征,打造共享又可信的合作生态机制。
(3)结合区块链优势解决联邦学习的安全问题,筑牢多方合作的信任基础。
联邦学习模型涉及到多方数据的共享训练,由联邦中心负责秘钥管理和模型梯度管理,需要定期对联邦中心进行审计,存在信任的问题。“珍珑”采用区块链这种“可信媒介”技术解决共识和可信问题,所记录的交易不可篡改,模型的训练、推理、角色对齐均上链,通过智能合约、共识计算等实现多方合作的可信网络,且能在多方联邦情况下以区块代替中心节点的作用,降本增效。
2 珍珑的技术先进性
珍珑具有优异的技术价值,创新性的将联邦学习和区块链结合起来,解决运营商实际问题,其架构如图所示。
企业数据层,中国移动及合作伙伴的用户隐私数据依然只存储于各自内网系统中,训练及推理请求均由内网应用发起。
联邦参与方服务层,中国移动及合作伙伴分别构建一套本地AI模型,将模型特征及参数,以及数据标识,提供给区块服务层进行数据上链,并接收其他参与方的模型等数据进行数据共享的模型迭代更新。
区块服务层,作为AI模型与区块链CMBaas平台的中间服务节点,提供定制化数据上链及数据消费的服务。
共享数据区块平台层,即CMBaas,通过智能合约及共识机制为整个系统提供去中心化、不可逆、互信的模型共享训练平台。
珍珑的“联邦学习+区块链”应用,主要有数据对齐、模型训练、模型推理三个数据流:
(1)数据对齐,在模型开始训练之前,各参与方需要共享加密后的用户id数据,同步给其他参与方进行id对齐。
(2)模型训练,联邦参与方进行数据特征提取和本地模型训练,模型参数通过区块链上链服务进行数据上链,经过CMBaas的智能合约判断,并通过区块链共识算法后,生成新的区块。其他参与方的区块消费服务检测发现新区块的生成,获取到区块数据后进行自己模型的参数迭代优化,更新参数,直到所有联邦参与方均达到模型预设收敛条件。
(3)模型推理,中国移动及合作伙伴发起模型推理请求,区块服务进行数据上链,智能合约及共识算法进行数据验证并生成区块,其他参与方监测新区块生成,判断推理请求是否与自身相关,进行共同推理解密,请求方获得最终模型推理结果,返回业务系统。
3 珍珑的商业推广价值
(1)“运营商+互联网公司”多方共享的智慧零售
智慧零售的目的,就是要用AI和大数据技术为客户带来个性化的营销服务。成功的营销方案必须合理搭配产品特征、客户购买能力和购买偏好等三大要素。互联网内容商拥有大量的产品信息、银行或保险公司有客户购买能力的数据,中国移动有用户的购买偏好信息。出于隐私保护是无法实现数据共享的,“珍珑”就可以打破这种坚固的数据壁垒,基于联邦学习模型,各个参与企业的数据停留在本地数据库,即可完成多方安全计算和联合建模,取得比单独企业数据进更好的分析效果,获取更全面的客户特征,推荐更精准,挖掘更多的商机。
(2)“运营商+银行”联合信用评估
珍珑利用联邦学习技术搭建中国移动和银行之间的联邦和信用评分模型,双方在不共享数据的基础上实现了联合建模,从技术上打破数据孤岛,实现更准确高效的信用评估,同时,区块链也确保了去中心化架构,多家运营商和银行可以打造信用评分共享机制,结果可追溯且不可篡改,形成模型共享训练生态。
4 珍珑与区块链的联系
产品和区块链技术结合紧密,真正用区块链解决了AI建模的难题,实现“联邦学习+区块链”的新模式、新应用。
在多方共同参与模型训练后,如何对多方数据进行统一管理,就成为一个重要课题,珍珑通过引入区块链智能合约技术解决这个难题。
(1)多方贡献度判定
多参与方在进行数据上链时,均会在区块链平台生成一个永久不可逆的数据区块,以此计算当前参与方本次上链对整体模型的贡献度,在模型收敛后,可以对全部参与方对最终模型的贡献度进行量化判断,为联邦参与方的合作提供谈判依据。
(2)异常参与方识别
在平台运营过程中,通过智能合约及共识算法对各参与方的训练及推理请求进行统一规则的判定,如发现非法上链请求,将会拒绝在区块链中生成区块,从而规避风险,控制流量,保障优质合作方的请求。
5 产品成效及下一步发展
当前,“珍珑”整体架构已经在CMBAAS区块链平台大赛中进行了demo的开发、部署、验证工作,将B域大数据用户标签与O域家宽数据模拟两方进行联合共享训练,实现用户资费满意度的预测模型。已实现的满意度预测联合训练部署架构如下:
下一步将在三个方面持续提升:
(1)整体平台部署及网络联调
在整体平台架构中涉及内网应用主动访问互联网应用的需求,一方面,CMBaas区块平台及服务需要部署公网,以吸引更多域外企业加入生态,另一方面,联邦学习需要获取企业内网用户数据实现多方数据联合训练,因此,需要打通内外网网络,通过防火墙管控内外网联通端口。
(2)构建统一管理平台
构建一套参与方管理平台,通过页面可视化方式,一方面实现参与方的自助注册、数据上传、模型申请、推理服务等业务能力,另一方面为平台提供参与方入驻审核、状态管理、贡献度查询、异常参与方判断等管理能力。
(3)扩展联邦学习模型算法类型
目前已完成基于决策树模型的资费满意度预测模型构建,后续可以预置其他高级智能模型,如CNN/RNN,预训练模型等,实现各参与方入驻后直接选择相关模型进行业务场景构建。
后续,“珍珑”将积极推进平台推广及生态运营,吸引运营商领域以外的企业入驻,通过多方数据的可控共享,实现多方的业务共赢。
团队介绍:
赵东明,项目负责人,博士,浙江大学博士后,中国移动AI中台专家/“高层次”专家/IT高级专家,天津移动AI实验室负责人,累计获得116项科技奖励及荣誉,16项发明专利,20余篇高水平论文,负责产品的人工智能、区块链技术研发、算法研究和产业赋能工作。
田雷,技术负责人,北大数学系硕士,天津中心大数据架构专家,积累了大量数据仓库和大数据平台的系统架构、数据模型、需求开发的先进经验,负责产品的联邦学习算法及大数据支撑工作。
刘静,系统架构师,华中师范大学硕士,中国移动集团大数据专家,长期钻研客户需求深度挖掘,基于AI算法促进存量客户价值循环升档研究,负责产品的区块链算法及工程实现。
石理,算法工程师,南开大学硕士,集团AI中台专家,在人工智能、计算机视觉、机器学习方面具有较丰富的研发经验,负责视觉产品的联邦学习算法研发。
吴娜,交互设计师,北京邮电大学硕士,UI专家,负责产品交互界面的设计、开发,以及AI模型的标准、运营和优化。
特别鸣谢:亚信科技PRD研发中心技术专家杨爱东、孔令鲁、林大兴、刘志勇、韦强申,以及CMC客服产品部的徐晨兴、王新,给予充分的技术支持和帮助。