商业化大考进行时。
作者 | 刘景丰
编辑 | 宋家婷
2018年2月,在美国做了10余年数据安全科研工作的王爽启程回国时,被一名FBI官员拦下。
对方拿出一份中国刚刚公示的新一批“海外青年高层次人才”中文名单,名单中正好有王爽的名字,他是唯一上榜的医疗隐私计算领域的专家。
此前,他往返中美数次,都畅行无阻。但这一次,FBI似乎对他“隐私计算专家”的身份格外在乎。在跟对方解释了两个多小时后,王爽才得以启程。
这看似是则个人的小插曲,但背后反映的更像是一个行业发展的先兆——在数据成为生产要素的时代,隐私计算正扮演越来越重要的角色,并受大国的重视。此次王爽回国,也正是因为他判断隐私计算将迎来前所未有的发展机遇。
此后确如他的预判。先是2018年5月25日,欧盟《通用数据保护条例》(简称GDPR)正式生效实施;一个月后,美国加利福尼亚州颁布了美国国内最严格的隐私立法《2018年加州消费者隐私法案》(简称CCPA),对消费者隐私权和数据安全进行保护。此后脸书和谷歌就因为强迫用户同意共享个人数据引来巨额罚款。
在法律对数据安全给予最严厉的规范后,隐私计算成为当下数据合规流动的最优技术解。此后,一批从事隐私计算的企业纷纷出现,其中既有从大数据、区块链等领域转型而来的公司,也有BAT等大厂的下属部门,以及专精型创业公司,其中就包括王爽创立的锘崴科技。
尤其今年,在《数据安全法》《个人信息保护法》等一系列制度走向健全之后,国内隐私计算迎来爆发式发展。根据中国移动通信联合会、中科院和中国信息通信研究院等单位联合编写的《2021隐私机密计算蓝皮书》,以隐私计算为底座的数据流通市场规模可达千亿元,其中医疗、金融、政务是目前隐私计算的三大应用领域。
今年8月,由王爽创办、成立不到两年的锘崴科技顺利完成亿元级B轮融资。“放到两年前,投资人光是搞懂隐私计算的概念就要花上不少时间,而这次整个融资过程也只有两个月。”王爽称。投资人追捧的背后,是整个隐私计算行业加速落地——今年锘崴科技营收有望实现10倍以上的增长,而按照王爽的乐观预计,3-5年后行业就会出现营收超过10亿元的隐私计算企业。
这场由数据安全引发的新型计算范式,已然站在科技的风口上加速前进。
1.隐私计算,从概念到落地
2016年,谷歌AI在一篇技术博客文章中首次引入“联邦学习”的概念,随后这项技术开始在AI领域受到关注。
所谓“联邦学习”,就是允许多个参与者在不共享数据的情况下,构建一个通用强大的机器学习模型。
简单来说就是,通过“数据不动模型动”的方法,来解决如数据隐私、数据安全、数据访问权限和对异构数据访问等问题。此后“联邦学习”逐渐受到关注,推动了整个隐私计算技术架构的完善。
但如果详细追究起来,谷歌并非“联邦学习”核心理论的首创者,因为在此前的4年里,中国学者王爽已对其多次论述 [1][2][3]。
2011年底,刚加入加利福尼亚大学(UCSD)圣地亚哥分校担任助教的王爽接到一个任务,从学术的角度搭建一个服务于美国生物医学计算网络的隐私保护计算构架。这个项目是美国国家生物医学计算中心最核心的部分,要用技术打通美国300多家医院的医疗数据,并制定一套标准。
此时,全球尚没有“隐私计算”的概念,王爽所有的工作要从头开始。幸好他刚完成的博士研究课题就是分布式编码。这原本是密码学的一部分,王爽试着将这一技术理念应用到医疗数据共享的新任务中,并把其称之为“安全联邦学习”。
其主要思路就是,在每次使用各医院的数据时,只把分析模型放到数据池中进行运算,而不用提取数据。这个创意性的想法不仅让医院沉睡多年的数据发挥了价值,还解决了数据安全问题。
2012年,王爽在SCI期刊上发表了全球第一篇在线医疗联邦学习论文。这篇论文,也成为日后他在医疗隐私计算领域学术研究和工作方向的源头。
在完成美国国家生物医学计算中心项目后,王爽看到了医疗领域对隐私安全的巨大需求。
熟悉医疗行业的人或许知道,医生跟大学教授一样,在“救死扶伤”的本职工作外,还承担了很多科研项目。
理论上,医生通过自己的临床实践,更容易把医疗经验抽象出来。然而现实是,要把这些经验抽象化就需要大量的数据验证,而一个医生在单个医院拿到的数据量远达不到这个要求。为此,就需要把多家医院医生的经验数据拿来验证。
已经推行了数十年医疗信息化,其初衷是用技术提升医疗效率、打通医院之间的信息壁垒,但种种隐私安全问题一直横亘在理想与现实之间,使得过去建立的医疗信息化系统实际上只完成了在内部提升效率的任务,医院与医院之间仍没有实现信息互通。
医院之间的数据不互通,有着棘手的现实原因。首先病人的数据涉及个人隐私,不能直接分享;其次,数据互通涉及到一家医院的数据安全,因此医院也不会轻易将数据泄露;第三,数据是不可控的,一家医院把数据共享给合作者,对方拿到数据后很可能就变成了竞争者。
如果不解决数据安全问题,在现有情况下医院间的数据共享就不可能完全实现。
王爽发现,用“联邦学习”等手段从技术层面解决这个问题,可以实现“数据可用不可见”,进而大大提升信息化技术在医疗中的可用性。比如过去医院在治疗罕见病时往往受限于单中心数据量不够等问题,在解决了数据隐私问题后,就可以整合全行业数据为病人寻找最有效的治疗方案。“原来需要数周寻找治疗方案,现在可能会缩短至1天甚至更短。”王爽说。
图注:锘崴科技联合创始人、董事长王爽在2021世界人工智能大会上参加隐私计算讨论
要真正实施这个设想,还需要技术与产业的磨合。最好的方式,就是通过一类活动把技术与产业的人聚集到一起,消除“搞密码学的群体和医生群体之间的gap(隔阂)”。
2014年,王爽在美国国立卫生研究院 (NIH) 的支持下发起并组织了第一届iDASH安全计算竞赛。尽管第一届比赛只来了10支队伍,这些队伍还多是靠着主办者的“学术魅力”吸引来的高校团队,但毕竟为隐私计算的学术和医疗产业架起了一座沟通的桥梁。
此后,随着大赛的规模、影响力不断扩大,参赛队伍已扩展到来自互联网大厂、创业公司等上百家。如今iDASH安全计算竞赛已是全球隐私计算领域颇具影响力的赛事之一,成为各大隐私计算厂商展现实力的角逐场。
让王爽惊喜的是,当掌握隐私计算技术的极客跟医院的医生频繁交流后,隐私计算的技术也有了飞速迭代,“在技术性能上,每年都会有10倍的提升。”他有一个很明显的感受,此前解决一个多方联合建模的问题需要1个小时,现在只需要1分钟。
在突破了技术关后,隐私计算正迎来一场落地风暴。
2.旧技术、新风口
2018年5月,欧盟正式实施号称史上最严数据监管条例的GDPR,此后传言Facebook、谷歌等公司或将面临天价处罚。最终谷歌被法国数据保护监管机构处以5000万欧元的罚款。
以此作为分水岭,数据安全开始受到各大科技公司空前的关注。
与此同时,隐私计算也成为科技圈关注的焦点。王爽还记得,2018年3月他应美国麻省理工学院(MIT)邀请,做了一场隐私计算相关的报告,结果台下的听众里有多位图灵奖得主,还有美国华裔科学家、斯坦福大学教授张首晟。
随即,一场由科学家和教授主导的隐私计算创业潮开始起势。
从2018年开始,由清华大学交叉信息研究院徐葳教授创办的华控清交,隐私计算、联邦学习领域开拓者王爽创办的锘崴科技,以及光之树等专注于隐私计算服务的创业公司先后出现。与此同时,BAT等互联网巨头以及此前的大数据、区块链、AI等领域的公司也纷纷涉足或者转型到隐私计算领域。到2020年之后,隐私计算行业发展迎来第一轮高潮。
“从专注程度上看,创业公司在大厂面前也不会显得有劣势,反而它的中立性是大厂所不具备的。”王爽告诉「甲子光年」。
尽管如此,王爽还是强调,隐私计算的技术门槛不能忽略。“在第一波隐私计算创业潮之后,很多公司便开始基于开源框架,把自己包装成隐私计算公司,对外号称自己有隐私计算的能力,然后找投资机构拿钱。”他说。
一方面,隐私计算所用到的技术并非是前沿的新技术。除了前文讲到的联邦学习外,还有安全多方计算,这是图灵奖华人获得者姚期智在上世纪80年代提出的;此外还有可信计算环境、同态加密、差分隐私等也都是十余年前提出的加密技术。但这些技术在应用时,会有性能上的考验。比如加密后数据的处理内存是否过大、系统的运行时间是1小时还是1分钟、构建模型的参数精度有多高。“没有几年的技术积累,这种优化是做不到的。”王爽称。
另一方面,隐私计算技术的应用需要很深的场景理解力,这是隐私计算商业化落地的关键,道理跟过去两年的AI落地难是一样的——只能靠深耕行业来实现。
基于这两方面的优势,2019年10月成立的锘崴科技,在两个月后就拿下中国医疗信息大数据国家队的项目,与其他参与者共建基于隐私计算的省级医疗云。这套隐私计算系统,可以将一个省内下辖的上百家三甲医院、上千家二甲医院、以及上万家社区医院的数据进行打通,推动医疗数据的价值转化。
王爽还记得,最初在跟中国医疗信息大数据国家队相关人员交流时,对方就特别看重隐私计算的“开箱即用性”。“他们之前曾接触过业内几家创业公司,但最后的效果都不太理想。”在跟王爽交流后,对方得知他曾做过美国国家生物医学计算中心的项目,在大规模医疗隐私计算领域有近10年的经验,更重要的是,锘崴科技的底层技术平台在跨院的千万级数据上有过验证,可以实现“开箱即用”。
拿下中国医疗信息大数据国家队,意味着锘崴科技先从广度上打开了隐私计算在医疗数据网络中的应用。但这一层触达的更多是类似“病人信息首页”的数据,缺乏深度。
为此,锘崴科技又找到国家专病网络的项目,并与之达成合作。专病网络覆盖的数据不像省级医疗云那么大,只有几十家头部的专病医院,但其优势在于数据有足够的深度。“深度的意思是,它有一些专家制定的字段,这些字段对于某些罕见疾病领域的研究、药厂的新药研发有非常强的帮助。”王爽解释称。
基于专病网络,锘崴科技与某头部医院的风湿免疫网络进行合作,将隐私计算技术部署到其专病下的多家三甲医院,通过“数据不动模型动”,使原始数据“足不出户”(不离开数据源边界),只传输加密的中间计算结果,实现可跨多家医院的联合分析。这项成果还获得了上海市科学进步一等奖。
目前,锘崴科技已经完成了超过15个项目的PoC(验证性测试),潜在客户则超过50家。
多位业内人士告诉「甲子光年」,随着今年9月1日《数据安全法》在国内正式实施,隐私计算在数据安全领域的落地也呈加速态势。
3.什么时候能年营收十亿?
王爽预期,今年锘崴科技有望实现10倍的营收增长。他还有一个更大的预期,未来3~5年,隐私计算行业将出现营收规模达10亿元的企业。
这是一个令从业者振奋的消息。但现实的难题是,隐私计算该如何迈出商业化的步伐?
据「甲子光年」了解,实际上目前绝大部分隐私计算公司的商业模式还是通过做项目、解决方案来收费。“一些看上去营收很高的隐私计算公司,其实背后是把其他业务的收入加进去了,比如信息化系统、区块链项目等。”一位业内人士称。
这就导致行业对隐私计算的商业化能力存在一种疑虑,隐私计算能否实现大规模营收?如何盈利?
按照王爽的想法,要实现10亿元的商业化目标,隐私计算的盈利模式就需要转变为基于隐私计算的底层架构做开发应用,然后在这个应用程序上做相关数据的营收。“有点像滴滴、美团这种模式。”王爽称。
根据过去的经验,王爽发现,不同行业、不同场景对数据安全性的要求也不一样,其对隐私计算要求的效率和精度都不同。于是,他和团队把不同行业、场景进行梳理,抽象出核心的需求;然后在底层平台加上上层应用,这样平台上的不同应用可以对应不同行业、场景下的需求。
图注:锘崴信隐私计算平台及其模块
比如,将联邦学习、安全多方计算、同态加密等技术排列组合后形成一个个微服务,当用户提出一个需求后,可以找到对应的服务项,无需再基于每一个应用场景重新定制相应的应用。
这相当于把自己变成了一个基于隐私计算的数据交易平台,通过平台上的各种交易应用实现营收。这样一来,隐私计算的商业化想象力将被无限放大。
从行业格局上看,蚂蚁集团、微众银行等基于巨头的公司都在做隐私计算,但“蚂蚁本身也是数据的大甲方”,这时候中立的第三方就变得重要起来。
联想之星合伙人高天垚表示,现在隐私计算领域还是一个两方的格局,“ 将来肯定慢慢形成多方的大平台。”
要实现这个目标,第一步需要解决的是“数据孤岛”问题,隐私计算公司要先在企业客户内部打通数据,然后在行业内部实现数据互通。
在王爽看来,这都是隐私计算节点搭建的过程。“过去很多数据源没有隐私计算节点,不能对外服务。我们把隐私计算的客户端设备部署到数据源,可以实现数据源对外服务,衍生出更多应用。”他表示。
目前这一模式已经在国内癌症专病网络得到应用。锘崴科技将隐私计算部署到该专病网,搭建起一个覆盖全国24个省、60多家医院的癌症科研数据平台,然后药厂可以基于该平台做药品研发分析,保险公司也可以基于该平台做核保。
在搭建隐私计算节点的同时,锘崴科技也在推动行业标准的建立,包括跟中国信通院等 10 家机构一起推动“联邦学习”的行业标准,以及参与相关部委的医疗领域隐私计算国家标准的制定。
在隐私计算节点和相关行业标准逐步完备之后,打通跨行业数据变成一件水道渠成的事情,届时一家营收规模在10亿元的隐私计算企业也不再是空谈。
[1] Shuang Wang (王爽), et al., EXpectation Propagation LOgistic REgRession (EXPLORER): Distributed privacy-preserving online model learning, Journal of Biomedical Informatics, Volume 46, Issue 3, 2013.
[2] Y Tang, Shuang Wang (王爽), et al., Privacy-preserving GWAS analysis on federated genomic datasetsSD Constable, BMC medical informatics and decision making 15 (5), 1-9, 2015
[3] CL Lu, Shuang Wang(王爽), et al., WebDISCO: a web service for distributed cox model learning without patient-level data sharing, Journal of the American Medical Informatics Association 22 (6), 1212-1219, 2015