GiveMeFive丨商汤五年,探索创新的“无人区”

五年前,人工智能(AI)首次超越人眼识别准确率,对于很多从事AI研究的人来说,这一突破所带来的兴奋无法用语言来形容。

因为他们知道,人工智能终于突破工业应用的红线,成为能够真正提升效率、改变生活的全新生产力。

如今,人工智能带来的改变日新月异,新产品、新服务、新模式……正在颠覆传统的方方面面。商汤也在这片全新的“无人区”中快速摸索前行,经历了由量变向质变的转变,成长为全球领先的人工智能创新企业。

其价值所体现的正是商汤坚持的原创精神,既有技术和产品上的创新,商业模式的创新,以及研发体系的创新。

体系创新比技术创新更重要

张伟,商汤科技高级研究总监,香港中文大学计算机视觉方向博士,目前主要负责视频大数据方向的研究工作。

他在CVPR等计算机视觉国际顶会和期刊上发表论文20余篇,并在Kaggle数据科学家排行榜上曾排名全球第六,亚洲第一,在若干国际数据挖掘比赛中都名列前茅,2012年手写文本身份识别大赛中全球第一。

五年来,他与团队聚焦在海量视频理解与搜索,研发了30种不同算法、1万个细分标签,交付了阿里云、苏宁、TCL、海信、影谱等客户,算法每天处理超过1亿张图片。他和团队获得首届中国人工智能·多媒体信息识别技术竞赛A级证书,Webvision 2019竞赛亚军。

张伟是2003年高考的安徽省理科状元,清华大学毕业后,他与另一位清华同学何恺明,同时进入香港中文大学攻读研究生,师从汤晓鸥教授。

也是从这一年起,越来越多优秀的同学都选择在香港中文大学多媒体实验室(MMLab)攻读博士,因为当时实验室的研究水平已经在世界范围内都处于领先的位置。

回顾与商汤共同成长的历程,张伟感触最多的就是:人工智能向产业化发展的过程中,体系创新比技术创新更加重要。

“在工业界做人工智能产品落地的研究,要解决两大挑战”,张伟介绍说。

“一方面,真实的人工智能产品,用到的技术并非单点技术,而是涉及在多个技术方向上的突破;另一方面,要解决一个实际问题,能够达到工业界应用的红线,需要在整个算法和工程方面都要有很多创新”。

经过五年的探索,商汤科技的研究人员已经摸索出一套非常成熟的研发体系,能够将不同领域、不同产品中的需求抽象出来,做长期的技术积累。

张伟也从自身的实践中为这套体系总结了两大特征:自动化和高复用。

目前,人工智能研发涉及到诸多环节:数据采集、数据标注、模型训练、模型管理、算法评测、模型转换和模型部署……链条非常多,同时伴随数据规模越来越庞大、识别类别急速增多,研究员们很难在可控的资源下完成研发目标。

因此,张伟和商汤研究团队开创性地开发出一个自动化系统,将人工智能研发整套环节串联起来,保证在整个流转过程中,实现较少的人工干预,将研究员的精力从重复劳动中解放出来,有更多时间去做原创研究,同时,也能对业务需求做更快速响应。

这也成为商汤区别于业内其他公司研发团队一个很大的不同。

一个成功的人工智能产品,其人力、时间成本都是非常巨大的,为了更有效的利用资源,商汤研究团队在设计算法方案的时候,就会考虑抽象出通用的算法模块,并在核心算法问题上保持不断的迭代和创新。

这种高复用的算法支撑使得商汤在接到新的市场需求时,能在最短时间内构建相应产品,由需求驱动灵活组合不同的算法模块,快速验证和切入新的商业场景。

做对老百姓生活有更多价值的创新

正是基于这样的体系创新,张伟和团队取得了诸多具备实际意义的落地研究成果。

如在ICCV 2019上,商汤一篇关于“服装检索”的论文《Fashion Retrieval via Graph Reasoning Networks on A Similarity Pyramid》被大会接收为Oral口头报告。

这篇论文针对服装发生形变时识别不好的问题,提出了利用图网络的推理学习来做服装检索中的匹配算法,在国际权威的DeepFashion数据集上将以前文献中报告的top-1准确率的最好结果从13.7%大幅提高到25.7%。

这正是源于研究人员在工业界实践中所发现的学术界往往忽视的洞察。

又如,在视频动作分类中,有很多非常经典算法,如港中文-商汤科技联合实验室的时序分段网络(TSN),Facebook的C3D和DeepMind的I3D。

在这些论文中,光流是一个非常有效的运动特征,但工程化落地时,算法的速度往往是最主要的限制。

张伟和团队在CVPR 2018上提出的Optical Flow Guided Feature,针对视频动作分类中光流特征提取速度慢的问题,提出了一个高效的运动特征提取算法,将视频动作分类的速度提升了15倍。

“在商汤做研究,一直遵循着一个路径,就是不断从工业界的真实需求中去发现问题,定义问题和解决问题,让算法能在真实的商业场景中得到验证,而背后支撑这一路径不断快速往复运转的正是商汤创新的研发体系”,张伟说道。

这几年,对于张伟和团队来说,思考更多的还有如何借助体系化的创新优势,使用生产出来的各种新技术快速服务于大众,让生活变得更美好。

于是,在2019年四月,商汤正式推出SenseKitchen智慧餐厨卫生预警系统,一款专门针对餐厨场所合规性分析的智能视频分析产品,可及时发现餐厨违规行为和卫生问题,并实现智能检测预警,助力相关行业和机构更好地去解决大众所关注的食品安全卫生问题。

“SenseKitchen产品中囊括了十多个不同的算法,包括人物识别、动作识别、服装识别、环境识别等等,是目前市场上功能最丰富的产品,这些算法的创新完全基于工业实践(如上文中提到的服装检索和动作识别新算法),可满足各种复杂的餐厨环境场景。”

张伟介绍说:“SenseKitchen在算法功能和准确度上,一直在不断地进行迭代,而这正是得益于商汤研发体系的自动化能力,在算法模块更新后,与此算法相关的一系列产品都能得到更新,让用户体验持续获得提升。”

目前,SenseKitchen产品已在上海、深圳等多地落地应用,仅上海静安和杨浦区就覆盖百余家餐厨。(如您想对该产品有更深入了解,可查阅文章《AI守护“舌尖上的安全” 商汤打造SenseKitchen智慧餐厨卫生预警系统》)

构造更高效的创新环境

科学不是一个人的事业。

商汤强大研发体系的背后,是深入骨髓的原创精神和对落地实践的深刻洞察,而商汤也在人工智能发展的大潮中构造更高效的创新环境。

张伟认为:“创新,除了技术之外,更需要一个开放的、可以让大家尝试新可能性的环境,从错误和经验中不断学习和迭代,期待在未知中有所发现。”

在工业界做研究,与在学校中做研究,会有很大的不同。

学校中做研究,大家往往根据自己的兴趣选择研究的方向,合作比较松散;而在公司里,则需要怎样去把不同人的研究兴趣组合起来,让每个人的创新方向,可以相互配合,共同去完成一个更大的目标。

因此,能够将个人兴趣最大发挥的、开放的创新环境就非常重要。

“我们要把产品或行业的需求理解清楚,把它最终分解成一个个技术积累的长期目标,与不同研究员的兴趣做匹配,让每个人都能在某一个长期的方向上得到成长,同时也将大家的能力聚合起来,去满足整个行业的需求。”

张伟用一句话简单概括了商汤的模式:一边用快速的技术创新持续推动应用落地,一边为人工智能产业的发展培养大量人才。

高高山顶立,深深海底行。

从张伟身上,可以看到很多商汤人的影子,不仅是创业的激情与情怀,还有在漫长无人区探索中保持的一种对未知的渴望,以及对“初心”的坚持和敬畏。

所谓“初心”,正是势要将无人区变为枝繁叶茂的森林,让AI成为人人可享的社会价值。

打开APP阅读更多精彩内容