北京时间2022年6月16日,Apache软件基金会宣布Apache Doris正式毕业,成为Apache顶级项目。作为国人主导的新兴数据仓库及数据分析类开源项目,Apache Doris本次成功毕业是百度长期支持和践行开源理念的一项重要里程碑。
目前,Apache Doris已经在互联网、金融、电商、教育、文娱等多个行业得到广泛应用,成长为业界广受欢迎的开源实时数仓之一。
Apache Doris的成长史——为数据分析而生的十四年
Doris是由百度自研并捐赠至Apache软件基金会的开源MPP数据库,它的前身是百度PALO。PALO这一名称,来源于其核心场景OLAP(在线分析处理)的字母倒序。百度PALO团队与Doris一起,走过了为数据分析而生的十四年。
2008年,Doris在百度诞生,定位为高性能分析型数据库,大幅提升了百度凤巢业务的数据分析时效性。
2009年,Doris开始支持百度内部其他报表系统,并助力百度统计成为国内最大的中文网站分析工具。
2012年,Doris成长为百度首个公司级OLAP分析平台并正式改名PALO(OLAP的反写)。
2013年,PALO升级新一代MPP分布式架构及高性能数据模型,各项核心技术指标大幅提升。
2017年,PALO正式对外开源,同年在百度智能云发布“百度数据仓库PALO”云服务。
2018年,百度将PALO的核心引擎捐赠给Apache软件基金会,并命名为Apache Doris,百度PALO团队开始全力推进Doris社区发展。
2020年,在百度 PALO 团队与社区伙伴的共同努力下,Apache Doris社区走上发展快车道,荣获2020年度OSC中国开源项目“最佳人气项目”,2020 InfoQ中国技术力量年度榜单“十大开源新锐项目”,2020年度开源中国“中国开源项目Top10”等开源奖项。
2021年,Doris各项核心能力大幅增强,行业影响力进一步提升,成为中国信通院2021年“OSCAR尖峰开源项目及社区”,获得“首批可信开源社区共同体(TWOS)”正式成员认证。
2022年,百度正式完成商标捐赠,推进Apache Doris完成毕业,正式成为Apache软件基金会顶级项目。
百度PALO与社区共同成长
毕业意味着新的开始,也意味着新的责任。据悉,百度PALO团队将一如既往地全力支持和贡献社区,将在实践中所收获的产品能力与社区分享,与社区成员一道将Apache Doris建设的更加完善,也让更多人能体验到Doris的优秀能力。
在产品技术方面,百度将持续打磨Doris的核心能力,保持核心技术指标的领先。其中,在性能方面,百度将全方位打磨或重构现有的核心组件,尤其是社区呼声最高的向量化和优化器,百度将实现完全的面向列的向量化执行引擎,全面淘汰行存,同时,百度将实现全新的CBO优化器以及更加精细和丰富的统计信息,这将把Doris的性能进一步推向极致。在稳定性和可观测性方面,百度将重点补齐Doris的短板,强化Doris的Profiling、Trouble Shooting等能力,并会持续将百度在大规模生产环境所遇到的各种问题及解决方案贡献到社区,进而帮助Doris变得更加稳定。百度还将持续完善Doris的各项重要功能以及生态对接能力,其中包括社区呼声最高的众多功能,从而帮助Doris变得更加强大和易用。
在社区建设方面,Apache Doris已经度过了早期萌芽阶段,正在进入高速发展期。一方面,百度将进一步强化社区的运营投入,让Doris能被更多的贡献者、开发者以及用户所知道,努力构建一个多元、繁荣和国际化的社区;另一方面,随着社区的扩张,以及商业诉求的增长,百度将建立或完善社区的各项规章制度和行为准则,让各方都能在 Apache Way的指导下参与社区,保障Doris社区能够良性和健康的发展。
在商业方面,百度将围绕Apache Doris持续完善商业产品“PALO数据仓库”。相比开源的Doris引擎,PALO数据仓库可提供大规模生产级的稳定性、完善的企业级特性、易用的管控和访问平台、无感升级等专有特性,用户也可享受到来自原厂资深专家的专业技术支持服务。除此之外,百度全新推出的PALO Cloud产品将支持先进的多云原生能力,提供完善的云原生,以及多云和跨云能力,帮助用户拥抱云和多云时代。同时,PALO Cloud的在离线融合、湖仓融合等能力将帮助用户构建以数据为中心的新一代全场景统一湖仓,为企业提供数据的统一视图、统一访问,真正释放数据的价值,正如PALO的寓意那样能够“玩转OLAP”。