IT之家 6 月 5 日消息,市场有消息称华为大模型“盘古 Chat”已申请相关商标,将于 7 月 7 日发布。据证券时报,华为官方表示华为不会有“盘古 Chat”此类命名,也不“对标”业界产品,不过官方口径未直接提及盘古大模型的发布。
IT之家查询公开资料获悉,华为盘古系列基础大模型于 2021 年正式对外发布,包括 NLP(自然语言处理)、CV(机器视觉)和科学计算大模型;后续又发布了矿山、药物分子、气象、海浪等行业大模型。
据介绍,NLP 是首个千亿参数中文预训练大模型,CV 大模型则首次达到 30 亿参数。盘古 CV 大模型业界最大 CV 大模型、首次实现兼顾判别与生成能力、在 ImageNet 上小样本学习能力上的业界第一;盘古气象大模型提供秒级天气预报;紫东.太初是全球首个图、文、音三模态大模型。
对于盘古大模型定位,华为内部团队确立了三项最关键的核心设计原则:一是模型要大,可以吸收海量数据;二是网络结构要强,能够真正发挥出模型的性能;三是要具有优秀的泛化能力,可以真正落地到各行各业的工作场景。
华为云官网显示,盘古大模型由 NLP 大模型、CV 大模型、多模态大模型、科学计算大模型等多个大模型构成,通过模型泛化,解决传统 AI 作坊式开发模式下不能解决的 AI 规模化、产业化难题,可以支持多种自然语言处理任务,包括文本生成、文本分类、问答系统等等。
华为表示,盘古 NLP 大模型由华为云、循环智能和鹏城实验室联合开发,具备领先的语言理解和模型生成能力:在权威的中文语言理解评测基准 CLUE 榜单中,盘古 NLP 大模型在总排行榜及分类、阅读理解单项均排名第一,刷新三项榜单世界历史纪录;总排行榜得分 83.046,多项子任务得分业界领先,向人类水平(85.61)迈进了一大步。
具体来看,盘古 NLP 大模型首次使用 Encoder-Decoder 架构,兼顾 NLP 大模型的理解能力和生成能力,保证了模型在不同系统中的嵌入灵活性。下游应用中,仅需少量样本和可学习参数即可完成千亿规模大模型的快速微调和下游适配,这一模型在智能舆论以及智能营销方面都有不错的表现。