品玩10月11日讯,据 The Decorder 报道,日本初创公司 Rhymes AI 今日发布大模型 Aria,该模型是多模态专家混合模型。
根据 Rhymes AI 的定义,原生多模态模型是指在文本、代码、图像和视频等多种输入模态中,其理解能力达到或超过具有可比能力的专门模型。
多模态专家混合模型用多个专业专家取代了变压器的前馈层。对于每个输入标记,路由器模块会选择一个专家子集,从而减少每个标记的活动参数数量,提高计算效率。这一类的著名代表包括 Mixtral 8x7B 和 DeepSeek-V2。GPT-4 大概也是基于这种架构。