李开复:差距缩小意料之中,LM SYS“厮杀”测试是强强对决

近日,零一万物CEO、创新工场董事长李开复做客格隆汇高端访谈《格隆博士会客厅》。

李开复表示,虽然自己的大模型跟国外万亿大模型差距不远令人感到自豪,但也是意料之中的事情

因为其实训练大模型的过程中可以看到模型是不是在进步所以大模型的测试是有一个可预测的结果只是结果出来之前对外讲了没有人会信,也没有意义。

因为没有一个公开的标准来测大模型,所以LM SYS这个评测的方法是特别有意义的。

如果要测比如搜索引擎的速度、精度,或者是一个操作系统的速度,又或者向量数据库的速度,它都是一个比较客观的标准。李开复认为,做大模型主打一个用户的体验感。问题答得好不好、有没有解决疑难、有没有犯错、描述的方式是不是让人喜欢等等,这些都是很主观的因素。

至于怎么找一大批主观的人去测这些模型,LM SYS就有几个很有意思的方法论。

一个就是他们全球征召用户例如每一位观众都可以到LM SYS去看擂台,然后每一个模型都有几万个测试者。

另一个是是个第三方机构。每一个做大模型的公司例如Google、OpenAI、Anthropic以及国内的几家公司都是提交了模型让对方来测,然后它的数据都是公开的、透明的,可以看到自己得了多少票。

而且,有一个厮杀的方式,有点类似踢足球或者打网球半决赛,为了让很强的模型跟更强的模型多做对比。它不是一轮一轮地在做,而是同时让差不多强的大模型去比赛,然后接近千万用户自愿花时间给模型投票,最后模型的得分类似于国际象棋、围棋的得分。

所以它是客观的、有效的、真实的、第三方的、基于用户的,而且它测试模型的时候是盲测的,投完票之后它才会显示是哪两个公司的模型。

更多精彩完整内容,请关注抖音/视频号:格隆博士会客厅、格隆博士。

打开APP阅读更多精彩内容