品玩2月19日讯,OpenAI 官方宣布,推出一款全新的大模型测试基准SWE-Lancer,主要用于评测大模型的编程能力。
据悉,该评测基准提供了1400多项软件工程任务,包括独立工程任务和管理任务。独立任务由经验丰富的软件工程师通过三重验证的端到端测试进行评分,而管理决策则根据最初聘用的工程经理的选择进行评估。
为了促进未来的研究,OpenAI开源了统一的 Docker 映像和公共评估拆分,即 SWE-Lancer Diamond。
品玩2月19日讯,OpenAI 官方宣布,推出一款全新的大模型测试基准SWE-Lancer,主要用于评测大模型的编程能力。
据悉,该评测基准提供了1400多项软件工程任务,包括独立工程任务和管理任务。独立任务由经验丰富的软件工程师通过三重验证的端到端测试进行评分,而管理决策则根据最初聘用的工程经理的选择进行评估。
为了促进未来的研究,OpenAI开源了统一的 Docker 映像和公共评估拆分,即 SWE-Lancer Diamond。