职位描述:
1、系统性地研究大模型评测理论与技术,建立系统性的评估方法与指标;
2、构建面向AGI的高难度知识型与应用场景相关的agent评测benchmark;
2、构建涵盖多模态场景、多轮对话、集成多种工具能力的复杂评测benchmark;
3、训练用于实现精准自动评测的模型及agent(LLM as a judge,Agent as a judge),训练判别CoT过程质量的verifier模型;
4、系统性的开展大模型评测基准、评测模型、verifier模型等学术成果开源开放工作。
职位要求:
1、教育背景:计算机科学、人工智能、机器学习等相关专业;
2、技术能力:精通Python等编程语言,熟悉TensorFlow、PyTorch等深度学习框架,具备扎实的数学和统计学基础,有丰富的大模型训练实践经验;
3、科研成果:在国际顶级期刊或会议上发表过高水平论文,拥有相关领域的专利或软件著作权者优先;
4、项目经验:发表过有影响力的大模型数据集集评测基准者优先;
5、沟通能力:具备良好的沟通能力,能够清晰地表达自己的观点和想法,善于与不同背景的人进行有效沟通。