OpenAI宣布开源名为SimpleQA的新基准,旨在衡量语言模型回答简短事实问题的能力。SimpleQA将作为一个挑战性的基准,专注于评估前沿模型的事实准确性。该基准的主要限制在于其范围,尽管准确,但仅在短查询的受限设置中测量事实准确性,...
微信咨询
关注公众号
回顶部