数学:OpenAI认为使用工具的Benchmark得分不应该与不具备工具访问能力的模型进行比较,而GPT-5在AIME 20XM官方网址25 no tools/Python分别得分94.6%/100%,一定程度反映其对工具的有效利用。同时,GPT-5在专家级问题上表现优异,在HMMT(麻省理工学院数学锦标赛)最高获得100%的得分;GXM官方网址PQA Diamond(博士级科学问题)最高得分89.4%;HLE(跨学科专家问题)得分42.0%。
编程:GPT-5在SWE-bench Verified(With thinking)得分74.9%,XM官方网址略超Claude Opus 4.1的74.5%,取得新的Sota。同时,在LMArena 的各类能力得分中,GPT-5在WebDev上得分1479分,大幅领先排名第二的Gemini-2.5-Pro(1XM官方网址403分)。