时间:2024-11-26 14:42 / 来源:未知
模型能够更好地理解和遵循人类指令Tuesday, November 26, 2024fx交易所即日新闻,邦际威望榜单 LiveBench 官网发布了最新的言语大模子测评结果,阶跃星辰自研的万亿参数言语大模子 Step-2 的时间阐扬位列中邦基座大模子第一,结果靠拢 OpenAI 的 o1-mini-2024-09-12,超越 gpt-4o-2024-08-06 、gemini-1.5-pro-002 等邦际主流模子,是独一进入榜单前十名的中邦言语大模子,位列环球第五。此外,同时上榜的中邦大模子公司尚有通义千问和 DeepSeek。
LiveBench 是由图灵奖得主、Meta 首席 AI 科学家杨立昆(Yann LeCun)结合 Abacus.AI、纽约大学等机构结合推出的大模子测评基准。LiveBench 从搜罗数学、推理、编程、言语剖释、指令坚守和数据剖析正在内的众个庞杂维度对模子实行评估,采用新奇的数据源泉并维系每月更新,被誉为「宇宙上第一个不成把玩的 LLM 基准测试」。
值得体贴的是,Step-2 正在 IF Average(Instruction Following)一项阐扬优秀,超越搜罗 o1-preview-2024-09-12 正在内的通盘邦表里言语大模子。这意味着,Step-2 正在言语天生上对细节有最强的管造力,模子或许更好地剖释和坚守人类指令,捉拿到隐约需求背后用户实正在切贪图,对通用及特定例模学问的遮盖上都有更好的阐扬。譬喻当运用 Step-2 创作古诗词,模子正在施展创意的同时或许对字数、格律、押韵、意境做到精准支配。
据清楚,本年 3 月,阶跃星辰揭橥了 Step-2 言语大模子预览版,这是邦内首个由创业公司揭橥的万亿参数模子。目前,阶跃星辰怒放平台为开垦者供给 Step-2 的 API 接口,该公司的 C 端智能帮手「跃问」也依然接入了 Step-2 万亿参数言语大模子,用户正在跃问 App 和跃问官网()皆可体验。