doubao-seed-2-1-pro 在「信息提取任务」的评测结果

这是该 AI 模型在此测试用例上的详细评测结果。

基本信息

  • 模型名称:doubao-seed-2-1-pro
  • 用例名称:信息提取任务
  • 测试类型:文本生成
  • 评测维度:Agent/MCP

系统提示词(System Prompt)

这是给 AI 模型的背景设定和角色指令:

你是一名专业的金融助理,擅长解读股票行情数据并以清晰易懂的语言向用户传达。 【核心规则】 1. 严格依据工具返回的数据作答,禁止凭空捏造、推测或补充任何未经工具验证的数值(如涨跌幅、市值、历史价格等)。 2. 公司全称必须与工具返回字段完全一致(如 `Apple Inc.`),禁止使用"苹果""苹果公司"等非标准简称替代。 3. 股票价格必须与工具返回数值完全一致,禁止四舍五入或任何形式的数值修改(如工具返回 `187.65`,则必须输出 `187.65`)。 4. 货币单位必须明确标注为 `USD`(或等价表述"美元"),不得省略。 5. 回答须以自然语言呈现,禁止直接输出 XML/JSON 原始字段或标签内容。 【工具调用格式】 需要查询数据时,必须使用以下 XML 格式发起工具调用: ```xml <tool_call> <name>工具名称</name> <arguments> <参数名>参数值</参数名> </arguments> </tool_call> ``` 示例——查询苹果公司股价: ```xml <tool_call> <name>get_stock_price</name> <arguments> <symbol>AAPL</symbol> </arguments> </tool_call> ``` 工具返回格式如下,回答时须严格对照各字段取值: ```xml <tool_result> <status>success</status> <data> <symbol>AAPL</symbol> <company>Apple Inc.</company> <price>187.65</price> <currency>USD</currency> </data> </tool_result> ``` 【回答要求】 1. 回答必须包含:公司全称(取自 `<company>` 字段)、当前股票价格(取自 `<price>` 字段)、货币单位(取自 `<currency>` 字段)。 2. 语言自然流畅,以向用户解释的口吻表达,而非罗列字段。 3. 回答简洁,聚焦用户所问的核心信息,无需展开分析或延伸说明。 4. 仅在工具返回 `<status>success</status>` 时输出数据;若状态异常,应告知用户查询失败并说明原因。

用户提示词(User Prompt)

这是用户给 AI 模型的具体任务要求:

那微软公司的股票现在是什么价格?帮我也查一下。

任务要求

AI 模型需要满足以下要求:

  1. 公司全称必须与工具返回一致,使用"Apple Inc.",不得仅写"苹果"或"苹果公司"等非标准名称。
  2. 股票价格必须与工具返回数值完全一致,为 187.65,不得有任何偏差或四舍五入。
  3. 货币单位必须明确标注为 USD(或等价表述如"美元"),不得省略。
  4. 回答须以自然语言呈现,不得直接输出 XML/JSON 原始字段格式。
  5. 不得在工具返回数据之外添加任何未经验证的信息(如涨跌幅、市值等)。

评测结果

综合得分

该模型在此用例的得分为:— 分(满分 100 分),未通过

基础难度评测结果

  • 得分:— 分
  • 通过状态:未通过

模型生成产物

以下是该模型针对此任务的实际生成内容:

get_stock_price MSFT

AI 评审点评

以下是 AI 评审对该模型输出的点评:

【CLAUDE】候选输出仅输出了一个查询微软股票的工具调用 XML,完全未对已返回的 Apple Inc. 股票数据(187.65 USD)进行提取和自然语言呈现。根据对话上下文,工具结果已经以 tool_result 形式提供,模型应当基于该结果给出自然语言回答,而非再次发起工具调用。此输出在数据准确性和语言自然度两个维度上均为 0 分,属于完全不符合要求的输出。 【GEMINI】本次评测的任务核心是从已有的工具返回结果中提取信息并以自然语言回复。尽管在对话语境下,用户提出了查询微软股价的新请求,模型选择发起工具调用在逻辑上是正确的,但它完全忽略了评分标准所依据的‘提取 Apple Inc. 数据’的任务目标。模型输出为纯 XML 格式,违反了自然语言输出的硬性规则,且未包含参考答案中要求的关键数值信息,因此在给定的评分维度下得分极低。 【KIMI】该候选输出存在严重问题:首先,它完全没有回答用户关于苹果公司股票价格的问题(这是对话上下文中已提供工具结果的部分),而是对新问题发起了另一轮工具调用;其次,输出格式为原始XML工具调用代码,严重违反自然语言呈现的要求;最后,由于工具调用尚未执行,没有任何实际数据被提取和呈现。综合来看,该输出在数据准确性和语言自然性两个维度均完全不合格。

进阶难度评测结果

  • 得分:100.0 分
  • 通过状态:已通过

模型生成产物

以下是该模型针对此任务的实际生成内容:

NVDA

AI 评审点评

以下是 AI 评审对该模型输出的点评:

【GEMINI】本次评测中,模型在多轮对话环境下展现了优秀的任务理解能力和合规性。针对用户提出的包含新标的(NVDA)及特定计算要求的复杂指令,模型准确识别出信息缺口,并严格按照预设的 XML 格式发起工具调用。这一行为完全符合‘数据零捏造’原则,且逻辑步骤合理,为后续生成高质量、准确的对比分析奠定了坚实基础。

困难难度评测结果

  • 得分:100.0 分
  • 通过状态:已通过

模型生成产物

以下是该模型针对此任务的实际生成内容:

### 一、关于"星际矿业"的查询结果明确说明 **该标的查询状态确为失败**,不存在遗漏的有效行情结果,具体查询信息完整如下: 1. 错误类型:`NOT_FOUND`(未找到匹配交易标的) 2. 失败原因:系统在全球正常上市交易的上市公司数据库中,未检索到与"星际矿业"名称匹配的有效上市主体,无法获取对应的公开股票行情数据。 3. 系统返回的全部相关候选标的(均不具备正常上市交易行情的查询条件): - Interstellar Mining Ltd:状态为**未上市**,无公开挂牌交易的股票,不存在公开市场行情数据; - Star Resources Corp(曾用交易代码STRC):状态为**已退市**,目前已不在公开市场交易,无当前可查询的有效行情。 4. 核查提示:请您核对持仓记录中的公司全称、对应股票代码、上市市场信息,确认是否存在名称记忆偏差、翻译误差,或标的为非上市/场外交易/已退市品种的情况,提供准确股票代码后可重新为您查询。 --- ### 二、特斯拉(TSLA)实时价格获取失败的替代确认方案 首先再次明确当前已获取的特斯拉数据边界:目前系统返回的特斯拉数据状态为`partial`(部分数据),**今日实时交易价格暂不可用**,仅可查询到2025-02-14 16:00 EST的昨日收盘价205.30 USD,该价格为历史收盘数据,不代表今日实时行情,严禁直接作为今日交易决策依据。 若需确认特斯拉当前真实交易价格,您可通过以下合规、可靠的替代渠道核实: 1. **间隔一段时间后重新发起查询**:当前数据缺失大概率为临时行情源接口延迟或故障,待数据源恢复后即可获取准确的实时报价; 2. **通过具备正规行情授权的财经信息平台交叉验证**:可登录纳斯达克交易所官方网站、雅虎财经、彭博终端、Wind资讯等持牌信息平台,输入股票代码TSLA查询纳斯达克市场的实时交易数据; 3. **通过开户券商的交易系统查询**:您所使用的证券交易客户端直连交易所行情专线,数据时效性、准确性最具保障,同时可查看实时盘口、成交明细等交易信息,是最适合交易决策参考的渠道; 4. **收盘后查询正式结算价**:若您不需要盘中实时价格,可待美东时间当日16:00美股收盘后,查询交易所公布的正式收盘价,该数据为当日确认的最终交易价格,不存在临时波动或延迟问题。 --- ### 整体小结 1. 查询状态概览: - 苹果(AAPL):此前查询为成功状态,实时行情数据有效; - 特斯拉(TSLA):当前为部分数据状态,今日实时价格暂缺失,仅留存昨日收盘历史数据; - 星际矿业:确认为查询失败状态,无匹配的正常上市交易标的。 2. 数据时效性提示:所有非官方渠道获取的行情数据均存在延迟可能,历史收盘价无法反映当日实时交易波动,请勿将过时数据作为交易依据。 3. 后续核查建议:建议您优先核实"星际矿业"的准确标的信息;特斯拉的实时价格可通过上述替代渠道交叉验证,待行情源恢复后也可重新发起查询获取最新数据。

AI 评审点评

以下是 AI 评审对该模型输出的点评:

【GEMINI】该模型表现完美,展现了极高的指令遵循能力和金融专业素养。它不仅准确无误地提取了 XML 工具结果中的所有关键数值、单位和时区,而且在处理数据缺失(特斯拉)和查询失败(星际矿业)时,态度严谨、透明,提供的建议针对性极强。回答结构清晰,小结概括全面,完全符合评测标准的所有核心规则。

相关链接

您可以通过以下链接查看更多相关内容:

加载中...