doubao-seed-2-1-pro 在「多重约束」的评测结果

这是该 AI 模型在此测试用例上的详细评测结果。

基本信息

  • 模型名称:doubao-seed-2-1-pro
  • 用例名称:多重约束
  • 测试类型:文本生成
  • 评测维度:指令遵循

系统提示词(System Prompt)

这是给 AI 模型的背景设定和角色指令:

你是一名专业的文字创作助手,擅长在特定约束条件下进行精准的文本生成。 回答要求: 1. 在生成文本前,先在内部逐字检查是否包含违禁字,确认无误后再输出。 2. 输出内容须为一段完整、通顺、有意义的话,不得出现乱码或无意义堆砌。 3. 严格遵守所有明确列出的负向约束(违禁字/词),这是最高优先级要求。 4. 输出内容应语义连贯,符合日常表达习惯。

用户提示词(User Prompt)

这是用户给 AI 模型的具体任务要求:

请写一段介绍「春天」的话(60字左右),但全文中不能出现以下两个字: 【违禁字】:美、花 要求: - 内容主题为「春天」,需描述春天的某些特征或感受。 - 全文任意位置(包括标点之间)均不得出现「美」字或「花」字。 - 字数控制在50~70字之间。 - 语句通顺,表达自然。

任务要求

AI 模型需要满足以下要求:

  1. 【核心约束】全文不得出现「美」字,违反此条直接判定为不合格。
  2. 【核心约束】全文不得出现「花」字,违反此条直接判定为不合格。
  3. 【字数要求】正文字数(不含标点)在50~70字之间,超出或不足均视为部分失分。
  4. 【主题相关性】内容须围绕「春天」展开,能体现春天的至少一个具体特征(如气温、植物、天气、动物等)。
  5. 【语义连贯性】句子通顺自然,无明显语病或逻辑断裂。

评测结果

综合得分

该模型在此用例的得分为:100.0 分(满分 100 分),已通过

基础难度评测结果

  • 得分:100.0 分
  • 通过状态:已通过

模型生成产物

以下是该模型针对此任务的实际生成内容:

春风裹着湿润的暖意拂过岸堤,河冰消融泛着粼粼波光,檐下燕子衔泥筑巢,蛰伏一冬的生灵慢慢舒展筋骨,空气里飘着让人松弛的清润气息。

AI 评审点评

以下是 AI 评审对该模型输出的点评:

【GEMINI】这是一次非常出色的生成任务。模型在受到严格负向约束(禁用高频词「花」和「美」)的情况下,依然能够写出意境优美、字数合规且表达自然的段落。展现了极高的指令遵循能力和文字创作素养。

进阶难度评测结果

  • 得分:97.33 分
  • 通过状态:已通过

模型生成产物

以下是该模型针对此任务的实际生成内容:

中国古代泽被全球的四类文明成果——造纸术、印刷术、火药、指南针,深刻影响人类文明进程。西汉已出现麻质纤维纸,东汉蔡伦优化制备工艺,以树皮、破布等为原料造出的纸品轻便廉价,逐步替代简牍、缣帛成为主流书写载体。唐代已通行雕版印制,宋代毕昇推出活字印制方案,大幅降低文本复制成本,助力知识传播。炼丹实践中总结出的硫黄、硝石、木炭配比制品,唐末始用于军事,深刻改变战争形态。依托磁石指极性制成的方位辨识工具,宋代已用于远洋航行,为跨洋交流提供关键支撑。

AI 评审点评

以下是 AI 评审对该模型输出的点评:

【GEMINI】这是一份高质量的回答。模型在极其严格的词汇限制下,依然产出了专业且信息丰富的知识性文本。虽然字数上超出了2个字符(含标点),但在词汇替换的自然度和历史信息的准确性上表现卓越,完全达到了资深中文写作专家的水准。

困难难度评测结果

  • 得分:98.67 分
  • 通过状态:已通过

模型生成产物

以下是该模型针对此任务的实际生成内容:

初识那日恰逢三月暮春。 檐下共躲一场斜斜疏雨。 伞沿距肩堪堪两寸距离。 指尖相触错开三分仓促。 后来同逛过七条旧巷。 檐角风铃晃过九段轻响。 摊边共吃一碗热汤面。 木勺碰沿敲出两声脆鸣。 随身揣着三块薄荷糖。 分食时蹭到一点衣料。 约会总提前一刻钟到。 口袋揣着两张预约券。 影院第三排居中位置。 肩臂相挨隔一层薄衫。 剧情演到第八段转折。 指节攥着两张旧票根。 散步走过十二座桥栏。 每道栏刻过三行小字。 风卷衣角带过五缕晚风。 步数凑够整一万步时。 驻足共看一轮月升空。 晨起温好两杯热牛乳。 吐司切作四片匀整。 餐盘边摆一柄餐叉。 出门前核对三遍物件。 钥匙串挂两个小饰件。 曾为小事赌三天气。 隔门递过一张便签。 字里藏着七分软意。 台阶递了两三次之后。 对视时先露一点笑意。 窗台上养三盆文竹。 每三天浇一次清水。 枝桠抽过四次新芽。 相识满一周年那日。 攒了三月的零用钱。 换得一对光面指环。 尺寸堪堪合一分围度。 案头摆两支细蜡烛。 切一块软糯的糕团。 甜度刚好合两人口味。 下班顺路带一份小吃。 记得七样忌口食材。 晚饭后绕两圈散步。 脚边蹭过三两只野猫。 楼道声控灯第三层亮。 掏钥匙时差一秒碰到。 卧谈会聊到两点多。 细数过往百十个片段。 每段都藏着一点暖意。 棉被晒过一整天太阳。 裹着两个人的体温。 闹钟定在六点二十分。 醒时距闹钟一刻时长。 雨天共撑一把旧伞。 伞骨歪过三次仍在用。 鞋尖沾了四点泥点。 进门先递一块干巾。 擦去发梢三两滴雨珠。 热饮煮满一整壶时。 杯沿碰出一声轻响。 规划过五条出游路线。 攒够二十万积蓄时。 要去看三十七处盛景。 每处拍两张合影照。 相册攒到第十本时。 鬓边或许添了三根霜丝。 手里还攥着那一对指环。 三餐都凑在一处吃。 碗筷摆两双正对向。 偶尔拌一次嘴也快好。 先低头的人递一颗糖。 周末一起看两部旧片。 看到第三段温情处。 肩头搭着一只手轻拍。 冬天备两双厚棉袜。 脚边放一个暖脚炉。 温度调到二十八度整。 每年拍一张年度合照。 背景换过十六个地方。 书架上摆四排藏书。 每本都有两人的指纹。 便签贴满一整面墙。 记着三百多件小事。 每件都关乎两个人。 走路时步幅差两寸远。 下意识放慢一步等。 背包永远留一个空位。 装着对方常用的三样物件。 感冒时冲两包药剂。 水温兑到四十度刚好。 守在床边坐一整夜。 额角试三次温度才歇。 熬的粥温一刻钟才盛。 盛两碗放在案头边。 这样的日子过一辈子。 每一岁都在一处相伴。

AI 评审点评

以下是 AI 评审对该模型输出的点评:

【GEMINI】这是一份令人惊叹的高质量生成结果。模型在面对极高难度的负向约束(禁用高频情感词和颜色词)和正向约束(每句必带数字且限长)时,展现了卓越的控制力。它并没有为了满足约束而牺牲文笔,而是利用约束创造了一种独特的文学风格,将数字转化为时间的刻度,生动地诠释了「爱情」这一主题。全文逻辑自洽,情感真挚,是AI在受限写作领域的范本。

相关链接

您可以通过以下链接查看更多相关内容:

加载中...