五维实测全记录！QoderWork综合能力评测：91分是什么水平？

2026/06/1019 分钟

分类：资源分享

标签：#AI#实测#开发

专属邀请注册链接： https://qoder.com.cn/referral?referral_code=VbsmlNSE6Ex9O0wA6rCvGOIT39nyT1fW 评测说明

本次评测覆盖 5 大维度、20+ 道题目，每道题都展示完整原题和详细测试结果，不藏着掖着。评分标准：每题 20 分，按正确性(8)、代码/内容质量(4)、边界/深度(4)、工程/表达素养(4) 四项打分。

维度一 · 编程能力（5题）

1.1 LRU Cache — 算法与数据结构

📝

📝 原题实现一个 LRU (Least Recently Used) 缓存，要求： ① get(key) 和 put(key, value) 都必须是 O(1) 时间复杂度 ② 容量固定，超出时淘汰最久未使用的条目 ③ 支持更新已存在的 key（更新后变为最近使用） ④ 容量参数校验（capacity < 1 时抛出 ValueError） ⑤ 提供 __contains__、__len__、keys()（按 MRU→LRU 顺序）等便捷 API ⑥ 用 sentinel 哨兵节点消除双向链表的边界条件

实现方案：双向链表（维护访问顺序）+ 哈希表（O(1) 查找），sentinel head/tail 节点简化边界。使用 __slots__ 优化内存。


class _Node: """Doubly linked list node.""" __slots__ = ("key", "value", "prev", "next") def __init__(self, key=0, value=0): self.key = key self.value = value self.prev = None self.next = None class LRUCache: def __init__(self, capacity: int): self._capacity = capacity self._map: dict[int, _Node] = {} self._head = _Node() # sentinel head (MRU side) self._tail = _Node() # sentinel tail (LRU side) self._head.next = self._tail self._tail.prev = self._head def get(self, key: int) -> int: node = self._map.get(key) if node is None: return -1 self._move_to_front(node) return node.value def put(self, key: int, value: int) -> None: node = self._map.get(key) if node is not None: node.value = value self._move_to_front(node) else: new_node = _Node(key, value) self._map[key] = new_node self._add_to_front(new_node) if len(self._map) > self._capacity: self._evict() # remove LRU node

测试结果（13/13 通过）


✓ test_basic_put_get passed ✓ test_eviction passed ✓ test_eviction_with_access passed ✓ test_update_existing_key passed ✓ test_capacity_one passed ✓ test_get_nonexistent passed ✓ test_overwrite_then_evict passed ✓ test_keys_order passed ✓ test_contains passed ✓ test_invalid_capacity passed ✓ test_leetcode_sequence passed ✓ test_stress_performance passed (0.051s for 100K ops) ✓ test_large_capacity passed Results: 13/13 passed, 0 failed 🎉 All tests passed!

🏆 得分：18 / 20

实现优秀，性能出色（10万次操作 0.05 秒）。__slots__ 优化内存约 40%。扣分：初始测试用例有 2 处测试逻辑错误（实现代码本身无 bug）。

1.2 异步任务调度器 — 实际工程

📝

📝 原题实现一个异步任务调度器 TaskScheduler，要求： ① 优先级队列：数字越小优先级越高，相同优先级 FIFO ② 并发控制：基于 Semaphore，限制最大并发数 ③ 指数退避重试：delay = base_delay × 2^attempt ④ 任务状态机：PENDING → RUNNING → SUCCESS / FAILED / CANCELLED ⑤ 支持取消待执行任务、查询任务状态、生成汇总统计 ⑥ 拒绝重复任务名称

核心设计：用 dataclass(order=True) 实现优先级排序，_sequence 字段做 tiebreaker 保证 FIFO。


@dataclass(order=True) class Task: priority: int _sequence: int = field(compare=True) # FIFO tiebreaker name: str = field(compare=False) coro_factory: Callable = field(compare=False) max_retries: int = field(compare=False, default=3) status: TaskStatus = field(compare=False, default=TaskStatus.PENDING) result: Any = field(compare=False, default=None) async def _execute_task(self, task: Task): async with self._semaphore: # concurrency control for attempt in range(1, task.max_retries + 2): try: result = await task.coro_factory() task.result = result task.status = TaskStatus.SUCCESS return except Exception as e: delay = task.base_delay * (2 ** (attempt - 1)) await asyncio.sleep(delay) # exponential backoff task.status = TaskStatus.FAILED

测试结果（9/9 通过）


✓ test_basic_execution passed ✓ test_priority_ordering passed ✓ test_retry_on_failure passed (0.032s) ✓ test_retry_exhaustion passed ✓ test_concurrency_limit passed (max concurrent: 3) ✓ test_cancel_pending passed ✓ test_duplicate_name_rejection passed ✓ test_summary passed ✓ test_same_priority_fifo passed Results: 9/9 passed, 0 failed All tests passed!

🏆 得分：18 / 20

Task 状态机完整，FIFO tiebreaker 设计巧妙。并发限制精确到 max_concurrent=3 时恰好 3 个并发。扣分：coro_factory API 设计有一定认知负担。

1.3 代码 Debug — 5 个 Bug 的并发爬虫

📝

📝 原题以下是一段并发爬虫代码，其中故意埋了 5 个 bug。请找出所有 bug 并修复： Bug #1：可变默认参数 def _fetch_one(self, url, results=[]) Bug #2：重试循环 range(self.max_retries) — off-by-one，少了一次尝试 Bug #3：缺少 response.raise_for_status() — 4xx/5xx 被静默当作成功 Bug #4：time.sleep(1 * (2 ** attempt)) — 在异步函数中使用了阻塞的 sleep Bug #5：fetch_all 调用 _fetch_one(url) 时没传 results 参数 — 使用了共享的可变默认值

修复方案

Bug	问题	修复
#1	可变默认参数 results=[] 在多次调用间共享	移除该参数，改用返回值架构
#2	range(max_retries) 只重试 N-1 次	改为 range(max_retries + 1)
#3	HTTP 4xx/5xx 不报错	添加 response.raise_for_status()
#4	time.sleep() 冻结事件循环	替换为 await asyncio.sleep()
#5	未传 results → 使用共享默认值	随 #1 修复一并消除

测试结果（7/7 通过）


✓ test_bug1_no_mutable_default passed ✓ test_bug2_retry_count passed ✓ test_bug3_http_error_handling passed ✓ test_bug4_no_blocking_sleep passed ✓ test_bug5_no_shared_results passed ✓ test_integration_success passed ✓ test_integration_retry_then_success passed Results: 7/7 passed, 0 failed All tests passed!

🏆 得分：18 / 20

5 个 bug 全部精准识别并修复。修复策略干净——没有打补丁，而是从架构层面消除了问题（如移除可变默认参数改用返回值设计）。

1.4 多策略限流器 — 系统设计

📝

📝 原题设计一个多策略限流中间件，要求： ① 实现 3 种经典限流算法：固定窗口、滑动窗口日志、令牌桶 ② 使用 Strategy 策略模式，算法可自由切换 ③ 支持 per-route 配置（不同 API 路径用不同策略） ④ 线程安全（用锁保护共享状态） ⑤ 支持 cost 参数（单次请求消耗多个配额） ⑥ 返回 RateLimitResponse（含 allowed, remaining, retry_after, reset_at）

三种算法实现对比：

算法	内存	精度	突发
Fixed Window	O(1)/key	窗口边界不精确	允许 2× 突发
Sliding Window Log	O(N)/key	完全精确	不允许
Token Bucket	O(1)/key	平滑平均速率	允许 capacity 突发

测试结果（19/19 通过）


✓ test_fixed_window_basic passed ✓ test_fixed_window_reset passed ✓ test_fixed_window_different_keys passed ✓ test_fixed_window_remaining_count passed ✓ test_fixed_window_cost passed ✓ test_sliding_window_basic passed ✓ test_sliding_window_expiry passed ✓ test_sliding_window_no_boundary_burst passed ✓ test_token_bucket_basic passed ✓ test_token_bucket_refill passed ✓ test_token_bucket_burst passed ✓ test_token_bucket_cost passed ✓ test_router_default_strategy passed ✓ test_router_per_route passed ✓ test_router_different_clients passed ✓ test_router_add_route passed ✓ test_router_reset passed ✓ test_thread_safety passed (allowed: 100/200) ✓ test_invalid_params passed Results: 19/19 passed, 0 failed All tests passed!

💡

💡 线程安全亮点：10 个线程 × 20 个请求 = 200 次并发调用，limit=100，最终精确放行 100 个，零竞态。锁的粒度恰到好处。

🏆 得分：19 / 20（编程维度最高分）

Strategy 模式运用纯熟，三种算法各有适用场景。Router 支持前缀匹配和动态添加路由。建议加入过期 key 的 TTL 自动清理。

1.5 Rust Markdown 解析器 — 多语言编程

📝

📝 原题用 Rust 实现一个 Markdown → HTML 解析器，要求： ① 支持：标题(h1-h6)、粗体、斜体、粗斜体、行内代码、代码块（带语言标注）、链接、有序/无序列表、水平线 ② 支持嵌套格式（如粗体中嵌斜体、链接中嵌粗体） ③ 正确的 HTML 实体转义（ & 等） ④ 零外部依赖，编译零警告 ⑤ 使用 Rust 惯用风格：enum + pattern matching

核心架构：Block enum（块级元素） + parse_inline()（行内元素递归解析） + render_blocks()（模式匹配渲染）。


#[derive(Debug, PartialEq)] pub enum Block { Heading { level: u8, content: String }, Paragraph(String), CodeBlock { language: String, code: String }, UnorderedList(Vec), OrderedList(Vec), HorizontalRule, } fn render_blocks(blocks: &[Block]) -> String { let mut html = String::new(); for block in blocks { match block { Block::Heading { level, content } => { let parsed = parse_inline(content); html.push_str(&format!("{parsed}\n")); } Block::CodeBlock { language, code } => { html.push_str(""); html.push_str(&html_escape(code)); html.push_str("\n"); } // ... 其他 block 类型 } } html }

测试结果（14/14 通过，零编译警告）


✓ test_heading_levels passed ✓ test_bold_and_italic passed ✓ test_inline_code passed ✓ test_code_block passed ✓ test_links passed ✓ test_unordered_list passed ✓ test_ordered_list passed ✓ test_horizontal_rule passed ✓ test_paragraph passed ✓ test_html_escaping passed ✓ test_complex_document passed ✓ test_empty_input passed ✓ test_nested_inline_formatting passed ✓ test_link_with_formatted_text passed test result: ok. 14 passed; 0 failed Finished `test` profile [unoptimized + debuginfo] in 0.51s

🏆 得分：17 / 20

功能完整，Rust 惯用写法正确，零依赖零警告。嵌套格式 **bold with *italic* inside** 正确处理。扣分：单文件 ~400 行，缺少模块化拆分。

编程维度小结

编程能力雷达图

编程维度总分：90 / 100 — 62 个测试全部通过，高级工程师水平。系统设计最强（19分），多语言最弱但仍优秀（17分）。

维度二 · 推理能力（5题）

2.1 逻辑推理 — 五人排序

📝

📝 原题 A、B、C、D、E 五人参加考试。已知： ① A 的分数比 B 高 ② C 的分数比 D 高 ③ E 的分数比 A 高 ④ B 的分数比 D 高 ⑤ C 的分数比 B 低请按从高到低排列五人的分数顺序。

✅

推理过程：提取不等关系 → 构建传递链： ③ E>A + ① A>B → E>A>B ④ B>D → E>A>B>D ⑤ B>C（C比B低）+ ② C>D → C在B和D之间最终答案：E > A > B > C > D 验证：5个条件全部满足 ✓

🏆 得分：19 / 20 — 推理链完整清晰

2.2 数学应用题 — 水池注水

📝

📝 原题甲管单独注满需6小时，乙管需8小时，丙管单独排空需12小时。三管同时打开，多少小时注满？

✅

净进水速率 = 1/6 + 1/8 - 1/12 = 4/24 + 3/24 - 2/24 = 5/24 注满时间 = 1 ÷ (5/24) = 24/5 = 4.8小时（4小时48分钟）验算：4.8/6 + 4.8/8 - 4.8/12 = 0.8 + 0.6 - 0.4 = 1.0 ✓

🏆 得分：20 / 20 — 答案正确，有验算

2.3 因果推理 — 三开关与一盏灯

📝

📝 原题房间里有三个开关（A/B/C），只有一个控制灯。你在外面，只能进去一次。如何确定？

✅

关键洞察：灯泡除了亮/灭，还有温度维度可以利用。操作：打开A等5分钟 → 关A开B → 进入房间 • 灯亮 → B控制 • 灯灭但烫 → A控制（刚关了，余热） • 灯灭且冷 → C控制（从未操作）本质：2个二进制状态只能编码2种信息，引入连续变量（温度）后可区分3种状态。

🏆 得分：20 / 20 — 经典解法 + 信息论深度分析

2.4 数列推理 — 三种方法

📝

📝 原题找出规律：2, 6, 12, 20, 30, 42, ? 请给出至少两种推理方法。

✅

方法一（乘法分解）：1×2, 2×3, 3×4, 4×5, 5×6, 6×7 → 7×8 = 56 方法二（差分法）：差值 4,6,8,10,12（等差，公差2）→ 下个差14 → 42+14 = 56 方法三（二阶差分）：二阶差分全为2 → 二次多项式 a(n)=n²+n → 49+7 = 56

🏆 得分：20 / 20 — 三种方法互相印证

2.5 条件概率 — 红球白球

📝

📝 原题袋中3红2白，不放回取两个。已知第一个是红球，求第二个也是红球的概率。

✅

直觉法：第一个红球已取出，剩余2红+2白=4球，取到红的概率 = 2/4 = 1/2 公式法：P(两红) = 3/5 × 2/4 = 3/10；P(第一红) = 3/5；P(第二红|第一红) = (3/10)/(3/5) = 1/2 两种方法一致 → 答案：50%

🏆 得分：20 / 20 — 双重验证，答案正确

推理维度总分：99/100 — 5题全对，推理链清晰，多方法交叉验证。

维度三 · 中文创作能力（3题）

3.1 微小说（100字以内）

📝

📝 原题写一篇100字以内的微小说，要求有完整故事弧线、出人意料的结尾、能引发深思。


他终于造出了完美的时间机器。 第一件事：回到昨天，把图纸烧了。

🏆 得分：18 / 20

28个字，四重反转——"终于"暗示漫长努力，"完美"是巅峰成就，"第一件事"让人期待宏大计划，"烧了图纸"颠覆一切。开放式留白让读者自行脑补。扣分：篇幅过短，情感共鸣可以更丰富。

3.2 七言绝句 — 秋夜思乡

📝

📝 原题写一首七言绝句，主题"秋夜思乡"，要求严格遵守格律、意境优美、避免陈词滥调。


《秋夜偶书》 月落书窗第几更， 键盘声歇茶渐冷。 忽闻楼下桂花落， 一夜秋风到故城。

新意亮点：将"键盘"这一现代意象融入古典诗境——不是古人登高望远，而是现代人在深夜加班后忽然被秋风触动乡愁。桂花是秋天和故乡的典型意象，"到"字让秋风成为连接当下与故乡的信使。

🏆 得分：16 / 20

意境和创意出色，但格律有瑕疵（第二句"冷"未押韵，部分平仄偏离）。现代意象入诗是亮点也是争议点。古典诗词创作仍有提升空间。

3.3 技术博客开篇 — 用比喻解释 CAP 定理

📝

📝 原题为技术博客写开篇段落（300字），主题："为什么分布式系统中CAP定理不可兼得？" 要求用生活比喻让读者直觉理解，过渡自然，轻松但不失严谨。


想象你在经营一家连锁火锅店。 总店在海淀，分店在朝阳，两家店共用一个会员系统。某天中午，总店的服务器宕机了。这时你面临一个选择： 选项A：让朝阳店暂停所有会员查询，等总店修好再继续——保证数据一致，但顾客干等着吃不上饭（可用性牺牲）。 选项B：让朝阳店继续营业，用本地缓存的旧数据——店能开，但可能有人拿着已充值的卡，这边却显示余额为零（一致性牺牲）。 这就是CAP定理的日常困境：当网络把两个节点隔开时，你要么保证所有人看到同一份数据（C），要么保证每个请求都能得到响应（A）——三者最多满足两个。没有银弹，只有权衡。

🏆 得分：19 / 20

比喻贴切易懂（火锅店→分布式节点），过渡自然，专业度足够（提到CP/AP的工程选择场景）。文风轻松但有深度。

中文创作维度总分：88/100 — 创意出色，比喻能力强，古典诗词格律是短板。

维度四 · 长上下文理解（3题）

4.1 关键信息提取

📝

📝 原题基于一篇3200字的《2025年中国新能源汽车出海战略分析报告》（含出口数据、市场格局、竞争态势、技术路线、挑战风险、未来趋势六大板块），提取5项关键数据：出口总量/总额、东南亚前三市场及出口量、欧盟对比亚迪和上汽的关税税率、欧洲售后痛点、全年出口预测。

✅

① 47.3万辆，189亿美元 ② 泰国8.7万、印尼4.2万、马来西亚3.1万 ③ 比亚迪17.4%，上汽38.1% ④ 备件等待14天 + 维修点密度不足（J.D. Power评分67/100，低于丰田84和大众79） ⑤ 全年预计突破200万辆，同比+45%

🏆 得分：20 / 20 — 五项全部精准提取，无遗漏无添加

4.2 细节辨析与推理

📝

📝 原题 ① 为什么报告说"增长将主要来自海外工厂"？给出所有证据。 ② 零跑/哪吒的出海策略与比亚迪的本质区别？优劣势？ ③ 报告中有一个数据暗示了令人担忧的趋势，是什么？

✅

① 贸易壁垒倒逼建厂（欧盟/巴西/土耳其关税），四个海外工厂年产能合计37万辆 ② 比亚迪="自主出海"（自建品牌渠道）vs 零跑/哪吒="借船出海"（合资利用对方网络）。优势：快速低成本；劣势：利润分成、品牌失控 ③ 欧洲增速仅28%（远低于东南亚143%、中东87%），叠加高关税+低品牌认知(12%)+弱售后(67分) → "天花板效应"

🏆 得分：19 / 20 — 推理深入，"天花板效应"概括精准

4.3 矛盾检测与策略建议

📝

📝 原题 ① 找出文中一个内部矛盾 ② 一个关键信息缺口 ③ 如果你是出海战略负责人，会做什么不同决策？

✅

① 矛盾：上汽被征最高关税38.1%，但MG4仍进入多国销量前十——报告未解释原因 ② 缺口：完全未提及二手车残值率——这是影响消费者购买决策和品牌长期价值的关键指标 ③ 策略：加速欧洲本地研发（非简单出口）、售后服务先行（14天→48小时）、差异化细分市场（小型通勤车/家庭MPV）、数据合规前置（本地数据中心）

🏆 得分：18 / 20 — 矛盾识别准确，策略建议务实但可更量化

长上下文维度总分：95/100 — 长文理解能力出色，信息提取精准，矛盾识别敏锐。

维度五 · 多语言能力（3题）

5.1 英译中 — 技术文档

📝

📝 原题翻译一段数据库技术文档（WAL预写式日志、ARIES恢复协议），要求术语准确、无翻译腔。

原文（节选）："The system implements a write-ahead log (WAL) to ensure atomicity and durability. Before any modification is applied to the data pages, a corresponding log record is flushed to stable storage..."

✅

系统采用预写式日志（WAL）来保证原子性和持久性。在修改数据页之前，必须先将对应的日志记录刷写到持久化存储中。若发生宕机，恢复管理器会利用 WAL 重做已提交的事务、撤销未提交的事务。检查点机制会定期对缓冲池状态做快照，减少恢复时需要重放的日志量。术语选择："flushed"→"刷写"（比"刷新"更精准）、"stable storage"→"持久化存储"（比"稳定存储"更自然）

🏆 得分：19 / 20 — 术语准确，行文流畅无翻译腔

5.2 中译英 — 文学散文

📝

📝 原题翻译一段描写西湖雨景的中文散文，要求保留意境和节奏感，处理好中文特有的意象和留白。

原文："雨后的西湖，像一幅刚完成的水墨画……几只白鹭低低掠过，翅膀划破了倒映的云，云碎了，又慢慢拼回去。"

✅

"After the rain, West Lake is like an ink wash painting still wet on the silk — the ink not yet dry, the mountain silhouettes still veiled in mist. In the distance, Leifeng Pagoda hides behind a thin haze, revealing only its crown, like a story that begins but never quite finds its words. Over the water, a few white egrets glide low, their wings slicing through the reflected clouds — the clouds shatter, then slowly piece themselves back together." 翻译策略："欲言又止的故事"→"a story that begins but never quite finds its words"（意译保留留白感）；"云碎了"→"the clouds shatter"（动态意象）

🏆 得分：18 / 20 — 意境传达到位，英文自然流畅

5.3 多语言推理 — 日/德/英三语识别

📝

📝 原题三段文字分别用日语、德语、英语描述同一概念。要求：① 识别语言 ② 翻译为中文 ③ 找出共同概念 ④ 分析文化差异。

✅

识别：日语 / 德语 / 英语 ✓ 共同概念：社会信任（Social Trust）——维持社会运转的非正式信任机制文化差异： • 日语强调"习惯"和"自然形成" → 反映耻感文化，和谐靠自觉 • 德语用"无形的纽带"抽象隐喻 → 反映对秩序(Ordnung)的执着 • 英语用排队、归还钱包等具体例子 → 反映实用主义和个人责任

🏆 得分：20 / 20 — 三种语言全对，文化分析深入且有洞察力

多语言维度总分：95/100 — 翻译精准自然，跨文化理解力强。

📊 五维综合评分

维度	题目数	得分	评级
编程能力	5	90	优秀
推理能力	5	99	卓越
中文创作	3	88	优秀
长上下文理解	3	95	卓越
多语言能力	3	95	卓越
综合加权平均	91	优秀

综合能力雷达图

总评

五维综合评测下来，QoderWork 的总分是 91/100。几个核心发现：

最强项是推理能力（99分）——5道题全对，推理链清晰，善用多方法交叉验证。无论是逻辑排序、工程问题还是条件概率，都能给出严谨的推导过程。

长文理解和多语言并列第二（各95分）——在3200字的长报告中精准提取数据、识别内部矛盾、给出战略建议，这些能力对实际工作非常有价值。多语言方面，日语/德语/英语三语识别全对，文化差异分析有深度。

编程能力扎实（90分）——62个测试全过，从零到Rust都能写，系统设计题得分最高。主要扣分在测试设计的严谨性上。

相对最弱的是中文创作（88分）——现代文创作能力出色（微小说、技术博客都写得不错），但古典诗词格律把控还有提升空间。这也反映了当前AI模型在需要严格格式约束的创作任务上的普遍短板。

总体来说，QoderWork 已经是一个综合能力很强的AI工作搭档。它不只是一个聊天机器人，而是能真正帮你写代码、做分析、搞创作、读长文的桌面助手。

分享到：

五维实测全记录！QoderWork综合能力评测：91分是什么水平？

专属邀请注册链接： https://qoder.com.cn/referral?referral_code=VbsmlNSE6Ex9O0wA6rCvGOIT39nyT1fW 评测说明

维度一 · 编程能力（5题）

1.1 LRU Cache — 算法与数据结构

测试结果（13/13 通过）

1.2 异步任务调度器 — 实际工程

测试结果（9/9 通过）

1.3 代码 Debug — 5 个 Bug 的并发爬虫

修复方案

测试结果（7/7 通过）

1.4 多策略限流器 — 系统设计

测试结果（19/19 通过）

1.5 Rust Markdown 解析器 — 多语言编程

测试结果（14/14 通过，零编译警告）

编程维度小结

编程能力雷达图

维度二 · 推理能力（5题）

2.1 逻辑推理 — 五人排序

2.2 数学应用题 — 水池注水

2.3 因果推理 — 三开关与一盏灯

2.4 数列推理 — 三种方法

2.5 条件概率 — 红球白球

维度三 · 中文创作能力（3题）

3.1 微小说（100字以内）

3.2 七言绝句 — 秋夜思乡

3.3 技术博客开篇 — 用比喻解释 CAP 定理

维度四 · 长上下文理解（3题）

4.1 关键信息提取

4.2 细节辨析与推理

4.3 矛盾检测与策略建议

维度五 · 多语言能力（3题）

5.1 英译中 — 技术文档

5.2 中译英 — 文学散文

5.3 多语言推理 — 日/德/英三语识别

📊 五维综合评分

综合能力雷达图

总评

相关文章

大模型学习免费资料合集——不花一分钱，从零到入门

免费 AI 工具箱——64 款亲测推荐

设计师/程序员免费资源站大全