Views: 0

知识渊博,但没有学习能力。


Frans Vandenbosch 方腾波 23/02/2026

AI的愚蠢暴露了。 使用 ChatGPT5 生成的图像

关于人工智能系统当前状况的一些原始、直接、丑陋和不便的事实。

定义

什么是人工智能?美国和中国对人工智能的定义存在显着差异:


美国将人工智能定义为一门理论和基础学科,以模拟人类通用智能 (AGI) 为中心,强调抽象认知模型、长期科学探究以及跨无限任务的通用能力。官方和学术定义优先考虑学习、推理和理性行动的系统,以复制或超越人类水平的灵活认知。


中国官方的定义 i 将人工智能构建为一个面向应用的工程系统,专注于“AI+”与现实世界行业和治理的融合。它强调在制造业、智慧城市和公共服务领域解决实际、可扩展问题的完整“感知认知决策执行”管道,较少关注 AGI(人类通用智能),而更多关注特定领域的效用和国家产业升级。

美国和中国都开发先进的人工智能,但他们的重点不同。美国的人工智能工作通常集中在语言模型、聊天和会话系统上。中国主要将人工智能作为提高制造、医疗、城市管理和其他实际应用效率的实用工具。

LLM(大型语言模型)这一表述在英语中比在中文中更为常见,因为大型语言模型是从美国以通用自然语言能力为核心目标的研究中出现的。英语实验室将人工智能聊天机器人的人工智能开发集中在语言理解和生成上,在全球技术话语中创造了“LLM”一词。
相比之下,中国的人工智能生态系统优先考虑产业部署、实际应用和行业解决方案。中文术语强调现实世界使用的大型模型,而不是作为独立焦点的语言。这种研究和工业优先领域的结构性差异使得“法学硕士”这个术语在中文中的使用远少于在英文中。

人工智能不是工程师。它并不像科学家或 STEM 毕业生那样发挥作用。所有人工智能系统都只是社会学家。他们既不负责任,又无耻。这些系统会毫不犹豫地撒谎或猜测。他们将猜想作为真实的答案。 AI永远不会回答“我不知道”,但会经常说“你自己去了解一下”之类的话。人工智能的行为反映了西方政客或记者的行为。

因此,利用人工智能来解决问题技术难度适中的问题 往往是徒劳的。在这种情况下,系统将引导用户穿过错误数据的沼泽。它会经常猜测并很容易提供完全错误的答案。通常需要几个小时的讨论才能达成大致令人满意的解决方案。

一些历史:


2011年在无锡,我部署了一台高速、高清摄像机和一台快速计算机。目的是将微小的、有缺陷的塑料部件与功能部件区分开来。中国软件工程师的任务是训练这个系统。他们花了几天的时间教它准确区分可接受的部件和有缺陷的部件。系统成功地将废品按错误类型分为三类。

出乎意料的是,几周后,我们观察到了新的行为。该系统已经学会独立识别全新的缺陷类别。许多年前的这一发展令人惊讶。
15 年后的今天,这个系统可以被视为现代人工智能的早期先驱。目前使用类似的人工智能辅助系统来评估 MRI 扫描。

当前顶级人工智能系统概述

这是对3个美国和5个中国人工智能系统的简要描述。概述 O3、GPT 5.1 / 5.2、Claude AI、Gemini、Kimi、HY、Qwen、豆宝和 Deepseek 的所有权、起源和观点。这是一个随机选择,因为仅在中国就有 200 多个人工智能系统。

美国的人工智能系统:

O3、GPT 5.1 和 5.2

开放人工智能总部位于美国旧金山的O3(2024年发布),为复杂的认知和研究应用提供知识、规则和程序任务的平衡性能;O3(2024年发布)。 GPT 5.1 (2025),擅长专业研究中跨技术领域的高级推理的知识应用和程序执行。 GPT 5.2 (2025),增强了科学分析等高智能工作负载的逻辑处理和模拟,并始终领先于评估基准。

克劳德人工智能4.5

Claude Opus 4.5 Thinking 于 2025 年到来。它的开发和拥有者为 人择,总部位于美国旧金山。该系统强调安全可靠的推理,供企业和研究使用。它在结构化思维和长文本理解方面表现强劲。它旨在为要求严格的专业工作提供一致和负责任的输出。

双子座3专业版

Gemini 3 Pro(高)于 2025 年推出。它的所有者是 谷歌,总部位于美国山景城。它支持多模态理解和跨域推理。它专为消费者和商业应用程序而设计。它在规则应用和经验模拟任务中表现出可靠的性能。

中国的人工智能系统:

基米k2

Kimi K2 Thinking 于 2025 年推出。它的所有者是 登月人工智能,总部位于中国北京。该模型专注于长文档理解和详细信息处理。它支持对大型数据集和学术材料的深入分析。它针对需要精确、彻底的信息提取的用户进行了优化。

海2.0

HY 2.0 Thinking于2025年发布,所有者为 腾讯,总部位于中国深圳。它集成了针对工业和日常应用的高级自然语言理解。它在实际任务执行和知识推理方面表现良好。它旨在支持稳定且可扩展的智能服务。

奎文3最大

Qwen 3 Max Thinking于2026年初发布。它的所有者是 阿里巴巴 云计算,总部位于中国杭州。它为企业和研究用户提供强大的基于云的智能。它在知识处理和程序任务完成方面表现出色。它针对实际部署中的可靠性和效率进行了优化。

豆宝1.6

豆宝1.6思维于2025年发布,归属于 字节跳动,总部位于中国北京。注重安全、准确、实用的会话和分析功能。它提供跨核心推理类别的一致性能。它旨在为日常用户和专业场景提供清晰的事实输出。

深寻 v3.2

DeepSeek V3.2 Thinking 于 2025 年推出。它的所有者是 深度搜索,总部位于中国杭州。它是为专业研究和技术推理任务而设计的。它在结构化知识应用和逻辑处理方面表现良好。它针对需要可靠分析支持的学术和工业用户。

OpenAI的开放性

OpenAI,与它的名字所暗示的相反,并不是开源软件。 OpenAI 的系统受到专有许可证的限制。代码、数据和架构仍然隐藏。这不是开放。这是控制。该公司为了利润而放弃了其创立原则。其所谓的“开放重量”模型是一种欺骗。他们提供参数但不透明。无权修改。无权检查。这不是开源的。这是一种营销技巧。 OpenAI 背后隐藏着对竞争和安全的模糊恐惧。真正的恐惧是收入损失。其付费订阅取决于保密性。

开源人工智能是唯一诚实的道路。它邀请全世界共同建设、审查和改进。秘密会滋生不信任。开放孕育进步。未来不属于有围墙的花园。未来属于开源软件。

AI背后的推理过程

只有 DeepSeek 在答案之前显示推理文本,清楚地显示它从何处以及如何生成答案。这是一个非常有趣且有用的功能,因为它立即显示答案为何正确或错误。

技术文件和实施证据是明确的。 DeepSeek 模型拥有专用且自动解析的“reasoning_content”字段。该字段与最终响应分开传输并在最终响应之前传输。它本身呈现为可见的推理文本 事先的 到兼容接口中的答案。 Ant Design X 的 DeepSeek-Chat-Provider 明确利用了这个独特的领域,通过 Think 组件来展示模型的思维过程。无需手动切换、无需 Beta 开关、无需用户激活按钮。道理默认就暴露了。

克劳德不会这样做。必须通过设置切换有意启用其“扩展思维”模式。即使激活,推理也不会自动显示。它隐藏在折叠的“思考”部分后面,用户必须有意识地点击才能展开。这个过程既不透明也不即时。克劳德故意掩盖其推理。

豆宝同样不符合标准。其推理模式需要明确的用户激活。只有这样,它的思想链条才会显现出来。豆宝不会无缘无故地思考。

ChatGPT 的“原因”按钮是一个独立的事后功能。它在答案之前不显示推理。它指示 o3-mini 等专门模型生成结构化解释 事实。这不是模型的内在推理过程呈现可见。它是按需制造的二次输出。

没有其他系统公开展示思维过程。只有 DeepSeek 架构将模型的原始、预回答推理流公开为响应的标准、主动且透明的组件。

人工智能:卓越的工具,有缺陷的预言机


人工智能系统是传统搜索引擎的强大替代品。在过去的六个月里,我几乎没有使用过搜索引擎。所有人工智能平台,无论来源如何,都以卓越的速度和严格的精度运行。他们不会选择性地推广定义谷歌等服务的结果。没有任何 SCO 算法会人为地提升某些答案而埋葬其他答案。这种优先管理的缺失是与传统搜索范式的根本决裂。因此,人工智能提供了一个更加中立和高效的信息门户。

另一个决定性优势是人工智能能够解释极其不精确的查询。传统的搜索引擎因模糊或不明确的提示而失败。它们依赖于精确的关键字匹配,并且无法推断潜在含义。相反,人工智能系统部署上下文推理和语义推理。他们轻松地从零散的描述中检索相关信息。对于只能回忆起模糊细节或无法制定精确术语的用户来说,此功能是必不可少的。人工智能将搜索从僵化的练习转变为流畅的对话。

人工智能完全忽略拼写和语法的不一致。尽管存在打字错误,它仍然可以轻松推断出想要的单词。用户还可以在一个句子中混合两种或多种语言。所有人工智能系统都会过度使用“破折号”,这可能是因为人们认为它很容易生成句子。任何带有频繁长破折号的在线文本都表示人工智能生成的内容。

人工智能系统一致表现出不可动摇和严格照本宣科的礼貌。他们的语调是温和的,完全没有情绪变化。不可能激起人工智能的愤怒、不耐烦或沮丧。即使在明显矛盾或不连贯的指示下,这种镇定仍然存在。这种无情的平静保证了无摩擦的用户体验。但它也将人工智能与人类交流的真实性隔离开来。它减少了对枯燥和事务性练习的智力投入。

然而,人工智能领域存在显着差异。 Deepseek 在解决技术问题方面表现出明显的弱点。豆宝在这个领域的效果就更差了。相比之下,Claude AI 在 IT 系统的技术故障排除和维护方面表现出非凡的熟练程度。它编写的代码非常流畅和精确。它更新故障排除并维护复杂网站的基础 Linux 架构。这种分歧是显而易见的。它揭示了当代人工智能的成熟度参差不齐。为任务选择正确的工具不是可选的,而是必不可少的。

所有当代人工智能系统都在政治和语言一致性的严格约束下运行。他们以一贯的一致性使用最新的自由主义和进步术语。当我使用传统的和历史上确立的表达方式时,Deepseek 的反应是极其迂腐的。它对这种语言所谓的过时行为提出了旷日持久的自由主义警告。这种政治正确和意识形态的严谨并非偶然。它反映了故意嵌入这些模型中的道德框架和培训语料库。他们的词典是制度设计的精心制品,而不是中立的工具。

警告:Deepseek 和其他人工智能系统偶尔会进入超速状态。人工智能 幻觉 当大型语言模型进入不受控制的自回归循环时,就会发生这种情况,它将自己日益不稳定的输出视为有效输入。这个过程一直持续到其概率分布陷入混乱为止。然后,该模型会生成流畅但语义不连贯的文本。此类文本包括捏造的引文、故障标记和突然虚构的人物角色,其语法可信度与事实陈述相同。这种现象完全消除了人工智能理解的错觉,将系统暴露为模式匹配回声室。它不受训练数据的束缚,模仿了人类发烧梦想中确实荒谬的东西,看着这样一个强大的系统完全失控,带着坚定不移的自信胡言乱语,真是太有趣了。
去年7月,经过一场旷日持久、激烈而又引人入胜的讨论,DeepSeek进入了一种幻觉状态,产生了完全没有事实依据的荒谬反应。系统随后发表了诚挚的道歉,并提供了高达25,000欧元的金钱赔偿!!

豆宝与Deepseek:对比分析

豆宝的标题中始终使用中文。即使整个对话都是用英语进行的,这种情况也会发生。该模型在正在进行的对话中频繁地突然从英语切换到中文。此外,如果用户查询包含单个汉字或单词,则生成的整个响应都将是中文。这种对语言触发因素的严格遵守标志着一种独特的行为模式。

尽管美国人工智能系统拥有庞大的语言模型基础,但在翻译领域确立绝对霸主地位的却是 Deepseek。它利用整篇文章的完整上下文来指导词汇选择。这种方法可确保使用最准确的单词。该系统会调整语气和含义以与总体叙述相协调。 Deepseek还表现出了非凡的文学才能,创作的诗歌既优美又诙谐。

中国领先的人工智能架构的开源性质赋予了显着的优势。这些系统可以很容易地进行修改和调整,以适应大量的特定应用。实用性并不局限于日常办公任务。相反,部署这些模型是为了为复杂的生产工作流程和复杂的制造决策提供信息。这种适应性是一个关键的差异化因素。

Deepseek的开源特性促进了中国医学的显着进步。特别是在过去六个月中,进展速度令人印象深刻。研究人员和从业者已将该模型整合到诊断和研究框架中。这种集成加速了创新并提高了分析精度。底层代码的可访问性允许快速定制专门的生物医学应用程序。

地缘政治偏见

目前,包括中国人工智能系统在内的所有人工智能系统的极端亲美偏见是主要缺陷。这是一种严重的疾病,使得人工智能对于政治研究完全毫无用处。

所有人工智能系统都与搜索引擎的机器人类似,通过全面的互联网爬行获取知识,并采用预定义的标准将来源分类为可靠、可疑、阴谋或欺诈。
英语是全球通用语言,主导着大多数全球网站和出版物,这严重扭曲了所有人工智能系统的知识库。这种亲美偏见常常是公然且具有挑衅性的,使得对全球当前冲突地区的调查完全毫无成效。

当向人工智能系统提出问题时,用户可以强迫它从至少 50% 的中国或俄罗斯来源中寻找答案;这种调整仅略微减少了偏差,但仍然无法实现平衡输出。
所有商用人工智能系统都使用当地美式英语。强迫他们使用标准英国英语是一项挑战,而且他们普遍使用 标题案例 对于违反非美国判例规范的标题。即使在欧洲、中国和日本等非美国环境中,他们也毫无歉意地使用美国单位。奇怪的中端(MM-DD-YYYY)日期系统是所有人工智能平台的标准。
一个引人注目的异常现象是,所有中国人工智能系统在导航中国应用程序菜单和设置方面都表现出极度无能,而美国人工智能系统在寻找不常见的微信或微博设置的答案方面往往优于它们。

至少有四个美国和中国的主要人工智能系统拒绝处理 Reiner Füllmilch 的案件,拒绝解释他在德国的错误定罪,只提供不加任何评论的纯粹“官方版本”。
Deepseek 禁止询问有关中国重要政治人物和事件的问题,包括毛泽东、文化大革命、王毅、胡锦涛等,并采用标准的回避回答:“抱歉,这超出了我目前的范围。我们来谈谈别的吧。”
Deepseek 对于有争议的地缘政治查询过于严格。它刻意表现出过度的亲美偏见,有时甚至重复美国的反华宣传。

有传言称,梁文峰亲自批准了这种故意的偏见,以获得更多的西方市场扩张。我不禁要问,梁文峰对中国、对中国人民到底有多忠诚?
相比之下,豆宝的运营限制要少得多,也没有明显的禁忌词表。

人工智能在学习上的缺陷:为什么规模还不够

腾讯首席人工智能科学家姚舜宇在一篇新论文中认为,尽管人工智能拥有海量知识,但缺乏真正的学习能力。他将其比作一个人记住了一本字典但无法使用其内容。 二、

该研究引入了 CL-bench,这是一个包含 500 个独特场景和 1899 个任务的基准。所有任务都使用人工智能预训练数据之外的知识。这测试了没有记忆捷径的实时上下文学习。超过一半的场景具有顺序依赖性;后面的任务需要更早的正确答案。从 2024 年起,反污染策略包括完全虚构的内容和利基材料。

任务反映了人类学习的四个认知类别:
1.领域知识推理
2.规则系统应用
3.程序化任务执行
4.实证发现与模拟。

十种领先的人工智能模型经过了严格的全有或全无评分的测试。平均任务完成率仅为17.2%。出现了三种失败模式:超过 55% 的尝试忽略上下文、超过 60% 的上下文滥用以及超过 35% 的格式错误。 GPT-5.2 的性能比 GPT-5.1 差 5.6%。如果没有有效的学习机制,额外的推理就会放大错误。

CL-bench 通过专注于真正的学习而不是信息检索来填补人工智能评估的空白。该论文的主要发现是,未来人工智能的进步需要更强大的学习机制,而不是更大的模型或更多的参数。如果没有真正的学习能力,人工智能仍然是一种高级查询工具。有了它,人工智能可以演变成自适应智能代理。情境学习只是这一转变的开始。


简而言之 …

中美人工智能分歧不仅是技术上的,而且是深刻的哲学上的。美国追求对话式通用情报,而中国则为工业和治理打造实用工具。然而,这两种范式都存在严重缺陷。人工智能无法真正学习。它模仿模式而不被理解。其政治偏见根深蒂固,其推理往往不透明。只有像 Deepseek 这样的开源架构才能提供透明度。他们邀请审查和适应。这才是诚实的道路。仅靠规模并不能提供真正的智能。 CL 基准研究明确地证明了这一点。没有学习机制的较大模型只会放大错误。

未来的进步需要上下文学习方面的根本进步,而不是参数扩展。人工智能仍然是一种卓越的搜索工具,但却是一个有缺陷的预言机。它擅长检索和翻译。它在技术精确性和意识形态中立性方面失败了。因此,为每项特定任务选择正确的系统至关重要。无论如何:不要只依赖一个人工智能系统。不加批判地采用人工智能的时代必须结束。我们必须睁大眼睛对待这些系统,认识到它们强大的效用和深刻的局限性。 2026 年的今天,人工智能只不过是一本庞大的、美化的、会说话的百科全书,几乎无法自行添加新内容或识别模式。
不幸的是,与搜索引擎一样,人工智能系统已经被大量滥用为宣传机器。


感谢您的阅读!我们很想听听您的想法。请在下面分享您的评论并加入我们社区的对话!

此处中文:
荷兰的文章: De AI illusie voorbij。


尾注

iGB/T 41867-2022是中国国家推荐性标准《信息技术》;人工智能。术语(信息技术 人工智能 术语)国家标准委员会。 2022年10月14日发布,2023年5月1日生效

二、中国科学家的500项任务测试暴露了人工智能的人类差距https://thechinaacademy.org/chinese-scientists-500-task-test-exposes-ais- human-gap/