近日,有重庆家长向媒体反映,给孩子辅导奥数题,百度、阿里云、今日头条等国内4个主流AI大模型平台,竟然给出了不同的答案。
无独有偶,一位上海家长用孩子的数学题测试了国外的GPT4、Claude和GoogleBard等AI平台以及国内多个主流AI平台,也发现了类似问题,甚至有的AI对题意都出现了理解错误。
此事引起网友热议,“所以谁家才是正确答案?”“这么一看Ai并不成熟,根本无法替代人类。”
其实,AI并非是数学解题神器。此前曾有媒体报道,美国亚利桑那州立大学副教授沙卡里安在2023年1月初用1000个数学问题对ChatGPT进行了测试,结果发现准确率只有60%,低于一般中学生的准确率。牛津大学机器学习研究员西蒙·弗莱德尔曾在一项研究中让ChatGPT做了一系列数学任务,包括简单的计算、数学证明题、搜索数学文献和奥数题,结果也发现,ChatGPT在大多数任务上表现为“不及格”,在需要多层逻辑推导的题目上表现尤为糟糕。
对此,专家表示,目前主流的AI大模型平台并不是数学题库,AI的语言模型目标在于处理和理解人类的语言,更擅长生成类似人类的对话,而不是为了成为完美的数学计算器,“AI作为一种工具,只适用于那些最懂数学的人,而不是最不了解数学的人。在借鉴AI给出的答案之前,一定要加以验证,不要过于依赖它。”
|