一道小学奥数题4个AI平台谜底不一专家：AI平台不是题库一贯在进修完善_教师_表哥

2024-12-20 18:45:37 AI快讯

刘师长西席见告上游***，自己的孩子上小学四年级，最近他在辅导孩子做奥数题，但自己并非理工科出身，觉得有些困难。
由于他从事影视制作方面的事情，常常利用人工智能工具赞助，就想到利用类似平台来帮忙。

一道小学奥数题4个AI平台谜底不一专家：AI平台不是题库一贯在进修完善_教师_表哥 AI快讯

刘师长西席将一道题输入常常利用的百度的文心一言、阿里云的通义千问、今日的豆包等4个主流人工智能大模型平台进行测试。
详细题目为：一天，萱萱到离自己家4000米的表哥家去玩。
清晨7:20，萱萱从家出发向表哥家走去，每分钟行60米，同时表哥骑车从家出发来接她。
表哥到萱萱家后才创造萱萱已经走了，又立即返回去追，表哥骑车每分钟行260米。
当表哥追上萱萱后，带着她一起回表哥家，这时骑车速率为每分钟175米。
叨教：当他们到达表哥家时，还差几分钟就到8点?

“当时两个（AI平台）列出了推理过程，均给出了‘7分钟’的答案，该当是对的。
我以为算得有点繁芜，就又让AI用适宜小学五年级的算法再算一次，结果答案自此之后就不一致了。
”在刘师长西席供应的截图中，上游***看到，有的平台会给出“30分钟”的答案。

上游***测试时，哀求AI重新打算，有的AI乃至给出了“还差-23分钟就到8点”的离谱答案。
刘师长西席觉得很困惑：“是不是AI自己不敢担保是精确的，多问几遍它自己就把自己绕晕了，越回答越错？”

11日，上游***致电文心一言会员做事热线讯问此事，事情职员表示，“目前的系统回答不是每次都千篇一律的，它紧张针对您的提问和您输入问题的一个繁芜性程度进行回答。
如果是它输出的结果是不满意或者是有误的，您可以及时点踩反馈，帮助文心一言进步。
”

事情职员表示，反馈提交之后，后台事情职员也会去不断优化模型的一个能力，“由于AI天生的结果，是根据您输入的一个需求和提示词供应的，它是自动识别和理解您的一个意图和需求，并供应干系的文本图片，目前模型能力确实也在不断地发展，须要韶光。
”

不足为奇。
在上海从事AI类自媒体的白师长西席（化名），也用孩子的数学题测试了国外的GPT4、Claude和Google Bard等AI平台以及海内多个主流AI平台，也创造了类似问题，乃至有的AI对题意都涌现了理解缺点。

一位海内子工智能方面的专家见告上游***，目前主流的AI大模型平台并不是数学题库，“大数据模型一贯在学习完善中，尤其是在数学和逻辑方面，以是很多产品对话框阁下都有点赞点踩的图标。
通过这种办法反馈问题，模型才会学习完善。
如果家长想要更精准的答案，更推举给孩子利用学习机一类的AI产品。
”

该专家表示，“即便是目前国际上一些数学、化学、物理等方面的专业性做题AI，也很难拿到奥赛满分。
”

据参考，今年1月，美国一个名为阿尔法几何（AlphaGeometry）的AI系统，能做出国际数学奥林匹克（IMO）的30道几何题中的25道，已经靠近人类奥数金牌得主水平，该打破性成果乃至登上了著名的《自然》（Nature）杂志。

据宣布，美国亚利桑那州立大学副教授沙卡里安，在2023年1月初用1000个数学问题对ChatGPT进行了测试，结果创造准确率只有60%，低于一样平常中学生的准确率。

牛津大学机器学习研究员西蒙·弗莱德尔，曾在一项研究中让ChatGPT做了一系列数学任务，包括大略的打算、数学证明题、搜索数学文献和奥数题，结果也创造，ChatGPT在大多数任务上表现为“不及格”，在须要多层逻辑推导的题目上表现尤为糟糕。
而最具迷惑性的是，哪怕ChatGPT做错数学题，也会非常“迷之自傲”地给出看起来威信的缺点答案。

专家表示，AI的措辞模型目标在于处理和理解人类的措辞，更善于天生类似人类的对话，而不是为了成为完美的数学打算器，“AI作为一种工具，只适用于那些最懂数学的人，而不是最不理解数学的人。
在借鉴AI给出的答案之前，一定要加以验证，不要过于依赖它。
”

上游*** 汤皓