刘师长西席见告上游***,自己的孩子上小学四年级,最近他在辅导孩子做奥数题,但自己并非理工科出身,觉得有些困难。
由于他从事影视制作方面的事情,常常利用人工智能工具赞助,就想到利用类似平台来帮忙。

一道小学奥数题4个AI平台谜底不一专家:AI平台不是题库一贯在进修完善_教师_表哥 AI快讯

刘师长西席将一道题输入常常利用的百度的文心一言、阿里云的通义千问、今日的豆包等4个主流人工智能大模型平台进行测试。
详细题目为:一天,萱萱到离自己家4000米的表哥家去玩。
清晨7:20,萱萱从家出发向表哥家走去,每分钟行60米,同时表哥骑车从家出发来接她。
表哥到萱萱家后才创造萱萱已经走了,又立即返回去追,表哥骑车每分钟行260米。
当表哥追上萱萱后,带着她一起回表哥家,这时骑车速率为每分钟175米。
叨教:当他们到达表哥家时,还差几分钟就到8点?

“当时两个(AI平台)列出了推理过程,均给出了‘7分钟’的答案,该当是对的。
我以为算得有点繁芜,就又让AI用适宜小学五年级的算法再算一次,结果答案自此之后就不一致了。
”在刘师长西席供应的截图中,上游***看到,有的平台会给出“30分钟”的答案。

上游***测试时,哀求AI重新打算,有的AI乃至给出了“还差-23分钟就到8点”的离谱答案。
刘师长西席觉得很困惑:“是不是AI自己不敢担保是精确的,多问几遍它自己就把自己绕晕了,越回答越错?”

11日,上游***致电文心一言会员做事热线讯问此事,事情职员表示,“目前的系统回答不是每次都千篇一律的,它紧张针对您的提问和您输入问题的一个繁芜性程度进行回答。
如果是它输出的结果是不满意或者是有误的,您可以及时点踩反馈,帮助文心一言进步。

事情职员表示,反馈提交之后,后台事情职员也会去不断优化模型的一个能力,“由于AI天生的结果,是根据您输入的一个需求和提示词供应的,它是自动识别和理解您的一个意图和需求,并供应干系的文本图片,目前模型能力确实也在不断地发展,须要韶光。

不足为奇。
在上海从事AI类自媒体的白师长西席(化名),也用孩子的数学题测试了国外的GPT4、Claude和Google Bard等AI平台以及海内多个主流AI平台,也创造了类似问题,乃至有的AI对题意都涌现了理解缺点。

一位海内子工智能方面的专家见告上游***,目前主流的AI大模型平台并不是数学题库,“大数据模型一贯在学习完善中,尤其是在数学和逻辑方面,以是很多产品对话框阁下都有点赞点踩的图标。
通过这种办法反馈问题,模型才会学习完善。
如果家长想要更精准的答案,更推举给孩子利用学习机一类的AI产品。

该专家表示,“即便是目前国际上一些数学、化学、物理等方面的专业性做题AI,也很难拿到奥赛满分。

据参考,今年1月,美国一个名为阿尔法几何(AlphaGeometry)的AI系统,能做出国际数学奥林匹克(IMO)的30道几何题中的25道,已经靠近人类奥数金牌得主水平,该打破性成果乃至登上了著名的《自然》(Nature)杂志。

据宣布,美国亚利桑那州立大学副教授沙卡里安,在2023年1月初用1000个数学问题对ChatGPT进行了测试,结果创造准确率只有60%,低于一样平常中学生的准确率。

牛津大学机器学习研究员西蒙·弗莱德尔,曾在一项研究中让ChatGPT做了一系列数学任务,包括大略的打算、数学证明题、搜索数学文献和奥数题,结果也创造,ChatGPT在大多数任务上表现为“不及格”,在须要多层逻辑推导的题目上表现尤为糟糕。
而最具迷惑性的是,哪怕ChatGPT做错数学题,也会非常“迷之自傲”地给出看起来威信的缺点答案。

专家表示,AI的措辞模型目标在于处理和理解人类的措辞,更善于天生类似人类的对话,而不是为了成为完美的数学打算器,“AI作为一种工具,只适用于那些最懂数学的人,而不是最不理解数学的人。
在借鉴AI给出的答案之前,一定要加以验证,不要过于依赖它。

上游*** 汤皓