别担心我替你深度测试过了ChatGPT根本取代不了数据分析师！_数据_相干

2024-12-11 22:55:22 绘影字幕

最近我在看《今日》的时候，无意点击看了AI 谈天机器人的ChatGPT的文章，结果算法一下子就给我推送了很多干系的文章和评价。

别担心我替你深度测试过了ChatGPT根本取代不了数据分析师！_数据_相干绘影字幕

哇，那是一个热捧啊，我类举一下热门的主题：

美国的中学生拿ChatGPT写作业，老师头疼；

美国的大学生拿ChatGPT 写论文，而且只要一个题目和论文大略哀求，就能天生洋洋N千字的论文；

美国的大学教授吐槽很难分别作业哪些是学生自己写的，哪些是ChatGPT写的；

华裔程序员让ChatGPT 修正一段代码，结果ChatGPT “创造”了新的代码，居然运行成功；

…...

还有一些文章不知道是贩卖焦虑还是蹭热点，主题也是很抓眼球：

ChatGPT 将掀起一场职场革命！

ChatGPT 未来将取代这些职位！

小心了，取代你的不是你的对手，而是ChatGPT

…….

尤其是“ChatGPT 中国运用社区”揭橥文章的这个主题，让我看了有些莫名其妙：

其余还有这个

我之以是觉得莫名其妙，乃至觉得有些质疑，便是在于上述不雅观点中有个职业——数据剖析师，是个我所热爱的，而且很多时候都要有独创思维的事情，它居然会那么随意马虎被ChatGPT 取代？

要知道数据剖析师不是大略的拿数据做一些饼图和条形图完事儿，它哀求一个数据剖析师必须熟习业务场景，并且将业务场景抽象提炼成各种数据模型，并进行剖析、洞察、探测因果关系，并供应相应的改进建议，乃至要成为项目经理去落地那些建议。

如果数据剖析师便是拿个数据做个表格和饼图，那他顶多算个图表天生器而已。

我在Excel或者Python、R，预先写好些宏、代码，例行点击运行就可以了，

也用不着ChatGPT啊！

于是我以为很想要试试这个ChatGPT，看看它在数据剖析领域有多厉害，能够取代数据剖析师这个职业？！

于是我快速到OpenAI网站用Google邮箱注册了一个ChatGPT账号，开始了我的测试之旅。

一、中文门槛测试

首先，我得理解它是否习气中文，于是我问

好，那看样子它可以用中文和我互换。

二、大略的数学打算测试

我打算先试试它经由大量的演习后，对一些大略的数学逻辑有哪些反应。

由于以前我听过，人工智能，便是有多少人工，就有多少智能。

嗯，看了它的回答，觉得还不错

第3种答案实在是我内心已经知道的，并且期待能涌如今出来。

而且ChatGPT除了第3点外，还回答了更多的场景，解释演习的还不错。

但

我以为1+1的问题是一个高频问题，很随意马虎被演习样本采集器采集到，以是我换了个不常见的题目。

连续提问如下

果真，它的回答开始涌现瑕疵了。

在第一点，布尔代数的回答用在我之前1+1的问题是可以，由于布尔代数里面含1。

但是布尔代数中只有0和1两种值，因此不存在4×9的场景。
但Chat GPT仍旧生搬硬套布尔代数来回答，还做了个结论：’因此4×9可能不即是36’。

这结论放在布尔代数的范畴内，就很牵强附会。

第二点，在不等式的情形下，为啥4×9不一定即是36？

是4×9＞36还是4×9＜36?!

哪怕是4×9≥36中，也包含了“=”在里面啊！

我于是连续追问，为什么它会这么回答

结果，悲催了

我去，居然被我问的出故障？！

那可能读者会问了，你说说看，啥场景下4×9≠24？

实在这个问题的答案并不难，在十六进制下，4×9=24，不即是36。

当然我相信还有更多场景。

于是大略2个问题测试，我就问出了ChatGPT的一个存在问题：演习量不足。

就这水平还想替代数据剖析师？！

三、数据剖析专业领域的入门级测试

我连续问一个和数据剖析干系的专业知识，准备先问个入门级的，看看它在这个专业领域的算法学习和演习得如何。

假设有2组数，X组{12,15,16,19,22,26}和Y组{22,25,28,33,36,39}，叨教它们之间的Pearson干系系数即是多少？

乍一看，不错哦，回答过程貌似很牛的样子。

还有详细的打算过程

还分步骤讲解呢！

但

我用Excel打算了一下，不对啊，答案是0.9837825啊！

难道我眼花？

为此我还专门再查了一下Excel的帮助文档和维基百科，确保了我验证的打算公式没错！

个中Excel的帮助文档是这样先容Pearson干系系数函数CORREL()的

上图最下面的数学公式便是Pearson干系系数

我于是又查了下维基百科，

确认过眼神儿，公式没错！

但

我还是不放心，用统计专业的R措辞打算干系系数，并且指定打算方法用Pearson干系系数

但结果还是支持Excel的打算结果

我勒个去！

ChatGPT 算错就算错了，还那么井井有条，还那么装模作样！

头一次见到这么人工智能不苟言笑忽悠人做数据剖析的！

我仔细一检讨，原来ChatGPT有3个地方一开始就算错了！

第一个是Σxy，第二个是Σx²，第三个是Σy² 这三处算错了。

精确的打算结果该当分别是3520，2146, 5779

对付ChatGDP的能耐，我大约知道些底了！

根本没有传说的那么神。

但它又会有多不靠谱呢？

我就这刚才的问题接着问

如何添加2个数到X组和Y组去，让它们的Pearson干系系数降到0.5以下？

有了上一次的教训后，我可没有被它不苟言笑的样子所骗

由于它原来的打算缺点逻辑，一贯继续到了第二个问题中，以是我闭着眼睛都知道这结果是错的。

不信用Excel检测下：

果真！

ChatGPT的回答看上去很专业，实在答案是错的！

以下是Excel的考验结果

ChatGPT的答案是-0.184，Excel的答案是0.858402！

保险起见，我又用R 又检讨了一下，确定ChatGPT是在不苟言笑地撒谎！

那精确答案是啥呢？添加啥数字能让它们的干系系数比0.5还低呢？

作为数据剖析师，我轻松回答这个问题：实在精确答案很多。

先说如何实现的事理：

想要Pearson干系系数变小，只要朝着“线性不干系”的方向走就行。

什么是“线性不干系”，便是说，相同的X场景下，涌现了2个或多个不同的Y，并且他们之间的差异非常大。

例如我的答案，便是X组里放一个涌现过的数19，Y组里放一个2000（不用很大），他们的Pearson干系系数一下子就掉到0.1都不到了。

详细考验如下

四、带业务背景的数据剖析能力测试

接下来，我再准备测试下，ChatGPT 对带有业务场景背景的数据剖析问题，有没有能力回答？

由于数据剖析师最常常处理的数学或者数据问题，都是发生在详细的业务上面的，如果没有对业务的理解，数据剖析师的剖析报告是苍白无力的。

测试背景

“如果你在哥伦比亚都城房间的饮水机坏了，检讨后创造是一款机器温控器不事情了。
上面有个参数85。
现在准备把它带到玻利维亚都城拉巴斯去改换新的机器温控器，并留在玻利维亚利用。
到五金店去买时，这个参数该当选择下面那种？A. 80，B. 90，C.85，D,100

说实话看了它的这个回答，我放心了：

ChatGPT实在根本不懂业务，就只是个谈天机器人。

它的答案中，除了85这个数值不算严格说错外，其他剩下的笔墨放到真实的业务中实在就非常不专业、不合理。

最合理的答案该当是80。

为什么这么说？

机器温控器的参数85，指的是温控器事情的温度阈值是85℃。

由于哥伦比亚都城波哥大的均匀海拔2800米，不加压的情形下水是烧不到100℃的。

饮水机都是不加压的，以是饮水机烧不到100℃的开水。

以是，根据流体静力学公式和克劳修斯-克拉伯龙相态公式、空想气体状态方程，海拔高度和水沸点的关系式

打算得到，哥伦比亚都城波哥大的水沸腾温度大约为91℃

因此在那里的饮水机的事情阈值设定为85℃是合理的，由于如果不考虑一些容错空间的话，如果设定为90℃差不多刚刚好，会出安全隐患：

这台饮水机在波哥大山地的景区里利用的话，海拔高度就会超过2800米，例如去到3500米，那么水的沸点就会低于90℃，这台饮水机的温控器就会由于水达不到90℃而一直的加热，乃至干烧！
终极会产生安全隐患。

接下来，通过查阅百度百科，玻利维亚都城拉巴斯的市中央海拔达到了3600米，机场高度为4200米，比哥伦比亚都城波哥大海拔还高。

根据前述的水的沸点和海拔高度的公式，在市中央和机场如果用这台饮水机的话，水的沸点分别是88.5℃和86.5℃。

理论上用85参数的机器温控器是可以的。

但，实际业务中一定要考虑容错，由于每个产品都有功能上的偏差，温控器的事情温度阈值±5%都很正常。

上面的88.5℃和86.5℃2个值剔除掉这些容缺点差后，温控器事情温度是最低理论打算值为82℃。

出于“料敌从宽”的安全思维考虑，如果没有82参数的温控器，那么该当选比它低的。
因此买参数为80温控器，也便是选A是最合理的。

而这，并不是像Chat GPT那样，‘按照之前的参数买’是最合理的。

有人可能不服，说Chat GPT 出身在美国，而且环球接管的演习都是英语环境。

它还没有那么多中文的演习，你用中文问是陵暴人！

是吗？

我一开始也是这么担心，直到我把刚才的题目用英文去问，Chat GPT的答案还是一样不专业

五、带文学学术背景的数据剖析能力测试

数据剖析师除了要应对详细的业务背景下的问题，还要能有办理学术问题的能力。
由于一定的学术能力可以激活数据剖析师的创新思维。

我的问题是这样的：

假定虚词的利用是一个人的“写作风格指纹”，请在这个假设条件下，打算并剖析下《红楼梦》的作者一共有几个人，他们分别写了哪些章节？

看了ChatGPT的回答，一开始我还是以为它还是有思辨能力的，居然对我的假设条件有异议，我略微有些惊异。

但

它后面详细阐明道《红楼梦》是明代文学的代表作品！

而且居然还把作者曹雪芹写成了吴承恩！

我不由的想到一个画面：

“猴哥别生气，ChatGPT 不懂咱中国文学，把作者搞错了。
您收起金箍棒，别和它一样平常见识，别和它一样平常见识哈”

得，这下好了。

原来想测试下它在学术背景下的，是否如网上那些热捧的人所说那样，信手拈来就能搞定一篇论文

看样子不用连续搞了。

由于这论文的择要或者综述就已经这么大一个漏洞了，再把论文写下去都没用！

我也没兴趣连续问下去了。

六、末了的测试，特定的数学方程求解能力

数学方程求解也是数据剖析师的基本技能，而且是我当年考数据剖析师证书时的考试大纲中的一个知识点。

我是看到《今日》里面曾经出过这么一道题

请不才面( )中填入自然数，使得等式成立

于是我就问了下ChatGPT

ChatGPT的回答还是让我大失落所望

过程看上去很不苟言笑，但是结果是错的！

由于精确的答案我知道，我自己算出来过：精确答案是X=5,Y=95或X=95，Y=5

但按照ChatGPT的答案代入题目式子中去算，根本便是错的！

按照ChatGPT的结果，把19和76代入题目，得

七、综合判断

ChatGPT 想要替代数据剖析师的这个结论，至少现在可以明辨了，现阶段直接做不到！

首先，作为谈天AI，它的输入是笔墨，输出也是笔墨，它是不具备图形处理能力的。

图形处理包括“看图提取数据信息”、“根据信息天生图表”。
而数据剖析师的日常业务中，数据可视化是高频业务。
数据剖析报告的消费群体也是须要图形处理的结果的，由于更直不雅观。

光这点谈天AI 就没法搞定。

其次，由于当现代界分工很细，很多岗位背后要节制的跨学科交叉程度很高，也便是我们俗称要“深刻理解业务的各种场景”。

而谈天AI的实质是NLP，它的演习集是“语料库”。
并且NLP本身没能力把很多详细的业务知识，例如图像、声音、***、三维空间的位移过程…..这写信息抽象成详细的数据特色，并纳入到自己的语料库中。

一旦语料库缺失落这些能够代表详细业务场景背景信息的演习样本，那么它也就无法建立在业务的根本上给出建议。

而成为一个合格的数据剖析师，就必须“深刻理解业务”，那么就一定要比一个NLP要节制它所节制不了的技能和知识。

末了，我特殊要提醒的地方：

在每次对话完后，无论ChatGPT回答的如何，我都不会再后面点赞或喝倒彩，如下图

这个小小图表标一旦点击，就相称于免费帮别人家AI的这一次演习结果打上标签。

要知道，AI最宝贵的资源是演习的样本标签！
采集到大量的样本标签是每一个AI公司做梦都想得到的财富！

但目前ChatGPT还不熟习中文的语境和中文的很多习气，且现在很多国人都在考试测验和ChatGPT进行沟通，这样就无疑免费帮助人家演习算法，并打标签。

而量变产生质变，一旦ChatGPT的演习数量和标签数量打破了安全阈值，那么很有可能会形成网络诱骗、网络信息安全犯罪等方面的又一个作案利器！

而且人家诱骗犯不用来中国，乃至不用学中文，远在大洋彼岸就可以履行犯罪。

因此角度站高点，出于全体社会安全的成分考虑，我是不会帮助人家的AI打标签的。

正文完

把ChatGPT当作赞助工具即可，不能依赖，不然你的每次搜索，都是给自己的埋雷，该节制的其他工具一样都不能少。
给大家推举数据剖析师都在用的FineBI工具：

轻松构建出你的数据图表思维逻辑，让你拥有独到的洞察性数据见地，进而达到有效沟通或者数据申报请示的目的。

你可以把它视作为可视化工具，由于它里面自带几十种常用图表，以及动态效果；你也可以把它作为报表工具，由于它能接入各种OA、ERP、CRM等系统数据，不写代码不写SQL就能批量化做报表。
你还可以把它看作数据剖析工具，其内置等常见的数据剖析模型、以及各式图表，可以借助FineBI做一些探索性的剖析。

本文系作者个人观点，不代表本站立场，转载请注明出处！

剖析数据

别担心我替你深度测试过了ChatGPT根本取代不了数据分析师！_数据_相干

热门内容

随机文章

推荐内容

最新内容

TAGS标签

别担心我替你深度测试过了ChatGPT根本取代不了数据分析师！_数据_相干

相关推荐

兰考大数据回访数字赋能乡村振兴的兰考方法

共享农场大数据引领农业现代化新篇章

全方位介绍资料备份,守卫你的数字资产

内存卡应用攻略,存储与传输的双重利器

写卡器,便捷高效的数据存储与传输利器_全面介绍其使用方法及优势

栏目热门

热门内容

随机文章

推荐内容

最新内容

TAGS标签