“小张,快过来,业务来了!

小张公司比来收到很多反馈信息老板叫用人工智能分析一下_文本_就能 AI快讯

“王哥,啥业务呀?”

“最近公司业务太好了,收到很多反馈信息,大多数都是好的,但也有一些负面信息,领导叫我们剖析一下。

“剖析什么呢?”

“领导要给老板做一个申报请示,把这些反馈信息按照正面,负面,中立进行分类,分别统计一个数量,这个不难吧!

“这个该当算是人工智能吧,我根本就没研究过,王哥这是要我现学现卖吗?这也太难了吧!

“嗯,确实,很少有问题连你这个技能高手说难的,看来真的不大略呀!

“王哥洗我脑壳了,我是真没研究过,要不您还是推掉吧,我怕到时候完不造诣瓜起了!

“这个任务领导很重视,再加上是老板嘱咐下来的,领导也知道我们公司就你技能最厉害,不好推呀!

“那到时候弄不出来别怪我呀,还有我须要韶光。

“好的,我只管即便给你争取韶光,初步就给你一周韶光吧!

“这...”,小张面露难色,一时有点语塞。

王哥安慰道“没事,有事我照着,研究不出来算我的,我相信你一定行!

“好..吧..”

三天之后,小张愉快地对王哥说:

“王哥成了…”

“什么王哥成了,你不是被逼疯了吧!

“不是,是反馈剖析的任务已经完成了。

“你不是说你没研究过吗,你小子隐蔽得挺深呀!

“不是,真没研究过,虽然弄出来了,但我这几天都没睡好觉,梦里都在想如何办理这个问题,这才勉强成了。

“看你这样子,眼睛跟熊猫一样,我相信你了,真的是难为你了,我一定要给领导说,让他给老板说道说道,这样的人才不能给埋没了呀!

“没事,拿人钱财,***嘛,份内之事罢了。

“好一个拿人钱财,还是先说说你的方案吧,我挺好奇,你是如何在这么短的韶光内做出来的。

“好,我就大略先容一下:”

“首先,一段文本是由很多个词组成的,那么这些词就代表了这段文本。
我们先要对所有文本进行分词,这里我用到了一个叫做结巴分词的东西。

“分词后,要打算每个词的逆文本词频,英文名叫TF-IDF。

“这个TF-IDF是就代表了对应词的含义。

“小张,打断一下,为什么你说这个什么TF-IDF能代表词的含义呢?”

“王哥,你看过谍战剧吧,虽然电报加了密,还是被破解了,由于虽然笔墨都张冠李戴了,但每个字涌现的频率不会变呀,通过涌现频率,我们就能还原出原始信息了。

“哦,原来是这样,那你连续讲。

“先打算TF,TF=某词在文本中涌现的次数/文本中所有词的总数,简而言之,词在当前文本涌现的比重。

“在打算IDF,IDF=log(总文档数/含有某词的文档数)。

“TF-IDF=TF×IDF,这样打算出来的TF-IDF能表示出某个词的主要性,而所有词汇合成的向量就能代表这段文本。

“由于,TF-IDF是一个浮点数,全体文本便是一个浮点数凑集,一样平常叫它向量,有了向量我们就能把它输入到SVM中去演习,演习完成后,我就能用它自动标记反馈的分类了。

“不过在此之前,我还碰着了两个困难:”“一是,弄演习预见,我们要让模型干事,还须要先教它,这个太费事了,还要一个一个看懂文本的意思。

“呃,没明白呢,你是手工分类是么,这大几百万反馈文本,不是吧,你这高技能人才可不能干这种事呀?”

“王哥,不是这个意思,我有那么笨吗,不是每一条都教,只教一部分就行了。

“原来如此,那另一个困难是啥?”

“由于我利用的是SVM模型嘛,它哀求每条演习输入的向量维度必须同等,但是每条反馈文本的长度又不一致。

“我想了一个晚上,终于想到可以提取文档中的TOP N,便是最主要的N个单词来代表这条反馈文本。

“经由演习后,效果非常好,我大概看了一下,险些都给准确归类了。

“小张呀,你太厉害了,都不知道怎么形容你好了。

“你放心,好好干,有出息!

“那,王哥,我来日诰日想安歇一下,行吗,实在受不明晰!

“好的,带薪休假,准了!
还给你争取特殊奖金!

本文非技能描述部分为虚构,请勿对号入座