人工智能自然措辞处理有了新打破!两篇论文来自广州_分词_模子
影象神经网络破解NLP瓶颈
分词及词性标注是中文自然措辞处理的基本任务,尤其在工业场景对分词有非常直接的诉求。
句法标注本身须要大量的韶光和人力本钱
中文措辞因其分外性,在分词时面临着两个紧张难点。一是歧义问题,由于中文存在大量歧义,一样平常的分词工具在切分句子时可能会出错。例如,“部分居民生活水平”,其精确的切分应为“部分/居民/生活/水平”,但存在“分居”“民生”等歧义词。“他从小学电脑技能”,精确的分词是:他/从小/学/电脑技能,但也存在“小学”这种歧义词。
二是未登录词问题。未登录词指的是不在词表,或者是模型在演习的过程中没有遇见过的词。例如经济、医疗、科技等科学领域的专业术语或者社交媒体上的新词,或者是人名。这类问题在跨领域分词任务中尤其明显。
对此,在论文提出了基于键—值影象神经网络的中文分词模型。举例来说,在“部分居民生活水平”这句话中,到底有多少可能成为词的组块?单字可成词,如“民”;每两个字的组合可能成词,如“居民”;乃至四个字的组合也可能成词,例如“居民生活”。
把这些可能成词的组合全部找到往后,加入到该分词模型中。通过神经网络,学习哪些词对付末了完全表达句意的帮助更大,进而分配不同的权重。像“部分”“居民”“生活”“水平”这些词都会被突出,但“分居”“民生”这些词就会被降权处理,从而预测出精确的结果。
可用于广告投放与翻译等场景
那么,新的方法将有助于办理哪些问题呢?创新工场大湾区人工智能研究院实行院长宋彦见告南方+,广告投放与内容匹配是一个非常范例的运用前景。
“运用中会面临一个寻衅,当我们的模型演习是在某一个领域,而须要把这个模型用到其他领域或者须要事先准备一些关键词和干系知识的领域,比方说在***领域的模型,如果碰到一个体育领域的广告文本,或者是服装领域的广告文本,那么个中很多词会没办法精确切分出来。”宋彦说。
此时,利用新的模型时,在新领域进行广告内容推举,新领域的知识和事先准备的关键词等,加入到模型中,从而把目标文本中一些比较有效的关键词,通过更好的分词结果呈现出来,利用户在搜索时,得到的广告内容与搜索结果相匹配。
此外,新的模型运用在翻译软件时,更好的分词结果每每能够在更大的词汇层面带来更好的语义信息,也将对翻译任务有更好的帮助。
【】郜小平
【作者】 郜小平
【来源】 南方报业传媒集团南方+客户端
本文系作者个人观点,不代表本站立场,转载请注明出处!