6000字长文丨微信心书中4个结合AI能力提升体验的案例分析_用户_才能
AI很火,大模型很火,但是海内没有任何一家AI公司赢利,文心一言从上线到现在听说营收不超过50万美元。
各家都在想着怎么利用AI能力造出新产品,但是在移动互联网时期用户的需求已经被挖掘的差不多了,现在鲜少能有令用户wow一声的产品涌现。
作者以为现在更该当做的是:利用AI这种新能力。以体验更好的办法办理用户的旧需求。
那么在不同的细分场景中,AI能力是如何对用户的旧需求进行体验重造的呢?下文就以微信心书为例,来进行详细的剖析。
微信心书APP前几天上线了AI问书干系的功能,作者利用下来觉得很不错。实在微信心书之前已经上线了不少AI干系的能力,有AI大纲、AI听书、还有AI翻译。
下面我们就一起从这四个详细的功能来看一下,微信心书与AI能力领悟之后,在阅读这个细分场景下是如何提升用户体验的?
一、AI问书
首先来看最新上线的【AI问书】
AI问书实在便是一个搜索功能。用户在阅读的过程中,如果碰着了不懂的观点,就可以将对应的笔墨选中,然后点击AI搜索,就可以涌现对这个词的搜索结果。如下图:
在我读ChatGPT技能事理的一本书时,碰着不懂的链式法则观点就用到了AI搜索功能,可以看到在第二页给出了菲茨详细的阐明,而且天生速率在10秒之内。
除此之外,还会根据用户的问题判断用户可能想问的其他问题,帮用户列出来,这一点也十分主要,由于当面对一个新领域的知识时,用户非常有可能处于不知道自己须要学习什么的状态。
如果只是这样的话,那这也只是一个搜索功能,微信心书的体验精良之处还可以分为两个方面来讲:
第一方面是:搜索的出发点和终点都发生在同一款产品的同一个页面之中。
阅读本身便是一种非常须要沉浸的行为,如果像以前那样,我们碰着了一个不懂的新观点,然后跑得手机浏览器上去搜索,那会产生两个问题,第一个问题是发生了不同手机运用之间的切换,这会导致用户沉浸式阅读的行为被中断。
另一个问题是在浏览器中进行搜索时非常有可能在不同网站之间进行切换来比拟这个观点的含义,才能够比较准确的判断出在自己的阅读场景中什么样的阐明是符合语境的。
前者对付用户利用时长显然存在不利的影响,后者也提升了用户离开微信心书这款产品的时长,并且并且全体过程体验也很差。
而在微信心书上线了AI搜索的能力之后,我们可以直接在某本书某段笔墨上进行选择,然后结果就会直接在当前页面用一个浮窗的形式显示,并可以结合高下文来判断用户此时选择的这个词语的最佳用含义是什么。这样就可以给出用户一个最须要的,最得当的结果。
有些词语可能没有精确之分,但是一定有合不得当语境的差异。举个例子,如果我在搜索引擎中搜索的是一个【苹果】的词语,那么结果到底该当显示出来红富士苹果还是苹果手机?
这便是没有结合高下文进行搜索时,搜索引擎无法做出最精确判断的例子。作者本人就碰着过多次想在拼多多买点水果,结果搜索结果页列出来了一堆手机的情形。
第二方面是搜索结果的准确度、易理解程度的问题。
我们都知道,在通用大模型产品刚刚上线不久的时候,我们与ChatGPT这类产品对话时,常常会碰着胡说八道的情形。
虽然现在已经好很多了,但是很多用户包括作者自己,有时候依然会疑惑AI给出的答案是否是可信的,以是现在很多AI搜索产品在给出答案的时候都会将答案的来源列出来来增加回答的可信度(另一方面意义是为了方便用户去原文链接中查找更多信息)
刚刚作者说了准确度,易理解程度这两个维度的体验。首先来说准确度。由于微信心书的搜索结果基本是从全体产品中不可计数的书本中进行查找的,以是对付观点的准确的基本是有保障的。
虽然作者也是做自媒体,但是不得不承认,很多情形下已经出版的书本中对一些观点名词的阐明是更为准确、校正更加严格的。
再来说丰富度(或者叫构造化),从上面的截图中,大家也可以看到,当我搜索链式法则这个词语的时候,全体搜索结果给我列出了它的定义、运用、理解等三个部分的内容。正是由于从多方面,多角度给出的信息,帮助了用户更轻松的去理解搜索词的含义,有的时候他乃至还会给你举个例子来帮助用户理解。
除了在书本内容页面可以进行AI搜索之外,在书本商城的搜索框中同样可以进行AI搜索。我们假设一个场景:我想看余华最新出版的作品,但是我又忘了这本书叫什么名字,于是我在搜索框中输入了笔墨【余华最新出版的书本】。
搜索结果虽然给出了我很准确的回答,,但是却并没有直接给我打开这本书的入口,而我们直接搜索第七天这个书名时,实在能够创造这本书已经在微信心书app中上架了。
以是我们能够推测,在这里进行搜索时,实在还是根据书本内容进行的,
在前面的剖析中,我们提到了微信心书结合详细的产品利用场景,为AI能力做了很细致的领悟。
但是这里就没有考虑利用场景,或者说没有对用户的意图做出进一步的判断。(意图识别将是很多AI产品的核心能力,这方面的剖析将会不才一篇长文中进行详细阐明)
作者以为在一个阅读产品中输入某某的作品,那这个时候用户的意图该当是非常明确的,便是想找到这本书去阅读。这里没有做出更便捷的设计确实有些遗憾。
不过也可以理解,毕竟这个功能叫做AI问书,而不是AI搜索。
当然从整体上来说,AI问书功能还是一个详细场景与AI能力结合之后,对用户体验提升非常大的案例。
接下来我们连续来聊聊AI大纲、AI听书、AI翻译。
二、AI听书
听书功能实在是一个涌现了非常多年的功能,那么为什么微信心书这里一定要把这个功能叫做AI听书呢?
大家还记不记得刚开始涌现笔墨转语音功能的时候,那些笔墨的发音都是什么样的?大略来说便是一个字是一个字的发音,没有词语的发音,语气词和儿化音的发音也都特殊生硬。
可以想象一下愉快麻花的小品中,这位饰演机器人的妹子的发音。
后来随着技能的进步,笔墨转成的语音逐步变得更加流畅,更加有感情了,在这个过程中实在便是AI能力的表示,在不同的词语中,哪些词哪些字该当重读,哪个字该当快读,哪个字该当慢读,以及、音色、音量等等,更加繁芜的算法变得更加靠近于人的声音了。乃至停顿、笑声也都有被比较准确的仿照出来。
如果大家曾经用过出发点读书这款产品的话,也能创造在听书时选择【说书师长西席】选项相对付其他选项明显更加靠近于人朗读笔墨的觉得。
语音转笔墨能力是AI能力非常主要的一部分,在多模态交互中,不同模态信息之间的转换是工程师们的主要研究课题。
如果大家感兴趣,可以随便找一款比较山寨的阅读产品,试一试里面的听书功能的觉得和微信心书这个AI听书的觉得有多大的差距。
AI能力为产品带来的可能不是一个全新的用户没有见过的能力,而更多的会发生在对已有功能的体验升级上。可能是更舒适,可能是更高效。以是作者以为AI与用户体验之间的领悟这方面的研究是非常有潜力的。
还是那句话:用新能力,为旧需求,带来新体验,卖更多钱
如果我们从技能角度来解读一下AI听书干系能力的话,实在也有很多值得讲的点。这个功能紧张集成了自然措辞处理(NLP)、语音合成(TTS,Text-to-Speech)等人工智能技能的创新运用。以下是该功能的一些关键技能剖析:
在听书功能启动时,系统首先须要解析电子书的文本内容。这一过程包括识别文档构造、章节划分、以及笔墨内容的准确提取。这一步骤对付确保流畅和准确的听书体验至关主要。文本被解析后,通过语音合成技能将文本转换整天然人声。TTS技能涉及到文本分析、韵律建模、语音合成引擎等多个子领域。高质量的TTS能够天生靠近真人的声音,包括语调、停顿、重音等,以增强听书的沉浸感和理解度。微信心书可能采取了前辈的深度学习模型,如WaveNet或Tacotron系列,这些模型能够天生更加自然流畅的语音。用户可以根据自己的偏好调度朗读的语速、音色(如果运用供应多种声音选项的话)等参数。这背后的技能支持可能包括对预演习的TTS模型进行微调,或者利用算法动态调度音频输出参数,以知足用户的个性化需求。虽然紧张功能是听书,但结合“AI问书”功能,微信心书还可能具备一定的问答能力,能够在用户有疑问时供应即时阐明。这哀求系统具备一定的自然措辞理解和知识图谱技能,能精准定位到用户提出问题的干系文本,并给出合理解答。听书过程中,微信心书还会同步用户的阅读进度,支持书签功能,使得用户在不同设备间切换时能无缝连续听书。这须要高效的云做事支持,以及良好的数据同步机制。可以看到,在用户视角下,一个比较大略的功能,但是个中的技能过程还是非常繁芜的。以是,当AI能力与各种运用传统的核心利用场景相结合时,如果想提升用户体验还还是须要更加系统性的思考。
三、AI大纲
AI大纲最主要的意义是增强了用户在索引、影象和阅读灵巧性等方面的能力。
利用AI技能对书本内容进行剖析和提炼,形成构造化的大纲,读者就能在短韶光内节制全书的主旨和框架。
这不仅可以节省读者的韶光,还建议更好地理解和影象内容。用户还可以通过AI大纲定位到自己感兴趣的部分,进行深入阅读,或是选择阅读,以此来优化个人的学习或休闲阅读策略。
尤其在现在这种碎片化信息充斥着视野的环境下,用户们阅读长文章的耐心(能力)实在已经比较低了。而书本正好是更长的文章,如果没有信息检索能力帮助用户找到须要阅读的重点,那阅读体验将会很差。乃至没阅读完就放弃了。
在阅读内容详确、信息量大的书本时,用户每每面临信息过载的问题,难以快速把握全书要点。
AI大纲可以帮助用户在短韶光内节制书本核心框架和各章节重点,提高了阅读效率和信息筛选能力。
对付知识型书本,读者常日须要深入理解并记住关键观点。AI大纲通过突出显示每个部分的紧张论点和结论,赞助读者构建知识体系,加深理解和影象,避免因遗漏主要信息而影响对整体内容的理解。
用户在完成阅读后,想要复习或回顾特定章节时,AI大纲也供应了一个方便快捷的路子。用户可以直接通过大纲找到感兴趣或须要复习的部分,无需再次浏览全文,节省了韶光。
对付韶光有限或偏好跳跃式阅读的用户,AI大纲许可他们根据个人兴趣或需求选择阅读顺序。用户可以直接跳转到自己最关心的章节进行深度阅读,增加了阅读的灵巧性和个性化。
以上是AI大纲在阅读前、阅读中和阅读后的一些意义,而对付一些分外角色例如学生、研究职员等须要大量阅读和整理资料的群体,AI大纲功能相称于一个自动化的总结和条记工具,帮助他们快速归纳书本内容,为撰写论文、报告或做研究供应了便利。
AI大纲的技能事理流程图大致如下:
四、AI翻译
由于这个功能的意义相对大略,以是放到末了,AI翻译在跨措辞阅读难题、即时理解、专业术语理解等方面都能为用户办理极大痛点。
在阅读外文书本或碰着不懂的外语词汇时,AI翻译功能可以直接供应翻译,帮助用户战胜措辞障碍,从更多来源获取信息。也无需切换运用或查阅纸质词典,AI翻译的即时性让用户在阅读时能迅速理解难点,保持阅读思路的连贯性沉浸性。
同时对付专业术语理解:针对专业书本或领域特定词汇,AI翻译的上风也比较大,要知道很多外文包括英文并非想汉语一样,是有很多单字来组词知足一些专业术语和新词语的需求,而是涌现一个新的观点就须要一个新的单词来进行表示。
例如,“打算机”(computer)这个词是由“打算”(to calculate)和“机”(machine)组合而成。这样的方法使得汉语能够快速天生新词,而不须要完备创造新的字符。
以英文为例,一个人的博学程度险些可以用他节制的单词数量来打算,以前作者看到一篇新闻便是以埃隆·马斯克节制大量工程学、航天技能、人工智能和商业等领域的专业术语而表示其能力。
对付全体产品而言,便捷的措辞转换做事,还可以极大地拓宽了不同母语用户的用户群体,这也是很主要的一点。
作者认为AI技能将连续以多种办法深刻改变用户体验,从个性化、交互性、效率、可达性、情境感知、到创造性和便捷性等多个维度全面提升。以下是一些详细的改变办法:
个性化体验:AI通过剖析用户行为、偏好和历史数据,供应个性化推举,如个性化内容、产品、做事或广告,利用户体验更加贴合个人需求,增加用户粘性。例如,电商平台的个性化商品推举,音乐和视频流媒体的定制化播放列表。智能交互:自然措辞处理和语音识别技能让AI能理解并响运用户的口头指令,供应语音交互,如虚拟助手、AI客服,减少用户操作步骤,提升便捷性和友好性。同时,AI还能通过表情识别和感情剖析,提升交互的情绪智能。自动化与效率:AI自动化处理重复任务,如信息择要、文档整理、数据剖析,开释用户韶光,使他们专注于更有代价的活动。AI还加速相应韶光,如即时翻译、搜索结果,提升效率。情境感知:AI能根据用户所处的情境(位置、韶光、设备、历史行为)智能调度做事,如智能家居根据作息自动调节灯光和温度,旅行运用根据景象和交通状况推举办程。创造性赞助:AI天生式技能,如文本、图像、音乐天生,为创作者供应灵感和赞助,加快创作过程,同时个性化内容创作,提升用户参与度和娱乐体验。无障碍提升:AI助力实现无障碍设计,如自动字幕、语音转文本,帮助视障、听障人士,使技能惠及更广泛人群,推动原谅性设计。教诲与知识获取:AI个性化学习平台,通过智能适应性学习路径和反馈,供应定制化教诲资源,使学习更有效,同时AI赞助答疑,如“AI问书”,即时解答迷惑。康健:AI在康健管理、生理康健支持、疾病预防和远程医疗方面发挥浸染,通过监测、预警、剖析数据,供应个性化建议,改进康健掩护体验。金融与做事:AI在金融领域的运用,如风险管理、敲诈检测、智能投顾,提升安全性同时个性化金融做事,简化流程,为用户供应更快捷、安全的金融做事体验。AI技能通过深度融入产品和做事的各个层面,不仅仅是供应定制化和即时的办理方案,还在创造新的交互办法,目前比较确定的便是未来的智能硬件产品将会以多模态交互的形式与用户进行互换,而不是本日的以触屏为主。
以最新发布的ChatGPT-4o为例来讲讲多模态交互的意义大概如下:
如果仅仅把多模态交互能力理解成了我们可以不仅仅利用笔墨和GPT互换了,这么理解实在太鄙视多模态交互能力了。
要知道,人类通过笔墨表达和声音表达,纵然是完备同样的文本。所包含的信息也有很大的差别。笔墨只是静态的信息,而声音包含更多维度的信息。例如语音、语调、音量、语速、停顿、重音等等。
同样是【你好】,笔墨只能表达1种含义,而声音可能能表达4-6种。对付程序来说,多模态交互意味着从更多来源得到信息(指视、听、文、环境等来源)。也意味着得到更多信息(例如刚刚所说的声音维度的语音、语调、音量、语速、停顿、重音)。
这仅仅是从声音一种模态中可以扩展出的新信息,而多模态包括视觉、语音、图像、文本、触觉等等很多方面的信息通道。
从多来源得到信息并得到更多信息,GPT就可以缩短推理、判断等过程,更快速的给与用户回答。这就像是用户自动的把提问描述的更详细了,把自己的哀求说的更清楚了,如此一来GPT给与反馈的速率和质量自然会有对应的提升。(当然同样也有模型方面带来的提升)
除了声音之外,GPT-4o的多模态交互能力还包括视觉理解能力,例如能识别图像中的人脸,剖析性别、年事、表情等信息。这同样是我们刚刚所说的从更多来源得到信息以及得到更多信息。
以上是多模态交互能力中,人向GPT输入过程中的意义,那么对付人机交互的另一部分:GPT向人输出的阶段,同样意义非凡。
GPT-4o可以根据须要以最得当的模态进行回应,在之前GPT只能以笔墨进行回答,但之后则可以是笔墨、声音、图像。声音模态的意义是支持更多互换场景以及对无障碍交互的原谅。图像的意义就不用多说了,无论是取代了命令行的图形化界面,还是晋升答辩时准备的PPT,都能表示图像相对付笔墨的上风。
这里轻微展开了一点儿多模态交互的内容。如果想要完备解释多模态交互的全体体系可能须要几万字,后面有韶光再逐步更新吧。
专栏作家
杜昭,微信公众号:AI与用户体验,大家都是产品经理专栏作者,实战派设计师,目前在某手机公司卖力手机OS交互设计,所卖力产品覆盖用户数亿,紧张研究AI与人机交互设计的领悟及人因学对用户体验的影响。
本文原创发布于大家都是产品经理,未经容许,禁止转载。
题图来自 Unsplash,基于 CC0 协议。
该文不雅观点仅代表作者本人,大家都是产品经理平台仅供应信息存储空间做事。
本文系作者个人观点,不代表本站立场,转载请注明出处!