多家出版机构入局人工智能他们摸索出了哪些门道?_模子_数据
从“入局”到“破局”,当人工智能驶入“下半场”,出版机构摸索和总结出了若何的落地履历?出版进化论以韶光进程为脉络,通过采访出版机构分管领导和数字部门卖力人,聚焦出版机构运用人工智能的最新情形,重点关注如何搭建项目团队、匹配目标市场和用户需求,以及若何办理资金来源、担保数据安全和版权合规等关键问题。
“出版+人工智能”
从畅想到实践
据高档教诲出版社信息技能部主任杨京峰先容,早在ChatGPT问世之前,高教社已经开始关注人工智能行业发展,并探索其在出版、教诲行业的运用,例如通过智能审核减少人工审核事情量,通过ASR(语音识别技能)智能天生***字幕,通过NLP(自然措辞处理)提取文本核心内容赞助传授教化等助力业务发展。武汉理工数字传播工程有限公司(以下简称“数传集团”)副总裁、CTO苏洁华表示,数传集团也从2020年起开始布局人工智能领域,并推出了出版行业首个数字人。
2022年底,由美国人工智能研究实验室OpenAI推出的天生式人工智能ChatGPT“横空出世”,通过连接大量的语料库演习出的模型,不仅在和人类的谈天场景里“上知天文、下晓地理”,还能根据哀求撰写和翻译邮件、文案、诗歌、代码等各种文本和天生图像。自此,天生式人工智能(AICG)在环球掀起技能变革浪潮,出版业开始思考如何借助智能技能工具,聚合起高质量内容。
高教社紧跟技能发展,基于深度学习技能的运用,探索基于人工智能赞助、培植融媒体内容审核技能的行业标准。2023年初,高教社正式培植高教社H0大措辞模型,在H0模型根本上通过增量预演习、微调等办法构建H1学科大模型、H1编辑出版大模型,提前布局多模态大模型,同时推动各平台联动,拓展人工智能出版领域场景运用:社内数据中台为大模型技能供应丰富的数据资源,大模型为数据中台供应更加智能、高效的数据剖析和处理能力;各业务平台为大模型供应统一的落地场景,大模型为业务中台供应自动化和智能化能力,供应更加个性化的做事和运用。从语料加工到模型演习、模型测评,再到AI运用平台、运用赋能业务,随后是业务反馈,末了是数据和能力优化,形成了人工智能技能运用闭环。
同期,广东省出版集团数字出版有限公司(以下简称“广东数字出版公司”)成立了大模型专项小组,开始理解市情上各种大模型的能力,以及在教诲出版领域落地的可能性。该公司经研究创造,当时AIGC和教诲领域的结合仍是一片“蓝海”,其深度结合被“提上日程”。
2023年3月,数传集团推出了为出版界做事的人工智能系列产品。个中,专门针对出版领域的AIGC大模型——BooksGPT聚焦图书出版数字化,从出版流程的智能化管理,到书本知识库的构建,再到与读者之间的智能交互,都展现了强大的底层技能支持能力。在此根本上,数传集团又推出了“AI编辑室”,以及全面升级的“RAYS7.0版本”。
以专业技能团队
保障人工智能大模型研发
从设计机器学习工具到开拓人工智能大模型,如何搭建项目团队,团队职员怎么分工,如何办理资金来源,锚定若何的目标市场,这些成了出版机构大模型研提议首要面对的问题。
据理解,目前高教社AI专项技能团队有专职职员40余人,事情内容紧张有三个方向。一是大模型语料处理事情,形成用于大模型演习的预演习数据集、微调数据集和评测数据集。二是大模型研发事情,通过与技能厂商互助,培植H0教诲大措辞模型、H1学科大措辞模型、H1教诲出版大措辞模型和H2场景大措辞模型。三是大模型运用研发事情,结合奇迹部、西席和学生需求,研发人工智能平台。资金来源方面,杨京峰表示,高教社紧张通过自筹的办法办理资金问题,紧张的目标市场为教诲传授教化领域。
数传集团的数据和算法团队共有10余人,据苏洁华先容,他们普遍拥有百度、新浪、搜狗等一线互联网公司的事情经历,学历多为硕士和博士研究生,卖力数据处理、模型演习、模型做事、业务策略等事情。
广东数字出版公司的专项团队由30人组成,成员来自不同专业领域,涵盖技能研发、教诲资源开拓、市场推广等方面。个中技能研发团队卖力大模型的演习和优化,确保技能的前辈性和适用性;教诲资源开拓团队卖力将人工智能技能运用于详细的教诲场景,开拓干系教材和传授教化工具,以及对大模型输出内容进行专业性评估,促进模型研发;市场推广团队卖力产品的市场推广和用户做事,确保产品能够有效地进入目标市场,并得到用户认可。关于项目的资金投入,该公司技能中央总经理刘锦永先容说,办理资金来源问题的办法,除了利用公司自有资金进行投资,也会寻求家当资金的支持。
迄今为止,以广东省中小学师生用户为目标受众的“粤教翔云数字教材运用平台”已覆盖1600万用户,通过逐步运用人工智能技能,提升教诲质量和传授教化效率,为师生供应优质的教诲资源和个性化的学习体验。据悉,下一阶段广东数字出版公司也将面向各出版社的编辑职员,为他们供应数字出版工具及内容制作工具,通过结合人工智能技能,为编辑职员供应选题灵感、提高内容生产效率。
出版机构智能平台
能否“以旧翻新”?
出版机构能否通过“翻新”以往的数据库、智能平台,进而升级人工智能工具或搭建人工智能大模型?
“答案是肯定的,高教社推举通过‘翻新’历史数据库、智能平台的办法,进行工具开拓、模型搭建。”杨京峰认为,大模型如今展现出的强大能力,得益于背后蕴含丰富“人类”知识的海量数据,出版机构在以往的事情中,积累了大量文本、图片、***、音频等内容,这些内容常日以构造化或非构造化数据形态存在数据库中,经由加工处理可以成为用于模型演习的语料。他强调,如果说算力可以推进大模型的迅速发展,语料就能推动大模型的高质量发展,这部分数据是出版机构“传承”下来的聪慧结晶,也形成了出版机构的语料上风。
杨京峰提出,出版机构对旧数据库进行“翻新”,须要特殊关注数据库的能力、库量级和数据内容。第一,随着人工智能技能发展,对数据库能力的需求越来越多样化,个中一项能力便是数据向量化存储。以大模型智能问答为例,检索增强天生技能通过向量检索获取到语义相似度高的信息,并供应给大型措辞模型(LLM),提升其回答的准确性。第二,模型演习对数据质量、数据数量、数据多样性都有较高哀求,以是搭建人工智能大模型须要考虑海量语料数据存储场景,因此对数据库进行“翻新”,使其更好应对大规模数据存储、管理的需求。第三,翻新数据内容,使其更符合大模型培植哀求。包括对旧的数据进行洗濯、加工、去噪,以免滋扰模型演习效果;对数据库中数据进行标注或分类,以便于提取有用特色,为模型供应更准确的输入;对旧数据脱密并进行审核,避免模型演习泄露隐私数据等。
刘锦永也十分认可出版机构在原有根本上作技能升级,他认为“翻新”可以分为三个步骤。首先须要对现有数据库进行全面的洗濯和整理,筛选出真正适宜运用处景的数据,特殊是打消冗余和重复数据,确保数据的高质量和适用性。然后对智能平台进行升级和优化,确保其具备支持大规模数据处理和模型演习的能力,这包括硬件举动步伐的更新以及软件系统的优化,以知足大规模数据处理和打算的需求。末了将洗濯和整理后的数据封装,供给大模型进行演习。通过多轮演习和优化,构建出适用于出版机构垂直领域的高性能专业模型。
“出版机构真正须要的不一定是大模型,而是能够结合业务流并办理自身痛点的大模型运用。”苏洁华则强调,人工智能大模型(技能)实质是为理解决企业自身业务痛点,业务难点在于找到对用户有代价且大模型可以发挥能力实现的“场景”。因此出版机构通过梳理以往数据,重新升级做事,利用大模型改造原有做事等办法来升级系统,不是大略的翻新,而是要做许多跨领域、大模型技能占领和场景适配、算力储备和运维干系事情。
一是数据处理、清理、重构等,得到符合算法模型须要的数据格式和质量。二是确定智能平台和工具须要达到的功能和效果,明确现有数据是否知足哀求,是否要寻求其他的数据支持。三是根据数据演习特有模型和微调大模型,目标是达到各个场景的效果和性能哀求。四是支配模型做事,评估模型的系统效果,确定优化迭代的点。五是不断重复以上步骤,更新模型和数据,持续提升业务效果。
杨京峰也表达了相似意见,他阐明说,所有大模型若短缺终极的落地场景,便无法真正做到业务赋能,以是它一定须要以智能平台或工具等形式为载体,并与业务紧密结合。高教社把这类运用定义为教诲智能体,即能够仿照人类智能行为,具有一定的自主性和学习能力,可以调用信息系统或者学科工具,能够与传授教化环境或学习者交互,能够学习用户偏好,拥有长期影象,为传授教化活动供应做事的实体或者系统。出版机构此前搭建智能平台时,已经积累了大量的业务智能运用处景,这些场景在长期利用中汇聚了用户行为和反馈数据,对这些运用处景和数据进行挖掘和剖析,能够为智能工具的升级供应关键洞察。
如何规避人工智能风险?
出版机构开拓“出版+人工智能”的业务条线,除了要考虑技能、资金、市场需求等要素,“数据安全”“意识形态安全”“私域可控”“版权合规”同样是须要提前谋篇布局、规避风险的关键问题。
自2018年开始,高教社就开始利用中台技能重新架构高教社的业务平台。以云原生为代表的技能中台,以统一资源中央为代表的数据中台和以用户中央为代表的业务中台,在统一安全中央的支撑下,保障高教社几十个业务平台的迭代升级。数据安全和意识形态安全是重点关注的内容,高教社按照线下线上一个标准,具有完善的内容审核机制和流程,培植融媒体内容审查标准,发布人工智能审核平台“智校云雠”,通过智能审核加人工审核结合的办法,不断提升审核能力和效率。出版机构的内容都是版权合规的,只有保障创作者的权柄才能使得优质内容持续产出。
广东数字出版公司在数据安全方面,采取了多层次的数据保护方法,包括数据加密、访问掌握和定期安全审计,确保用户数据在存储和传输过程中的安全性;建立了完善的数据备份和规复机制,以防止数据丢失和透露。意识形态安全方面,通过内容审核机制,对大模型演习时所利用的语料资源进行前置审查,防止大模型吸收到不良的数据资产,确保意识形态的精确勾引;在对大模型进行选型时,优先选取经由国家网信办备案过的大模型,确保安全可靠。私域可控方面,在平台开拓和运营过程中,看重用户隐私保护,遵照“最小必要原则”网络用户数据,并确保用户数据的私域可控;为用户供应数据管理工具,利用户能够自主掌握和管理自己的数据。版权合规方面,在开拓和运用过程中,严格遵守版权法律法规,确保所有利用的素材和内容都有合法授权;建立了版权管理体系,对平台上的内容进行版权审核,防止侵权行为;积极与版权方互助,共同推动数字教诲资源的合法利用和传播。
数传集团结合出版行业特点,在算法设计上,严格掌握数据权限,把控意识形态安全的底线。目前,BooksGPT大模型在把控数据和意识形态安全方面,采纳了以下策略。比如明确奉告大模型对敏感内容干系的需求不做相应,不输出敏感内容,积累敏感词库,用户输入内容时进行判断和过滤,当触发敏感词时进行拦截,对疑似敏感内容走人工通道进行审核,提高AI系统的透明度和可阐明性,建立用户反馈机制,AI系统在自我学习和优化时根据用户反馈和历史数据不断改进等。私域可控方面,数传集团确保系统做到私有化支配,根据客户需求进行个性化支持。版权合规方面,数传集团获取数据和出版资料会得到干系机构授权,以及网络开源的协议支持。此外,鉴于国内外对AIGC天生物的版权尚无明确约定,数传集团会通过协议界定版权归属,确保版权所有权,同时授予客户非独家利用权,保障双方的权柄与利益。
“单打独斗”还是“抱团取暖和”?
面对人工智能等新技能形态,出版机构是选择单打独斗还是抱团取暖和?或者说哪些事情适宜出版机构独立完成,哪些事情适宜与同行协同、与外部力量互助?
杨京峰方向于“抱团取暖和”,他认为,高教社最大的上风是具有高档教诲、职业教诲全学科覆盖的内容和人才,和高校具有紧密关系。特殊是有学科内容方面的高质量数据,因此在数据汇聚、加工、处理、审核把关方面可以发挥出版社上风,而在大模型算法创新、工程实践方面,须要技能公司推动、出版社互助。高教社的人工智能平台也采取中台架构,坚持开放、共享的互助态度。
苏洁华认为,要结合详细事情选择是单独完成或是共创协同。她提出,对付出版业来说,具有本出版单位特色的、核心的,事关版权,以及须要特定职员技能完成的内容,可以独立完成;具有出版共性、须要更多数据、更通用的功能部分,可以选择部分共享、行业协同的办法,同外部技能公司,比如与数传集团的互助加持,以达到更好的通用效果。
刘锦永认为,在面对人工智能等新技能形态时,出版业既须要独立完成部分核心事情,也须要与同行及外部力量互助。充分发挥各自的上风,共同推动行业创新与发展。
他阐明说,对付出版单位来说,核心内容创作和数据管理和安全须要“亲力亲为”。首先,出版机构在内容创作方面具有独特的专业性和上风,尤其是在专业图书和教材出版等领域。这些核心内容的创作和编辑事情应由出版机构独立完成,以确保内容质量和版权保护。其次,涉及用户隐私和数据安全的部分,须要出版机构独立完成,确保数据的安全性和合规性。同时,出版机构可以通过建立完善的数据管理体系,提升数据处理和运用的能力。
在技能研发和平台培植、跨行业资源整合方面,更加适宜出版机构与外部力量协同互助完成。首先,考虑到人工智能技能和大模型的研发须要大量的资源和专业知识,出版机构可以与技能公司、高校科研机构等外部力量互助,共同研发和搭建智能平台,提升技能水平和运用能力。其次,跨行业资源整合:尤其是在教诲、文化等领域,出版机构可通过加强与同行及高下游家当的互助,整合伙源,协力开拓多元化产品和做事,知足不同用户的需求。
◀
案例
▶
高教社人工智能平台
该平台以高档教诲出版社大模型为根本能力,集成了各大厂商中精良的商业AI能力和行业内开源AI能力,面向业务供应网页版AI运用能力、Paas(云打算)接口运用能力,核心共包含五大系统。
一是智能检索系统,为高教社图书馆内海量的图书内容供应智能检索能力(关键词检索、语义检索、多模态检索),包含图书属性、文本、图片、链接、二维码检索,同时为了确保数据安全,进行了严格权限掌握。平台极大提升出版资源的检索、审查效率,多次为社内重点内容排查供应帮助。
二是智能审核系统,供应内容智能审核能力,例如 AI涉政、涉黄、敏动听物识别等,包括文本审核、文件审核、"大众年夜众号审核、图片审核、音频审核、***审核模块,在“三审三校”环节提升社内编辑的事情效率。
三是智能体系统,以智能对话为紧张交互形式,在RAG(检索增强天生)技能加持下,通过大模型精良的智能对话能力,实现智能问答交互。个中最常用的制度问答是基于高教社内部的制度性文件搭建而成,可以快速解答关于管理制度方面的问题,提高信息通报效率,提升数字化管理水平,得到了社内员工的同等好评。智能体系统还支持用户根据自身须要个性化创建智能体,并将自己的创意共享给组织内其他用户,每位老师都可以是AI运用的创造者。
四是智能创作系统,云端一体化协作创作平台,支持编辑老师们协同创作,预期通过AI能力实现续写、缩写、改写、润色、智能排版、一键配图等功能,引发创作灵感,提升创作效率。
五是智能做事中台,对各AI运用抽象出通用的接谈锋能, 通过AI Paas平台供应统一接口对接其他各业务系统,发挥技能赋能浸染。例如通用大模型对话能力、通用多模态检索能力、通用审核能力等,目前已做事云创系统、数字教材云平台、聪慧职教平台、网培中央等多个平台。目前通用大模型接口调用量已超过13万次。
粤教翔云数字教材运用平台
在调研阶段,广东省出版集团数字出版有限公司对多种开源和闭源的大模型进行了深入探索和实践,包括通义千问、智谱清言、百川大模型,以及闭源的ChatGPT、文心一言等。
研究后确定了两大方向进行运用探索。一是面向内部赋能目标,包括研发效能提升、问题办理;内容制作方面的文本、图片、音频、***制作,AI出题解题、交互式H5制作等;内部利用的多模态知识库,提升知识检索能力。二是面向外部产品目标,打造两大助手。首先是学科AI助手,包含AI备课、AI授课、AI伴学、AI学情、AI评测、AI教研等一系列运用,结合粤教翔云数字教材运用平台的海量用户,赋能广东省教诲数字化的目标。三是教诲出版AI助手,包含AI标引、AI助创等能力,结合公司制作的数字教材教辅生产制作发行平台,赋能出版社以更方便快捷智能的办法进行数字出版物的制作。
数传集团“AI编辑室”
“AI编辑室”是一个集结了出版流程中各项专业能力的人工智能助理团队。
以内容创作为例,目前AI画师演习了出版行业108种出版风格库,包括:书本封面、绘画插图、拍照插图、设计素材、IP 角色、数字头像、Logo设计等,学习了海量图书封面设计、内页插图设计,可以迅速、低成本地创作和图书干系的各种类型图片,一次可天生16张图片。
赞助设计师高效地设计出都雅、易读、符合规范的封面、插图,赞助进行版式设计和排版,提高设计效率和品质,还可通过对大量设计案例的学习和剖析,利用自然措辞处理和机器学习技能,在设计图书封面和插图之前,理解书本的主题、内容和目标受众,根据用户供应的需求和设计哀求,自动天生符合设计规范和主题的设计方案。
AI画师的利用工具远不但是编辑,还包括美编、设计师、数字编辑等。此外,在选题策划、三审三校、发行营销等出版流程的各个环节中,也都有专业的AI助理。
校 对:马 葵
编 辑:戴佳运
初 审:陈 麟
复 审:张维特
终 审:宋 强
本文系作者个人观点,不代表本站立场,转载请注明出处!