面对大模型企业对高质量数据集的急迫需求,北京市充分发挥数据资源丰富、人工智能发展领先的上风,开展了数据根本制度先行区等有益探索。

面向高质量数据建机制搭平台北京人工智能模型语估中间正式上线!_数据_模子 智能问答

近期,在国家发展改革委等部门的支持下,北京市发展改革委与公民网、高档教诲出版社、国家图书馆、北京广播电视台、海淀区融媒体中央等多家数据单位密切对接、深化互助,通过央地联合、政企互助等办法,加快推动人工智能模型语估中心培植,并于4月20日正式上线数据运营平台,首批约1100TB高质量数据集即将向大模型企业开放,为大模型家当供应更加充足的数据动力。

数据如何赋能大模型家当发展?和发改君一起来理解下吧~

以平台为支撑,实现数据聚合管理

数据运营平台包括“开源数据+共享数据+高代价数据”三个子平台,能够支持多种数据汇聚和利用形式,将形成国家级数据汇聚和运营管理能力,为大模型家当发展供应坚实的数据支撑。

高质量数据集呈三大显著特色

发改君理解到,一批高质量数据集也正式在北京人工智能模型语估中心上线。
这批高质量数据集具有以下三大特色——

威信准确。
从源头上担保信息威信准确,避免大模型学到缺点的知识、天生缺点的内容。

丰富多元。
能够为大模型企业供应亟需的文本数据集以及图片、音频***等多模态数据集。

知识含量高。
涉及***传播、医药卫生、当代农业、教诲传授教化等浩瀚专业领域。

下一步,北京市发展改革委将对标国际前辈,做事国家计策,不断优化事情机制,拓展数据互助的广度和深度,推动更多高质量数据汇聚,并在代价不雅观和技能层面确保数据安全,为北京大模型家当引领发展供应更丰富、更高质量的数据支撑,加快培植具有环球影响力的人工智能创新高地。