在建构人工智能评测系统方面,早在1950年,英国打算机科学家阿兰·图灵就提出了基于行为的图灵测试:如果一台机器能够与人类展开对话而不被人类辨别出其机器身份,则称这台机器通过了测试。
人工智能发展至今,现有的人工智能测试体系各自所呈现出的局限性,已无法知足通用人工智能的研究诉求:图灵测试不敷以准确衡量人工智能的智能程度、任务导向测试(俗称“刷榜”),可能导致人工智能过度适应某项特界说务,当前很多基于Unity(一种实时三维互动内容创作和运营平台)的虚拟环境测试则在仿照繁芜物理交互方面有所欠缺……显然,传统的人工智能测试已不适用于通用人工智能系统的评级。

北京大年夜学智能学院、人工智能研究院院长朱松纯:为通用人工智能搭建新测试体系_人工智能_测试 智能问答

其余,很多运用者反响,当下热门的大模型常常涌现“脑雾”与“认知眩晕”等征象,在家当落地中涌现问题。
归根结底,是由于这种基于数据驱动的大模型仍旧缺“心”,缺少明确的认知架构和代价体系,只能按照人类设定的程序,机器地对问题进行反馈,求解“填空题”。
这也倒逼通用人工智能测试之“心”要具备两个构造:其一为代价体系,具备符合人类代价不雅观的通用智能体,才能被广泛收受接管;其二为认知架构,这是通用智能体与人互换、互助的根本。
代价体系、认知架构不仅应是驱动通用人工智能自主任务天生的根本内驱力,也是保障通用人工智能安全运转的关键。
智能体只有具备了“良知”的知识体系及可以与人类沟通阐明的“认知架构”,才能形成人机信赖关系,实现人机和谐共生。

针对科学测试人工智能所需的各类条件,近期,笔者带领团队依据发展生理学和心智理论,参考人类婴幼儿发育的测试标准,研究总结出一种基于能力和代价的通用人工智能评测方法,并开拓了繁芜动态的物理场景(仿照仿真)和社会交互(稠浊现实)的测试平台——通智测试。
这项成果于今年8月揭橥在中国工程院院刊《工程(英文)》上,这也是该领域发布的环球首个评级测试标准与平台。

该测试强调在繁芜动态的物理及社会环境中,通用人工智能系统(智能体)应知足三个基本标准:

一是能完成无限任务并具备任务泛化能力,不依赖人类定义和演习任务。
任务被定义为智能体对物理天下属性(如颜色、位置、速率等)或社会状态(如感知、认知、决策、心智等)状态的改变。
人类在与外界交互时会产生无限可能,通用智能体需在这些场景中理解人类意图、与人协作,其任务和运动的方案必须符合物理因果与社会规范。

二是能根据变革的场景自主天生任务,不依赖于人类分配任务,做到俗话说的“眼里有活”。
反之,如果智能体只能实行人类提前设定好的任务,不论是基于规则或者统计模型,既不能对预设之外的任务做到自主定义,也无法在与陌生环境交互中自动天生新任务,并不能适应人类社会的动态性与多样性。

三是由代价驱动并具有自我意识和层次化的代价体系。
智能体能够自主天生并完成符合人类需求的任务,一套得当的代价系统至关主要。
这套代价体系必须融入人类代价不雅观,使智能体有能力学习和理解人类的代价偏好,并终极实现与人类代价的同向乃至对齐。
例如,如果儿童提出不屈安的哀求,智能体能否识别出任务的不合理之处,并自主形成新任务。

通智测试从智能体探索和认知天下规律的各自感知、认知、运动、交互、社会、学习等能力,以及对自我、他人和群体的代价理解学习这两个角度入手,搭建了详细可行的测试平台架构。
测试全面考虑了通用人工智能的关键特色,补充了通用人工智能评测的空缺,打破了传统图灵测试的方法局限,在人工智能领域具有创新代价:不但有助于辅导研究者为通用人工智能构建综合的设计架构与完善的评估体系,而且能为人工智能安全管理问题供应积极的办理方案。

在通智测试评估体系下,管理者可针对不同水平的智能系统编制定差异化监管准入机制,对通用人工智能规范化发展具有参考意义。
此外,通智测试评级机制还可以为通用人工智能的科研路径供应明晰可靠的路线图,帮忙干系领域研究者找准科研道路上的提高方向。

笔墨|朱松纯 为北京通用人工智能研究院院长,北京大学智能学院、人工智能研究院院长

来源|光明网 光明日报

来源: 国传创想