作者: Kaveen Hiniduma, Suren Byna, Jean Luca Bez, Ravi Madduri

2024年6月28日Arxiv人工智能相关论文_模子_摘要 AI简讯

机构: 俄亥俄州立大学 劳伦斯伯克利国家实验室 阿贡国家实验室

择要: “垃圾进,垃圾出”是一句被各个领域的打算机科学家普遍认可的语录,包括人工智能(AI)领域。
由于数据是AI的燃料,基于低质量、带有偏见的数据演习的模型常日效果不佳。
利用AI的打算机科学家在为AI准备数据上投入了大量韶光和精力。
然而,目前并没有用于评估数据对AI的“准备就绪性”的标准方法或框架。
为了供应数据对AI过程准备就绪性的可量化评估,我们定义了AI数据准备就绪性的参数,并引入了AIDRIN(AI数据准备就绪性检讨器)。
AIDRIN是一个框架,涵盖了文献中涉及的广泛准备就绪性维度,有助于定量和定性评估数据的准备就绪性。
AIDRIN利用传统数据质量评估中的度量标准,如完全性、非常值和重复项,用于数据评估。
此外,AIDRIN还利用了特定于评估用于AI的数据的度量标准,如特色主要性、特色干系性、种别不平衡、公正性、隐私性以及符合FAIR(可找性、可访问性、互操作性和可重用性)原则。
AIDRIN供应可视化和报告,以帮助数据科学家进一步调查数据的准备就绪性。
AIDRIN框架增强了机器学习流程的效率,以便就数据对AI运用的准备就绪性做出明智决策。

论文链接: https://arxiv.org/pdf/2406.19256

cs.AI: YZS 模型:基于图卷积网络和 Transformer-Attention 的有机药物溶解度预测模型

原标题: YZS-model: A Predictive Model for Organic Drug Solubility Based on Graph Convolutional Networks and Transformer-Attention

作者: Chenxu Wang, Haowei Ming, Jian He, Yao Lu

机构: 石河子大学 北京大学 新疆大学

择要: 准确预测药物分子的溶解度对付确定其治疗效果和安全性至关主要,影响药物的ADME过程。
传统的溶解度预测技能常日无法捕捉分子构造的繁芜性子,导致预测结果与实际结果之间存在显著偏差。
例如,对付前辈药物类似化合物构造的谈论。
Lusci强调了在具有环构造的分子中捕获关键的环状构造信息的问题。
为了战胜这一问题,我们的研究引入了一种新颖的深度学习框架,结合基于把稳力的Transformer、是非期影象(LSTM)网络和图卷积网络(GCN),旨在提高溶解度预测的精度。
利用包含9,943个化合物的演习集,并在一个抗癌化合物数据集上进行测试,我们的方法实现了0.55的干系系数(R^2)和0.59的均方根偏差(RMSE),优于基准模型的得分,分别为0.52(R^2)和0.61(RMSE)。
主要的是,在额外的独立测试中,我们的模型在RMSE方面明显优于基准模型,分别为1.05和1.28,相对准确度提高了45.9%。
这项研究不仅展示了深度学习在提高溶解度预测准确性方面的巨大潜力,还为未来药物设计和选择供应了新的见地。
持续的努力将致力于优化模型架构,并将其运用扩展到更好地支持药物开拓过程,突显了深度学习在药物创造中的关键浸染。

论文链接: https://arxiv.org/pdf/2406.19136

cs.AI: 人类感知视觉与措辞导航:通过动态人类互动实现从仿照到现实的桥梁

原标题: Human-Aware Vision-and-Language Navigation: Bridging Simulation to Reality with Dynamic Human Interactions

作者: Minghan Li, Heng Li, Zhi-Qi Cheng, Yifei Dong, Yuxuan Zhou, Jun-Yan He, Qi Dai, Teruko Mitamura, Alexander G. Hauptmann

机构: 卡内基梅隆大学 哥伦比亚大学 曼海姆大学 阿里巴巴集团 微软研究

择要: 视觉与措辞导航(VLN)旨在开拓根据人类指令导航的具身智能体。
然而,当前的VLN框架常日依赖静态环境和最佳专家监督,限定了它们在现实天下中的适用性。
为理解决这个问题,我们引入了人类感知的视觉与措辞导航(HA-VLN),通过整合动态人类活动和放宽关键假设来扩展传统的VLN。
我们提出了人类感知3D(HA3D)仿照器,将动态人类活动与Matterport3D数据集相结合,以及人类感知从房间到房间(HA-R2R)数据集,通过人类活动描述扩展R2R。
为理解决HA-VLN的寻衅,我们提出了专家监督的跨模态(VLN-CM)和非专家监督的决策Transformer(VLN-DT)智能体,利用跨模态领悟和多样化演习策略,实现在动态人类环境中的有效导航。
对HA-VLN的全面评估,包括考虑人类活动的指标,以及对其独特寻衅的系统剖析,强调了须要进一步研究以增强HA-VLN智能体在现实天下中的稳健性温柔应性。
终极,这项事情为未来关于具身人工智能和从Sim2Real转移的研究供应了基准和见地,为在人口密集环境中更加真实和适用的VLN系统铺平了道路。

论文链接: https://arxiv.org/pdf/2406.19236

Github: https://github.com/lpercc/ha3d_simulator

cs.AI: 无需对应的非刚性点集配准利用无监督聚类剖析

原标题: Correspondence-Free Non-Rigid Point Set Registration Using Unsupervised Clustering Analysis

作者: Mingyang Zhao, Jingen Jiang, Lei Ma, Shiqing Xin, Gaofeng Meng, Dong-Ming Yan

机构: 中国科学院自动化研究所 山东大学 北京大学 组合智能研究中央 中国科学院自动化研究所 中国科学院大学

择要: 本文提出了一种新颖的受无监督聚类剖析启示的非刚性点集配准方法。
与以往将源点集和目标点集视为独立实体的方法不同,我们开拓了一个整体框架,个中它们被分别制订为聚类中央和聚类成员。
然后,我们采取Tikhonov正则化与\ell_1-勾引的拉普拉斯核,而不是常用的高斯核,以确保平滑且更稳健的位移场。
我们的公式供应了闭式解、理论担保、独立于维度,并且能够处理大变形。
随后,我们引入了一种改进的聚类Nystrom方法,以有效降落Gram矩阵的打算繁芜性和存储本钱至线性水平,同时为低秩近似供应了严格的界线。
我们的方法在各种场景下取得了高精度的结果,并在形状具有显著变形的情形下明显领先竞争对手。
此外,我们展示了我们的方法在寻衅性任务中的多功能性,如形状转移和医学配准。

论文链接: https://arxiv.org/pdf/2406.18817

Github: https://github.com/zikai1/cvpr24_pointsetreg

cs.AI: DEX-TTS:基于扩散的具有韶光可变性的表达性文本转语音,带有风格建模

原标题: DEX-TTS: Diffusion-based EXpressive Text-to-Speech with Style Modeling on Time Variability

作者: Hyun Joon Park, Jin Sob Kim, Wooseok Shin, Sung Won Han

机构: 韩国大学

择要: 利用参考语音进行表达性文本转语音(TTS)已被广泛研究,以合整天然语音,但存在获取良好表达风格和提高模型泛化能力的限定。
在这项研究中,我们提出了基于扩散的表达性TTS(DEX-TTS),这是一种专为基于参考语音合成的声学模型,具有增强的风格表示的模型。
基于通用扩散TTS框架,DEX-TTS包括编码器和适配器,用于处理从参考语音中提取的风格。
关键创新包括将风格区分为韶光不变和韶光变革两类,以实现有效的风格提取,以及设计具有高泛化能力的编码器和适配器。
此外,我们引入了重叠分块和卷积-频率分块嵌入策略,以改进用于TTS的基于DiT的扩散网络。
DEX-TTS在英语多说话人和情绪多说话人数据集的客不雅观和主不雅观评估方面表现出色,而无需依赖预演习策略。
末了,对单说话人数据集上的通用TTS的比较结果验证了我们增强的扩散骨干的有效性。
演示可在此处找到。

论文链接: https://arxiv.org/pdf/2406.19135

cs.AI: 在符合性预测中的长度优化

原标题: Length Optimization in Conformal Prediction

作者: Shayan Kiyani, George Pappas, Hamed Hassani

机构: 空字符串 空字符串 没有名称

择要: 条件有效性和长度效率是符合性预测(CP)的两个关键方面。
实现条件有效性确保对数据子群体进行准确的不愿定性量化,而适当的长度效率确保预测集保持信息丰富且非平凡。
只管在办理这两个问题方面已经付出了重大努力,但在CP文献中缺少一个能调和这两个目标的原则性框架。
在本文中,我们开拓了具有长度优化的符合性预测(CPL)- 一个新颖的框架,它构建具有(靠近)最佳长度的预测集,同时确保在各种协变量转移种别下的条件有效性,包括边际和组条件覆盖的关键情形。
在无限样本情形下,我们供应了强对偶结果,表明CPL实现了条件有效性和长度最优性。
在有限样本情形下,我们展示了CPL构建具有条件有效性的预测集。
我们广泛的实证评估展示了CPL在分类、回归和与文本相关的设置中,相对付最前辈方法在各种真实天下和合成数据集上的卓越预测集大小性能。

论文链接: https://arxiv.org/pdf/2406.18814

cs.AI: 评估 AI 群体公正性:模糊逻辑视角

原标题: Evaluating AI Group Fairness: a Fuzzy Logic Perspective

作者: Emmanouil Krasanakis, Symeon Papadopoulos

机构: 希腊信息技能研究中央

择要: 人工智能系统常日通过评估和减轻群体歧视的方法来办理公正性问题,例如表明存在针对某些性别或种族的偏见。
然而,什么构成群体公正性取决于讯问的人和社会背景,而定义常日会放宽以接管对其设定的统计约束的小偏差。
在这里,我们通过在基本模糊逻辑(BL)的公理系统中表达它们,将群体公正性的定义与高下文和与放松干系的不愿定性分离开来,个中包括像碰着群体成员这样的暗昧理解的谓词。
然后,我们在BL的子类中评估这些定义,比如Product或Lukasiewicz逻辑。
通过选择逻辑子类和反响不愿定的特定高下文信念的谓词的真值,评估产生连续而不是二进制真值。
在内部,它遵照特定逻辑规则来打算定义的真值。
我们展示了常日持有的命题标准化了产生的数学公式,并将逻辑和真值选择转录为普通人可以回答的术语,以便任何人都能回答。
我们还利用我们的框架研究了几种算法公正性的文献定义,通过理性化先前的非概率实践,展示了如何重新阐明它们的公式和参数以适应新的背景。

论文链接: https://arxiv.org/pdf/2406.18939

cs.AI: 利用超振荡衍射神经网络进行超分辨率成像

原标题: Super-resolution imaging using super-oscillatory diffractive neural networks

作者: Hang Chen, Sheng Gao, Zejia Zhao, Zhengyang Duan, Haiou Zhang, Gordon Wetzstein, Xing Lin

机构: 清华大学 斯坦福大学 北京国家信息科学技能研究中央

择要: 光学超振荡技能实现了超越衍射极限的远场超分辨率成像。
然而,现有的用于空间超分辨率成像系统的超振荡透镜仍旧面临性能方面的关键限定,这是由于缺少更前辈的设计方法和有限的设计自由度所致。
在这里,我们提出了一种光学超振荡衍射神经网络,即SODNN,它可以实现超越衍射极限的成像的超分辨率空间分辨率,相较于现有方法具有更优胜的性能。
SODNN通过利用衍射层来实现光学互连,利用成像样本或生物传感器来实现非线性,调制入射光场以在三维空间中产生光学超振荡效应并天生超分辨焦斑。
通过在入射波长为\lambda的条件下优化衍射层,我们在远场间隔超过400\lambda处实现了一个全宽为0.407\lambda的超振荡斑点,且在视场范围内没有旁瓣,具有超过10\lambda的长景深。
此外,SODNN实现了多波长和多焦点斑点阵列,有效避免了色差。
我们的研究事情将引发智能光学仪器的发展,促进成像、传感、感知等运用的发展。

论文链接: https://arxiv.org/pdf/2406.19126

cs.AI: 关于行动和变革的推理

原标题: Reasoning About Action and Change

作者: Florence Dupin de Saint-Cyr (IRIT-ADRIA, UT3), Andreas Herzig (IRIT-LILaC, CNRS), Jérôme Lang (LAMSADE, PSL, IRIT-ADRIA), Pierre Marquis (CRIL)

机构: 保罗·萨巴蒂埃大学 图卢兹 法国 巴黎第戎大学 巴黎 法国 阿图瓦及法国高档教诲学院 朗斯 法国

择要: 这本书的目的是概述人工智能研究的范围,涵盖从根本事情到界面和运用,强调结果和当前问题同等主要。
它的目标读者是硕士生和博士生,同时也对希望理解更多关于人工智能的研究职员和工程师感兴趣。
这本书分为三卷。

论文链接: https://arxiv.org/pdf/2406.18930

cs.AI: 关于AI-机器人中数字孪生系统的隐私攻击调查

原标题: A Survey on Privacy Attacks Against Digital Twin Systems in AI-Robotics

作者: Ivan A. Fernandez, Subash Neupane, Trisha Chakraborty, Shaswata Mitra, Sudip Mittal, Nisha Pillai, Jingdao Chen, Shahram Rahimi

机构: 密西西比州立大学

择要: 工业4.0见证了由人工智能/机器学习(AI/ML)和数字孪生(DT)技能整合推动的繁芜机器人的崛起。
虽然这些技能供应了许多好处,但也引入了潜在的隐私和安全风险。
本文调查了针对由AI和DT模型驱动的机器人的隐私攻击。
除了谈论ML模型的外泄和数据透露,还谈论了从第一事理(例如基于物理的)推导模型的潜在提取。
我们还谈论了涉及DT集成机器人的设计考虑,涉及ML模型演习、负任务的AI和DT保障、数据管理和对这些攻击有效性的道德考虑。
我们主见采取可信的自治方法,强调将机器人、AI和DT技能与健全的道德框架和值得相信的原则相结合,以确保安全可靠的AI机器人系统。

论文链接: https://arxiv.org/pdf/2406.18812

cs.AI: 朝向利用VSA分布式表示学习推理的过程

原标题: Towards Learning Abductive Reasoning using VSA Distributed Representations

作者: Giacomo Camposampiero, Michael Hersche, Aleksandar Terzić, Roger Wattenhofer, Abu Sebastian, Abbas Rahimi

机构: IBM研究-苏黎世 ETH苏黎世

择要: 我们先容了具有高下文感知的归纳规则学习器(ARLC),这是一个基于Learn-VRF办理抽象推理任务的模型。
ARLC具有一种新颖且更广泛适用的归纳推理演习目标,从而在办理Raven的渐进矩阵(RPM)时具有更好的可阐明性和更高的准确性。
ARLC许可同时编程领域知识和学习数据分布下规则。
我们在I-RAVEN数据集上评估了ARLC,在分布内和分布外(未见属性规则对)测试中展示了最前辈的准确性。
ARLC超越了神经符号和连接主义基线,包括大措辞模型,只管参数数量少了几个数量级。
我们展示了ARLC对后编程演习的稳健性,通过逐步从编程知识之上的示例中学习,这仅会提高其性能,而不会导致编程办理方案的灾害性遗忘。
我们验证了ARLC从2x2 RPM星座到未见星座的无缝迁移学习。
我们的代码可以在此https URL找到。

论文链接: https://arxiv.org/pdf/2406.19121

Github: https://github.com/IBM/abductive-rule-learner-with-context-awareness

cs.AI: 所有随机特色表示是等价的

原标题: All Random Features Representations are Equivalent

作者: Luke Sernau, Silvano Bonacina, Rif A. Saurous

机构: 谷歌深度学习(Google DeepMind) 谷歌研究(Google Research)

择要: 随机特色是一种主要技能,可以将正定核重写为无限维点积。
随着韶光的推移,为了追求偏差更低的有限逼近,人们开拓了越来越繁芜的随机特色表示。
我们通过推导出一个最优采样策略来办理这种竞争,结果表明,在这种策略下,所有随机特色表示具有相同的逼近偏差。
这建立了一个跨所有随机特色表示的下界,并表明我们可以自由选择任何表示,只要我们进行最优采样。

论文链接: https://arxiv.org/pdf/2406.18802

cs.AI: 学习帕累托集用于多目标连续机器人掌握

原标题: Learning Pareto Set for Multi-Objective Continuous Robot Control

作者: Tianye Shu, Ke Shang, Cheng Gong, Yang Nan, Hisao Ishibuchi

机构: 南方科技大学 深圳大学 喷鼻香港城市大学

择要: 对付具有多个相互冲突目标的掌握问题,存在一组被称为帕累托集的帕累托最优策略,而不是单一最优策略。
当多目标掌握问题是连续且繁芜的时候,传统的多目标强化学习(MORL)算法会搜索许多帕累托最优深度策略来近似帕累托集,这是非常耗费资源的。
在本文中,我们提出了一种大略且资源高效的MORL算法,它在高维策略参数空间中学习帕累托集的连续表示,利用单个超网络。
学习的超网络可以直接为不同用户偏好天生各种演习良好的策略网络。
我们将我们的方法与两种最前辈的MORL算法在七个多目标连续机器人掌握问题上进行了比较。
实验结果表明,我们的方法在整体性能上表现最佳,并且具有最少的演习参数。
一个有趣的不雅观察是,在高维参数空间中,帕累托集被很好地近似为一条曲线或曲面。
这一不雅观察将为研究职员设计新的MORL算法供应见地。

论文链接: https://arxiv.org/pdf/2406.18924

Github: https://github.com/hisaolabsustc/hyper-morl

cs.AI: 无限宽度模型的有效性:为什么特色学习并不像你想象的那么主要

原标题: Infinite Width Models That Work: Why Feature Learning Doesn't Matter as Much as You Think

作者: Luke Sernau

机构: 谷歌DeepMind

择要: 常见的无限宽度架构,如神经切向核(NTKs),与有限模型比较,历史上表现较弱。
这被归因于缺少特色学习。
我们表明这并非事实。
事实上,我们展示了无限宽度的NTK模型能够通过从其(无限的)特色向量中选择干系子特色来访问比有限模型更丰富的特色。
实际上,我们通过实验证明,纵然在人为禁用特色学习的情形下,NTK也不如传统有限模型表现出色。
相反,弱表现是由于现有布局依赖于像SGD这样的弱优化器。
我们供应了基于ADAM类似学习动态的无限宽度极限,并通过实验证明,由此产生的模型肃清了这种性能差距。

论文链接: https://arxiv.org/pdf/2406.18800

cs.AI: 打算生命:大略交互如何产生良好形成、自我复制的程序

原标题: Computational Life: How Well-formed, Self-replicating Programs Emerge from Simple Interaction

作者: Blaise Agüera y Arcas, Jyrki Alakuijala, James Evans, Ben Laurie, Alexander Mordvintsev, Eyvind Niklasson, Ettore Randazzo, Luca Versari

机构: 谷歌 芝加哥大学

择要: 起源生命和人工生命领域都在磋商生命是什么以及它是如何从一个独特的“前生命”动态中涌现的。
在大多数生命涌现的基质中,一个共同的特色是当自我复制涌现时动态发生明显变革。
虽然关于自我复制体如何在自然界中产生有一些假设,但我们对自我复制体涌现的一样平常动态、打算原则和必要条件知之甚少。
特殊是在涉及逻辑、数学或编程规则的“打算基质”上。
在本文中,我们通过研究基于各种大略编程措辞和机器指令集的几种打算基质,迈出了理解自我复制体如何产生的一步。
我们展示了当随机的、非自我复制程序被放置在一个缺少任何明确适应性景不雅观的环境中时,自我复制体每每会涌现。
我们展示了这是由于随机相互浸染和自我修正而发生的,并且可以在有或没有背景随机突变的情形下发生。
我们还展示了随着自我复制体的涌现,越来越繁芜的动态连续涌现。
末了,我们展示了一个极简编程措辞的反例,个中自我复制体是可能的,但到目前为止尚未不雅观察到其涌现。

论文链接: https://arxiv.org/pdf/2406.19108

cs.AI: 双层次犹豫模糊措辞术语集的顺序三方组决策

原标题: Sequential three-way group decision-making for double hierarchy hesitant fuzzy linguistic term set

作者: Nanfang Luo, Qinghua Zhang, Qin Xie, Yutai Wang, Longjun Yin, Guoyin Wang

机构: 重庆邮电大学 重庆师范大学 景点多源数据感知与决策重庆市旅游多源数据感知与决策重庆市打算智能重庆市大数据智能打算

择要: 以繁芜性和不愿定性为特色的群体决策是各种生活场景中不可或缺的一部分。
大多数现有研究缺少快速领悟信息并阐明部分形成决策结果的工具。
当须要提高群体决策效率时,这种限定尤为明显。
为办理这一问题,从粒打算的角度构建了一种新颖的面向群体决策的多级顺序三向决策(S3W-GDM)方法。
该方法同时考虑了双层次犹豫模糊措辞术语集(DHHFLTS)环境下群体决策问题的模糊性、犹豫性和变异性。
首先,为了高效领悟信息,提出了一种新颖的多级专家书息领悟方法,并定义了基于多级粒度的专家决策表和决策级信息的提取/聚合的观点。
其次,利用邻域理论、上风关系和遗憾理论(RT)重新设计了条件概率和相对丢失函数的打算。
然后,基于顺序三向决策(S3WD)定义了基于DHHFLTS的粒构造,以提高决策效率,并提出了每个决策级别的决策策略和解释。
此外,给出了S3W-GDM的算法。
末了,供应了一个诊断的示例,并进行了与其他方法的比较和敏感性剖析,以验证所提方法的效率和合理性。

论文链接: https://arxiv.org/pdf/2406.18884

cs.AI: 在知识驱动视觉问答中通过问题分解来解开基于知识和视觉推理

原标题: Disentangling Knowledge-based and Visual Reasoning by Question Decomposition in KB-VQA

作者: Elham J. Barezi, Parisa Kordjamshidi

机构: 密歇根州立大学

择要: 我们研究基于知识的视觉问答问题,对付这个问题,模型须要将问题与视觉模态联系起来,以找到答案。
只管许多最近的研究利用依赖于问题的字幕天生器来描述给定的图像,并利用大型措辞模型来办理VQA问题,但研究结果显示它们在多跳问题上表现不佳。
我们的研究表明,用几个更大略的问题更换一个繁芜的问题有助于从图像中提取更多干系信息,并供应对其更强的理解。
此外,我们剖析分解后的问题,以找出回答这些问题所需的信息模态,并针对视觉问题利用字幕天生器,对付非视觉知识库问题则利用LLMs作为通用知识来源。
我们的结果表明,在检索视觉或非视觉信息之前利用大略问题的积极影响。
我们在包括OKVQA、A-OKVQA和KRVQA在内的三个有名VQA数据集上供应了却果和剖析,并在准确性上实现了高达2%的改进。

论文链接: https://arxiv.org/pdf/2406.18839

cs.AI: 深度神经网络与人类表示对齐的基本维度

原标题: Dimensions underlying the representational alignment of deep neural networks with humans

作者: Florian P. Mahner, Lukas Muttenthaler, Umut Güçlü, Martin N. Hebart

机构: 马克斯·普朗克人类认知和大脑科学研究所 德国

择要: 在机器学习和认知神经科学中,确定人类和人工智能之间的相似性和差异性是一个主要目标。
然而,仅通过表示中的相似性仅能见告我们对齐程度,而不能见告我们决定这一相似性的成分。
借鉴认知科学的最新发展,我们提出了一个通用框架,用于在人类和深度神经网络(DNN)中产生可比较的表示。
将这一框架运用于人类和自然图像的DNN模型,揭示了视觉和语义维度的低维度DNN嵌入。
与人类比较,DNN表现出视觉特色明显优于语义特色的明显上风,表明了表示图像的不同策略。
虽然硅内实验显示DNN维度的阐明性彷佛是同等的,但人类和DNN表示之间的直接比较揭示了它们处理图像办法上的本色性差异。
通过直接使表示可比较,我们的结果揭示了表示对齐的主要寻衅,为改进它们的可比性供应了一种方法。

论文链接: https://arxiv.org/pdf/2406.19087

Github: https://github.com/florianmahner/object-dimensions

cs.AI: 利用Grounding DINO中的文本提示进行的履历研究:用于自动图像数据注释的Segment Anything模型。

原标题: Segment Anything Model for automated image data annotation: empirical studies using text prompts from Grounding DINO

作者: Fuseini Mumuni, Alhassan Mumuni

择要: Grounding DINO 和 Segment Anything Model (SAM) 在零样本目标检测和图像分割方面取得了令人印象深刻的表现。
它们共同具有在彻底改变零样本语义分割或数据标注方面的巨大潜力。
然而,在医学图像分割等专业领域,感兴趣的工具(如器官、组织和肿瘤)可能不属于现有的种别号称。
为办理这一问题,利用 Grounding DINO 的指代表达理解(REC)能力,通过它们的措辞描述来检测任意目标。
然而,最近的研究强调了 REC 框架在这种运用处景中存在严重局限性,由于当给定图像中不存在目标时,它每每会做出误报预测。
虽然这一瓶颈对付开放集语义分割的前景至关主要,但目前尚不清楚通过研究预测缺点可以取得多大改进。
为此,我们在八个公开可用的数据集上进行了实证研究,并揭示这些缺点始终遵照可预测的模式,因此可以通过大略策略加以缓解。
详细而言,我们创造这些带有相称置信度分数的误报检测常日霸占大面积图像区域,并且常日可以通过它们的相对大小进行过滤。
更主要的是,我们期望这些不雅观察结果能引发未来改进基于 REC 的检测和自动分割的研究。
利用这一技能,我们评估了 SAM 在来自各种专业领域的多个数据集上的性能,并报告了在分割性能和注释韶光节省方面比较手动方法的显著改进。

论文链接: https://arxiv.org/pdf/2406.19057

cs.AI: 深入理解交互式深度学习企业(No-IDLE)

原标题: A look under the hood of the Interactive Deep Learning Enterprise (No-IDLE)

作者: Daniel Sonntag, Michael Barz, Thiago Gouvêa

机构: 德国人工智能研究中央(DFKI)

择要: 这份 DFKI 技能报告先容了由德国联邦教诲和研究部帮助的 No-IDLE 原型系统的解剖构造,该系统不仅供应了交互式机器学习的根本和根本研究,还深入揭示了用户的行为、需求和目标。
机器学习和深度学习该当变得更加易于访问,面向数百万终端用户。
No-IDLE 的目标和科学寻衅集中在希望扩大交互式深度学习办理方案对机器学习非专家的影响力。
这份技能报告描述的关键创新之一是交互式机器学习与多模态交相互结合的方法论,当我们开始与即将到来的神经网络和大措辞模型领域中的半智能机器进行交互时,这将变得至关主要。

论文链接: https://arxiv.org/pdf/2406.19054

cs.AI: FedMap:用于通信高效的联邦学习的迭代基于幅度的修剪

原标题: FedMap: Iterative Magnitude-Based Pruning for Communication-Efficient Federated Learning

作者: Alexander Herzog, Robbie Southam, Ioannis Mavromatis, Aftab Khan

机构: 英国东芝欧洲有限公司 利物浦研究与创新实验室

择要: 联邦学习(FL)是一种分布式机器学习方法,可以在保护隐私的同时在分散的数据上进行演习。
然而,FL系统常日涉及资源受限的客户端设备,其打算能力、内存、存储和带宽有限。
本文先容了FedMap,这是一种旨在通过协作学习逐步稀疏全局模型的新方法,以增强FL支配的通信效率。
主要的是,FedMap从头开始演习全局模型,与文献中宣布的其他方法不同,使其非常适宜隐私关键的用例,如医疗和金融领域,个中适当的预演习数据常日有限。
FedMap将迭代的基于幅度的修剪方法调度到FL设置中,确保所有客户端修剪和优化全局模型参数的相同子集,逐渐减少全局模型大小和通信开销。
FedMap的迭代性子,形成后续模型作为前身的子集,避免了先前事情中涌现的参数重新激活问题,从而实现了稳定的性能。
在本文中,我们对FedMap在不同设置、数据集、模型架构和超参数下进行了广泛评估,评估了在IID和非IID环境中的性能。
与基线方法的比较剖析显示,FedMap能够实现更稳定的客户端模型性能。
对付IID场景,FedMap实现了超过90%的修剪而没有显著的性能低落。
在非IID设置中,它实现了至少80%的修剪同时保持准确性。
FedMap为缓解FL系统中的通信瓶颈供应了一个有出息的办理方案,同时保持模型准确性。

论文链接: https://arxiv.org/pdf/2406.19050

cs.AI: 缺点行上的准确性:关于喧华数据对超出分布泛化的陷阱

原标题: Accuracy on the wrong line: On the pitfalls of noisy data for out-of-distribution generalisation

作者: Amartya Sanyal, Yaxi Hu, Yaodong Yu, Yian Ma, Yixin Wang, Bernhard Schölkopf

机构: 德国图宾根智能系统马克斯·普朗克研究所 美国加州大学伯克利分校 圣地亚哥加州大学圣地亚哥分校 奥今年夜学

择要: “在线准确性”是机器学习中一个广泛不雅观察到的征象,即模型在分布内(ID)和分布外(OOD)数据上的准确性在不同超参数和数据配置下呈正干系。
但是这种有用的关系何时会分裂呢?在这项事情中,我们磋商了其稳健性。
关键不雅观察是,喧华的数据和存在无关特色足以毁坏“在线准确性”征象。
在这些情形下,ID和OOD准确性可能呈负干系,导致“缺点线上的准确性”。
这种征象也可能发生在存在虚假(捷径)特色的情形下,这些特色每每会粉饰更繁芜的旗子暗记(核心、非虚假)特色,导致大量无关特色空间。
此外,扩展到更大的数据集规模并不能缓解这种不良行为,乃至可能加剧这种情形。
我们在线性分类模型中正式证明了分布外(OOD)偏差的下限,描述了噪声和无关特色对大型OOD偏差的条件。
末了,我们通过含有喧华数据和无关特色的合成和真实数据集展示了这种征象。

论文链接: https://arxiv.org/pdf/2406.19049

cs.AI: BiCo-Fusion:双向互补的LiDAR-相机领悟,用于语义和空间感知的3D物体检测

原标题: BiCo-Fusion: Bidirectional Complementary LiDAR-Camera Fusion for Semantic- and Spatial-Aware 3D Object Detection

作者: Yang Song, Lin Wang

择要: 3D物体检测是自动驾驶中被广泛运用的主要任务。
最近,领悟多模态输入,即LiDAR和摄像头数据,以实行此任务已成为一种新趋势。
然而,现有方法要么忽略了LiDAR特色的稀疏性,要么由于模态差异而无法同时保留LiDAR的原始空间构造和摄像头特色的语义密度。
为理解决这些问题,这封信提出了一种新颖的双向互补LiDAR-摄像头领悟框架,称为BiCo-Fusion,可以实现稳健的语义和空间感知3D物体检测。
关键见地是相互领悟多模态特色,以增强LiDAR特色的语义和摄像头特色的空间感知,并自适应地从两种模态中选择特色来构建统一的3D表示。
详细而言,我们引入了Pre-Fusion,包括一个体素增强模块(VEM)来增强来自2D摄像头特色的体素特色的语义,以及一个图像增强模块(IEM)来增强来自3D体素特色的摄像头特色的空间特色。
VEM和IEM都进行双向更新,以有效减少模态差距。
然后,我们引入了统一领悟,自适应地加权选择来自增强的LiDAR和摄像头特色的特色,以构建统一的3D表示。
大量实验证明了我们的BiCo-Fusion相对付先前的方法的优胜性。
项目页面:此处的链接。

论文链接: https://arxiv.org/pdf/2406.19048

Github: https://t-ys.github.io/BiCo-Fusion/

cs.AI: CMRxRecon2024:一种多模态、多视角 K 空间数据集,为加速心脏 MRI 的通用机器学习供应支持。

原标题: CMRxRecon2024: A Multi-Modality, Multi-View K-Space Dataset Boosting Universal Machine Learning for Accelerated Cardiac MRI

作者: Zi Wang, Fanwen Wang, Chen Qin, Jun Lyu, Ouyang Cheng, Shuo Wang, Yan Li, Mengyao Yu, Haoyu Zhang, Kunyuan Guo, Zhang Shi, Qirong Li, Ziqiang Xu, Yajing Zhang, Hao Li, Sha Hua, Binghua Chen, Longyu Sun, Mengting Sun, Qin Li, Ying-Hua Chu, Wenjia Bai, Jing Qin, Xiahai Zhuang, Claudia Prieto, Alistair Young, Michael Markl, He Wang, Lianming Wu, Guang Yang, Xiaobo Qu, Chengyan Wang

机构: 福建省等离子体与磁共振重点实验室、国家医疗数据科学研究院、电子科学系、福建省重点实验室、康健数据科学国家研究院

择要: 心脏磁共振成像(MRI)已成为诊断心脏疾病的临床黄金标准技能,这要归功于其能够供应多种模态和解剖视图的多样信息。
加速心脏MRI被高度期望能够实现高效的韶光和患者友好的成像,因此须要前辈的图像重修方法来从欠采样的丈量中规复高质量、临床可阐明的图像。
然而,公开可用的心脏MRI k空间数据集在数量和多样性方面的缺少严重阻碍了本色性的技能进步,特殊是对付数据驱动的人工智能。
在这里,我们供应了一个标准化、多样化和高质量的CMRxRecon2024数据集,以促进心脏MRI重修方法的技能发展、公正评估和临床转化,从而推动能够在临床实践中实现快速和稳健重修的通用框架。
据我们所知,CMRxRecon2024数据集是最大、最多样化的公开可存心脏k空间数据集。
它来自330名康健志愿者,涵盖了临床心脏MRI事情流程中常用的模态、解剖视图和采集轨迹。
此外,我们还供应了一个开放平台,包括教程、基准测试和数据处理工具,以促进数据利用、前辈方法开拓和公正性能评估。

论文链接: https://arxiv.org/pdf/2406.19043

cs.AI: 利用高斯过程从现场数据监测锂离子电池系统康健状况并进行故障剖析

原标题: Lithium-Ion Battery System Health Monitoring and Fault Analysis from Field Data Using Gaussian Processes

作者: Joachim Schaeffer, Eric Lenz, Duncan Gulla, Martin Z. Bazant, Richard D. Braatz, Rolf Findeisen

机构: 德国达姆斯塔特工业大学 美国麻省理工学院

择要: 康健监测、故障剖析和检测对付电池系统的安全和可持续运行至关主要。
我们将高斯过程电阻模型运用于锂铁磷酸铁锂电池现场数据,以有效区分韶光干系和事情点干系的电阻。
数据集包含了29个退回制造商进行保修的电池系统,每个别系有八个电池串联,总计232个电池和1.31亿条数据行。
我们利用递归时空高斯过程开拓了概率故障检测规则。
这些过程可以快速处理超过一百万个数据点,实现前辈的在线监测,并进一步匆匆进对电池组在现场失落效的理解。
剖析强调,常日只有一个单个电池显示非常行为或拐点,与串联连接的电池的最薄弱环节失落效同等,并受到局部电阻加热的放大。
结果进一步匆匆进了对电池在现场如何退化和失落效的理解,并展示了基于数据的高效在线监测的潜力。
我们将代码开源,并在本文审阅完成后发布大型数据集。

论文链接: https://arxiv.org/pdf/2406.19015

cs.AI: FedMLP:在任务异质性下的联邦多标签医学图像分类

原标题: FedMLP: Federated Multi-Label Medical Image Classification under Task Heterogeneity

作者: Zhaobin Sun (1), Nannan Wu (1), Junjie Shi (1), Li Yu (1), Xin Yang (1), Kwang-Ting Cheng (2), Zengqiang Yan (1) ((1) School of Electronic Information and Communications, Huazhong University of Science and Technology, (2) School of Engineering, Hong Kong University of Science and Technology)

机构: 华中科技大学 喷鼻香港科技大学

择要: 跨领域联邦学习(FL)使得分散的组织能够在保护数据隐私的同时协作演习模型,在医学图像分类方面取得了显著进展。
一个常见的假设是任务同质性,即每个客户端在演习过程中都可以访问所有种别。
然而,在临床实践中,考虑到医学知识水平和疾病的盛行程度,每个机构可能仅诊断部分种别,导致任务的异质性。
如何在任务的异质性下进行有效的多标签医学图像分类尚未得到充分磋商。
本文首先在多标签FL领域中制订了这样一个现实的标签缺失落设置,并提出了一个名为FedMLP的两阶段方法来应对种别缺失落,方法包括伪标签标记和全局知识学习。
前者利用预热模型天生种别原型,并选择高置信度样本来补充缺失落标签,而后者利用全局模型作为西席进行同等性正则化,以防止遗忘缺失落类别的知识。
在两个公开可用的医学数据集上的实验证明了FedMLP相对付任务异质性下的联邦半监督和喧华标签学习方法的优胜性。
代码可在此网址得到。

论文链接: https://arxiv.org/pdf/2406.18995

Github: https://github.com/szbonaldo/FedMLP

cs.AI: 半监督观点瓶颈模型

原标题: Semi-supervised Concept Bottleneck Models

作者: Lijie Hu, Tianhao Huang, Huanyi Xie, Chenyang Ren, Zhengyu Hu, Lu Yu, Di Wang

机构: 沙特阿拉伯国王科技大学 南开大学 哈尔滨工业大学 上海交通大学 喷鼻香港科技大学 蚂蚁集团

择要: 观点瓶颈模型(CBMs)因其能够为黑盒深度学习模型供应基于观点的阐明,并在利用类似人类观点的情形下实现高终极预测准确性而受到越来越多的关注。
然而,当前CBMs的演习严重依赖于数据集中注释观点的准确性和丰富性。
这些观点标签常日由专家供应,这可能本钱高昂,须要大量资源和精力。
此外,观点显著性图常常与输入显著性图不对齐,导致观点预测对应于不干系的输入特色 - 这与注释对齐有关的问题。
为理解决这些限定,我们提出了一个名为SSCBM(半监督观点瓶颈模型)的新框架。
我们的SSCBM适用于注释数据稀缺的实际情形。
通过在标记和未标记数据上进行联合演习,并在观点级别对齐未标记数据,我们有效地办理了这些问题。
我们提出了一种天生伪标签和对齐丢失的策略。
实验证明,我们的SSCBM既有效又高效。
仅利用20%的标记数据,我们实现了93.19%的观点准确性(在完备监督设置中为96.39%)和75.51%的预测准确性(在完备监督设置中为79.82%)。

论文链接: https://arxiv.org/pdf/2406.18992

cs.AI: 打算能力商品化

原标题: Commodification of Compute

作者: Jesper Kristensen, David Wender, Carl Anthony

择要: 人工智能、大数据剖析和云打算的快速发展引发了对打算资源空前的需求。
然而,当前的打算资源分配格局存在显著的低效率问题,包括资源利用不敷和价格颠簸。
本文通过引入一种新颖的环球打算资源商品化平台——环球打算交易所(GCX)(专利申请中),来办理这些寻衅。
GCX利用区块链技能和智能合约创建了一个安全、透明和高效的打算能力买卖市场。
GCX采取分层构建,包括市场、运用、结算、风险管理、交易所(链下)和区块链(链上)层,每一层确保了强大和高效的运作。
该平台旨在通过促进去中央化、高效和透明的生态系统,确保对打算能力的公正获取,引发创新,并支持环球范围内多样化的用户需求,从而彻底改变打算资源市场。
通过将打算资源韶光转化为可交易的商品,GCX旨在优化资源利用、稳定定价,并使打算资源的获取民主化。
本文磋商了GCX的技能根本举动步伐、市场潜力和社会影响,将其定位为一个开拓性办理方案,有望推动商品和打算领域下一波创新的浪潮。

论文链接: https://arxiv.org/pdf/2406.19261

cs.AI: 对话机器人性能改进的对齐办法

原标题: Alignment For Performance Improvement in Conversation Bots

作者: Raghav Garg, Kapil Sharma, Shrey Singla

机构: Sprinklr India

择要: 这篇论文表明,与仅利用指令微调比较,对齐方法在对话代理(也称为机器人)中实现对“护栏”的优胜允从性方面表现出色,这些对话代理在预定义的辅导方针或“护栏”内运行。
它研究了传统的演习方法,如指令微调,以及直接对齐方法的最新进展,如Identity Preference Optimization(IPO)和Kahneman-Tversky Optimization(KTO)。
强调了对齐技能在指令微调前后的有效性,解释它们有潜力优化对话机器人,在须要严格遵守指定规则的领域,如客户关怀。

论文链接: https://arxiv.org/pdf/2406.18954

cs.AI: 调查和守卫个性化扩散模型中的快捷学习

原标题: Investigating and Defending Shortcut Learning in Personalized Diffusion Models

作者: Yixin Liu, Ruoxi Chen, Lichao Sun

择要: 个性化扩散模型因适应预演习的文本到图像模型以仅利用少量图像天生特定主题的图像而变得盛行。
然而,最近的研究创造这些模型随意马虎受到轻微对抗性扰动的影响,并且在受损数据集上的微调性能大幅低落。
这种特性进一步被利用来制作对敏感图像(如肖像)进行防止未经授权天生的保护性扰动。
作为回应,基于扩散的净化方法已被提出以去除这些扰动并保留天生性能。
然而,现有研究缺少对个性化扩散模型基本快捷学习漏洞的详细剖析,并且过度净化图像会导致信息丢失。
本文通过快捷学习的视角仔细研究了个性化扩散模型的微调过程,并提出了一个假设,可以阐明现有扰动方法的潜在操纵机制。
详细来说,我们创造扰动图像在基于CLIP的潜在空间中与其原始配对提示明显偏离。
因此,利用这种不匹配的图像-提示对进行演习会导致模型将其分布之外的喧华模式转储到识别器中,从而导致严重的性能低落。
基于这一不雅观察,我们提出了一种系统方法,通过净化来保持演习性能,重新调度潜在图像及其语义含义,并引入具有负标记的比拟学习,以解耦对所需干净身份和不须要的喧华模式的学习,显示出对进一步自适应扰动具有强大潜力的能力。

论文链接: https://arxiv.org/pdf/2406.18944

cs.AI: 在语音转换和语音合成模型中,通过声纹识别技能进行语音识别运用,并改进TTS模型中的声学特色和持续韶光预测。

原标题: Application of ASV for Voice Identification after VC and Duration Predictor Improvement in TTS Models

作者: Borodin Kirill Nikolayevich, Kudryavtsev Vasiliy Dmitrievich, Mkrtchian Grach Maratovich, Gorodnichev Mikhail Genadievich, Korzh Dmitrii Sergeevich

机构: 莫斯科通信与信息技能大学 人工智能研究所 Skoltech

择要: 在生物特色安全领域中最关键的组件之一是基于说话者声音的自动说话者验证系统。
可以单独或与其他AI模型结合利用ASV。
在当代,神经网络的质量和数量呈指数增长。
与此同时,有越来越多的系统旨在通过语音转换和文本转语音模型来操纵数据。
声音生物特色假造领域面临一些寻衅,包括SSTC、ASVSpoof和SingFake。
本文提出了一个自动说话者验证系统。
我们模型的紧张目标是从目标说话者的音频中提取嵌入,以获取关于他的声音主要特色的信息,如音高、能量和音素的持续韶光。
这些信息被用于我们目前正在开拓的多声音TTS管道中。
然而,该模型在SSTC寻衅中被用于验证声音经由转换的用户,表现出20.669的EER。

论文链接: https://arxiv.org/pdf/2406.19243

cs.AI: 联邦图语义和构造学习

原标题: Federated Graph Semantic and Structural Learning

作者: Wenke Huang, Guancheng Wan, Mang Ye, Bo Du

机构: 武汉大学 湖北罗家实验室

择要: 联邦图学习是协作学习一个具有分布图的全局图神经网络,个中非独立同分布属性是紧张寻衅之一。
大多数干系文献关注传统的分布式任务,如图像和语音,无法处理图构造。
本文首次揭示了本地客户端失落真是由节点级语义和图级构造带来的。
首先,对付节点级语义,我们创造比拟来自不同类别的节点有助于供应良好的区分性能。
我们将本地节点拉向相同类别的全局节点,并将其推离不同类别的全局节点。
其次,我们假设一个良好构造的图神经网络由于固有的毗邻关系具有邻居的相似性。
然而,将每个节点与相邻节点对齐会阻碍区分能力,由于可能存在潜在的种别不一致性。
我们将毗邻关系转化为相似性分布,并利用全局模型将关系知识提炼到本地模型中,这样可以保留本地模型的构造信息和区分性。
对三个图数据集的实证结果表明,所提出的方法优于其对手。

论文链接: https://arxiv.org/pdf/2406.18937

Github: https://github.com/guanchengwan/fgssl

cs.AI: 眼见为实:针对检索增强天生的黑盒成员推断攻击

原标题: Seeing Is Believing: Black-Box Membership Inference Attacks Against Retrieval Augmented Generation

作者: Yuying Li, Gaoyang Liu, Yang Yang, Chen Wang

机构: 华中科技大学 湖北大学

择要: 检索增强天生(RAG)是一种最前辈的技能,通过从外部非参数数据库中检索干系知识来增强大措辞模型(LLMs)。
这种方法旨在减轻大措辞模型常见的问题,如幻觉和过期知识。
只管现有研究已经证明了RAG系统内部存在安全和隐私漏洞,使其随意马虎受到类似越狱和提示注入的攻击,但是RAG系统外部数据库的安全性仍旧很少被磋商。
在本文中,我们利用成员推断攻击(MIA)来确定样本是否属于RAG系统的知识数据库,仅利用黑盒API访问。
我们的核心假设是,如果一个样本是成员,它将表现出与RAG系统天生的文本显著的相似性。
为了测试这一点,我们打算余弦相似度和模型的困惑度,建立成员得分,从而构建稳健的特色。
然后,我们引入了两种新颖的攻击策略:基于阈值的攻击和基于机器学习的攻击,旨在准确识别成员资格。
我们的方法的实验验证已经实现了82%的ROC AUC。

论文链接: https://arxiv.org/pdf/2406.19234

cs.AI: 韶光很主要:适用于任何预算的扩展规律

原标题: Time Matters: Scaling Laws for Any Budget

作者: Itay Inbar, Luke Sernau

机构: 谷歌DeepMind

择要: 演习大型模型的紧张本钱驱出发分是挂钟演习韶光。
我们表明,基于 FLOPs 的盛行韶光估算是较差的估算,我们构建了一个基于内存复制的更准确的代理。
我们展示了通过一些大略的核算,我们可以从Transformer模型的超参数估算其演习速率。
结合像Chinchilla这样的缩放定律曲线,这使我们能够估算模型的终极丢失。
我们将我们的估算与实际数据进行线性回归拟合,并将结果运用于以模型的估计演习韶光而不是演习数据量来重写Chinchilla。
这给出了一个仅以模型的超参数来表示丢失的表达式。
我们表明,这个表达式在各种模型超参数值范围内都是准确的,使我们能够在剖析上做出架构决策并更高效地演习模型。

论文链接: https://arxiv.org/pdf/2406.18922

cs.AI: 人工智能在教诲丈量中的崛起:机遇与伦理寻衅

原标题: The Rise of Artificial Intelligence in Educational Measurement: Opportunities and Ethical Challenges

作者: Okan Bulut, Maggie Beiting-Parrish, Jodi M. Casabianca, Sharon C. Slater, Hong Jiao, Dan Song, Christopher M. Ormerod, Deborah Gbemisola Fabiyi, Rodica Ivan, Cole Walsh, Oscar Rios, Joshua Wilson, Seyma N. Yildirim-Erbasli, Tarid Wongvorachan, Joyce Xinle Liu, Bin Tan, Polina Morilova

机构: Okan Bulut 穆罕默德·沙龙 姬迪·卡萨比安卡 喷鼻香农·斯莱特 丹·宋 克里斯托弗·奥默罗 德博拉·格贝米索

择要: 人工智能(AI)在教诲丈量中的整合彻底改变了评估方法,通过机器学习和自然措辞处理实现了自动评分、快速内容剖析和个性化反馈。
这些进步供应了及时、同等的反馈,并为学生表现供应了宝贵的见地,从而增强了评估体验。
然而,在教诲领域支配人工智能也引发了关于有效性、可靠性、透明度、公正性和公道性的重大伦理关怀。
算法偏见和人工智能决策过程的不透明性等问题存在风险,可能会持续不平等并影响评估结果。
为了应对这些问题,包括教诲事情者、政策制订者和组织在内的各方利益干系者制订了辅导方针,以确保在教诲中道德利用人工智能。
国家教诲丈量委员会的AI在丈量和教诲中的特殊兴趣小组(AIME)也专注于建立道德标准并推动该领域的研究。
在本文中,AIME的多元化成员团队核阅了教诲丈量中人工智能工具的伦理影响,磋商了自动化偏见和环境影响等重大寻衅,并提出办理方案,以确保人工智能在教诲中的负任务和有效利用。

论文链接: https://arxiv.org/pdf/2406.18900

cs.AI: 寻衅我吧:聚合自编码器以应对高度不平衡数据中的持续访问威胁

原标题: Hack Me If You Can: Aggregating AutoEncoders for Countering Persistent Access Threats Within Highly Imbalanced Data

作者: Sidahmed Benabderrahmane, Ngoc Hoang, Petko Valtchev, James Cheney, Talal Rahwan

机构: 纽约大学 阿布扎比分校 英国爱丁堡大学 信息学院 蒙特利尔大学 维多利亚大学 汉密尔顿大学

择要: 高等持续威胁(APTs)是精密的、有针对性的网络攻击,旨在未经授权地访问系统并在永劫光内保持不被察觉。
为了躲避检测,APTs网络攻击通过陵犯和利用漏洞来欺骗防御层,从而使传统的基于非常检测的安全方法暴露变得更加繁芜。
利用机器学习来检测APTs的寻衅受到干系数据集的稀缺性以及数据中显著的不平衡的影响,这使得检测过程变得非常繁重。
我们提出了AE-APT,这是一个基于深度学习的用于检测APTs的工具,其特点是一系列的自编码器方法,从基本方法到基于Transformer的方法不等。
我们在由DARPA透明打算操持产生的一套溯源跟踪数据库上评估了我们的工具,个中类似APTs的攻击仅占数据的0.004%。
这些数据集涵盖多个操作系统,包括Android、Linux、BSD和Windows,并涵盖两种攻击场景。
结果显示,与竞争对手比较,AE-APT具有显著更高的检测率,表明在检测和排名非常方面表现出优胜性。

论文链接: https://arxiv.org/pdf/2406.19220

cs.AI: 通过深度强化学习实现对一种新型闭链五杆主动悬架的自主掌握

原标题: Autonomous Control of a Novel Closed Chain Five Bar Active Suspension via Deep Reinforcement Learning

作者: Nishesh Singh, Sidharth Ramesh, Abhishek Shankar, Jyotishka Duttagupta, Leander Stephen D'Souza, Sanjay Singh

机构: 马尼帕尔理工学院

择要: 行星探测须要在波折地形环境中行进。
此外,火星探测器和其他行星探测机器人常日携带敏感的科学实验和组件,这些必须受到机器危害的保护。
本文涉及一种专注于底盘稳定和在碰着不可避免的障碍时的高效遍历方法的主动悬挂系统。
采取了Soft Actor-Critic(SAC)以及比例积分微分(PID)掌握来稳定底盘并以较低速率穿越大障碍物。
该模型利用探测器与周围障碍物的间隔、障碍物的高度以及底盘的方向来精确驱动悬挂的掌握连杆。
在Gazebo环境中进行的仿照用于验证所提出的主动系统。

论文链接: https://arxiv.org/pdf/2406.18899

cs.AI: 逐步思考:手势链提示在机器人赞助手术***中的缺点检测

原标题: Think Step by Step: Chain-of-Gesture Prompting for Error Detection in Robotic Surgical Videos

作者: Zhimin Shao, Jialang Xu, Danail Stoyanov, Evangelos B. Mazomenos, Yueming Jin

择要: 只管机器人系统和外科数据科学取得了显著进展,但确保机器人赞助微创手术(RMIS)的安全和最佳实行仍旧是一个繁芜的寻衅。
当前外科缺点检测方法包括两个部分:识别外科手势,然后在每个手势片段中检测缺点。
这些方法很少考虑外科***中固有的丰富高下文和语义信息,由于依赖准确的手势识别,它们的性能受到限定。
受自然措辞处理中思维链勉励的启示,本文提出了一种新颖的实时端到端缺点检测框架,Chain-of-Thought(COG)勉励,利用外科***中的高下文信息。
这包括两个推理模块,旨在模拟专家外科年夜夫的决策过程。
详细而言,我们首先设计了一个手势视觉推理模块,该模块利用Transformer和把稳力架构进行手势提示,而第二个多尺度韶光推理模块则采取多阶段韶光卷积网络,具有慢速和快速路径,用于提取韶光信息。
我们在公开基准RMIS数据集JIGSAWS上对我们的方法进行了广泛验证。
我们的方法包含了与外科活动固有的推理过程,使其在每帧均匀处理韶光为6.69毫秒的情形下,比现有技能在F1分数、准确性和Jaccard指数方面提高了4.6%,表明我们的方法在增强RMIS程序和外科教诲的安全性和有效性方面具有巨大潜力。
代码将会供应。

论文链接: https://arxiv.org/pdf/2406.19217

cs.AI: 360度全景:用于深度预测和视图合成的数据集

原标题: 360 in the Wild: Dataset for Depth Prediction and View Synthesis

作者: Kibaek Park, Francois Rameau, Jaesik Park, In So Kweon

机构: KAIST POSTECH

择要: 大量的透视相机数据集的涌现促进了针对各种任务的新型基于学习的策略的涌现,例如相机定位、单图深度估计或视图合成。
然而,包括姿势和深度等关键信息的全景或全向图像数据集大多是利用合成场景天生的。
在这项事情中,我们先容了一个大规模的野外360^{\circ}***数据集。
该数据集经由精心从互联网上抓取,并且是从天下各地的各种位置拍摄而来。
因此,该数据集展示了非常多样化的环境(例如室内和室外)和背景(例如有和没有移动物体)。
我们的数据集由25K张图像组成,每张图像都附带其相应的相机姿势和深度图。
我们阐明了我们的数据集对付两个紧张任务的干系性,即单图深度估计和视图合成。

论文链接: https://arxiv.org/pdf/2406.18898

cs.AI: LICO:用于高下文分子优化的大措辞模型

原标题: LICO: Large Language Models for In-Context Molecular Optimization

作者: Tung Nguyen, Aditya Grover

机构: 加州大学洛杉矶分校

择要: 优化黑盒函数是科学和工程中的一个基本问题。
为理解决这个问题,许多方法学习一个替代函数,从有限的历史评估中估计潜在的目标。
大措辞模型(LLMs)凭借其通过在大量数据上进行预演习而具有的强大模式匹配能力,成为替代建模的潜在候选者。
然而,在许多科学领域直接匆匆使预演习措辞模型产生预测是不可行的,这是由于预演习语料库中领域特天命据的稀缺性以及用自然措辞表达繁芜问题的寻衅。
在这项事情中,我们先容了LICO,这是一个通用模型,它扩展了任意根本LLMs用于黑盒优化,特殊适用于分子领域。
为了实现这一目标,我们为措辞模型配备了一个单独的嵌入层和预测层,并演习模型在定义在该领域上的各种函数上实行高下文预测。
一旦演习完成,LICO可以通过高下文提示大略地推广到未见的分子属性。
LICO在PMO上取得了最前辈的性能,这是一个具有寻衅性的分子优化基准,包括20多个目标函数。

论文链接: https://arxiv.org/pdf/2406.18851

cs.AI: RAVEN: 多任务检索增强视觉措辞学习

原标题: RAVEN: Multitask Retrieval Augmented Vision-Language Learning

作者: Varun Nagaraj Rao, Siddharth Choudhary, Aditya Deshpande, Ravi Kumar Satzoda, Srikar Appalaraju

机构: 普林斯顿大学 AWS AI实验室 Apple

择要: 将大型措辞模型扩展到编码所有天下知识的模型参数是不可持续的,并且加剧了资源障碍。
检索增强天生(RAG)提出了一个潜在办理方案,但其在视觉措辞模型(VLMs)中的运用尚未得到充分磋商。
现有方法侧重于为单一任务设计的模型。
此外,它们受限于对资源密集型预演习的需求、额外的参数哀求、未办理的模态优先级以及与非检索基线比较缺少明显上风。
本文先容了RAVEN,这是一个多任务检索增强的VLM框架,通过高效的、任务特定的微调增强根本VLMs。
通过集成检索增强样本,无需额外的检索特定参数,我们展示了该模型得到了在多个任务中都有效的检索属性。
我们的结果和对图像字幕和VQA任务的检索模态进行的广泛溶解表明,与非检索基线比较,在MSCOCO上的CIDEr提高了1个点,在NoCaps长进步了4个CIDEr,并且在特定VQA问题类型上的准确率提高了近3\%。
这突显了将RAG方法运用于VLMs的有效性,标志着迈向更高效和可访问的多模态学习的一大步。

论文链接: https://arxiv.org/pdf/2406.19150

cs.AI: BackMix: 通过最小监督减轻超声心动图中的快捷学习

原标题: BackMix: Mitigating Shortcut Learning in Echocardiography with Minimal Supervision

作者: Kit Mills Bransby, Arian Beqiri, Woo-Jin Cho Kim, Jorge Oliveira, Agisilaos Chartsias, Alberto Gomez

机构: Ultromics Ltd. 皇后玛丽大学伦敦

择要: 神经网络可以学习导致在验证集中得出精确预测的虚假干系性,但由于预测是基于缺点的缘故原由,它们的泛化能力较差。
这种不良学习的天真捷径(聪明的汉斯效应)可能会在超声心动图视图分类中发生,例如当背景线索(例如元数据)倾向于某一类,并且模型学会专注于这些背景特色而不是图像内容时。
我们提出了一种大略但有效的随机背景增强方法,称为BackMix,它从演习集中的其他示例中随机采样背景。
通过逼迫背景与结果不干系,模型学会专注于超声扇区内的数据,并对该区域之外的区域具有不变性。
我们在半监督设置中扩展了我们的方法,创造BackMix的积极效果在只有5%的分割标签的情形下仍旧保持。
还提出了一种丢失加权机制wBackMix,以增加增强示例的贡献。
我们在分布内和分布外数据集上验证了我们的方法,展示了在分类准确性、区域焦点和泛化能力方面的显著改进。
我们的源代码可在此 https URL 上找到。

论文链接: https://arxiv.org/pdf/2406.19148

Github: https://github.com/kitbransby/BackMix

cs.AI: 保留、领悟和交流:一种面向事宜流识别的质量感知空间立体领悟方法

原标题: Retain, Blend, and Exchange: A Quality-aware Spatial-Stereo Fusion Approach for Event Stream Recognition

作者: Lan Chen, Dong Li, Xiao Wang, Pengpeng Shao, Wei Zhang, Yaowei Wang, Yonghong Tian, Jin Tang

机构: 清华大学 百度

择要: 现有的基于事宜流的模式识别模型常日将事宜流表示为点云、体素、图像等,并设计各种深度神经网络来学习它们的特色。
只管在大略情形下可以取得相称不错的结果,但是模型性能可能会受到单调的模态表达、次优的领悟和读出机制的限定。
在本文中,我们提出了一种新颖的基于事宜流的模式识别双流框架,通过差异化领悟,命名为 EFV++。
它同时建模了两种常见的事宜表示,即事宜图像和事宜体素。
空间和三维立体信息可以通过利用 Transformer 和图神经网络(GNN)分别学习。
我们认为每种表示的特色仍旧包含高效和冗余特色,如果直接领悟而不加区分,可能会得到次优解。
因此,我们将每个特色分为三个级别,保留高质量特色,稠浊中等质量特色,并交流低质量特色。
增强的双特色将与瓶颈特色一起输入到领悟 Transformer 中。
此外,我们引入了一种新颖的稠浊交互读出机制,以增强终极表示的特色多样性。
大量实验证明,我们提出的框架在多个广泛利用的基于事宜流的分类数据集上实现了最前辈的性能。
详细而言,我们在 Bullying10k 数据集上实现了新的最前辈性能,即 90.51\%,超过第二名 +2.21\%。
本文的源代码已在此网址上发布。

论文链接: https://arxiv.org/pdf/2406.18845

Github: https://github.com/Event-AHU/EFV_event_classification/tree/EFVpp https://github.com/event-ahu/efv_event_classification