你的位置:开云(中国)Kaiyun·官方网站 - 登录入口 > 新闻资讯 > 开云体育(中国)官方网站模子通过递归应用崎岖变换来学习图像的多线索结构-开云(中国)Kaiyun·官方网站 - 登录入口

开云体育(中国)官方网站模子通过递归应用崎岖变换来学习图像的多线索结构-开云(中国)Kaiyun·官方网站 - 登录入口

新闻资讯

从诡计机缔造以来,东说念主类就一直在联想何如让它们变得像科幻电影里那样贤惠。从《2001:天外漫游》中的 HAL 9000,到《流浪地球》中的 Moss,东说念主工智能在屏幕中频频高效、感性、逻辑紧密开云体育(中国)官方网站,给东说念主留住潜入的印象。 现如今,大言语模子和深度学习让咱们对"超等 AI "的可能性有了更多期待。但要已毕像 Moss 那种"万能助手"的智能,咱们还需要突出好多拦阻,最伏击的一丝就是:何如让 AI 飞速连续并应酬多样复杂场景,而无谓依赖"海量"数据的放浪堆积? ▷

详情

开云体育(中国)官方网站模子通过递归应用崎岖变换来学习图像的多线索结构-开云(中国)Kaiyun·官方网站 - 登录入口

从诡计机缔造以来,东说念主类就一直在联想何如让它们变得像科幻电影里那样贤惠。从《2001:天外漫游》中的 HAL 9000,到《流浪地球》中的 Moss,东说念主工智能在屏幕中频频高效、感性、逻辑紧密开云体育(中国)官方网站,给东说念主留住潜入的印象。

现如今,大言语模子和深度学习让咱们对"超等 AI "的可能性有了更多期待。但要已毕像 Moss 那种"万能助手"的智能,咱们还需要突出好多拦阻,最伏击的一丝就是:何如让 AI 飞速连续并应酬多样复杂场景,而无谓依赖"海量"数据的放浪堆积?

▷  开云体育(中国)官方网站 图 1. 电影《流浪地球》中的 Moss。图源:六合社会学

面前,机器学习已豪迈应用于数据分类、预测、策画与生成等诸多边界,这些任务无不需要连续和应酬复杂多变的情境。然则,传统的机器学习法式频频依赖海量的数据和盛大的诡计资源,在处理高维度和大限制数据时,不免举步维艰。

为惩办这些问题, Karl Friston 近日在 arxiv 发表了题为" Renormalising generative models:From pixels to planning: scale-free active inference " 的论文。他通过主动推理(Active Inference)构建了模范不变的生成模子(Renormalising Generative Model, RGM),将分类、预测与策画等问题挪动为推理问题,并借助最大化模子笔据这一调理框架,灵验惩办了视觉数据、时序数据分类及强化学习中的多种挑战。成绩于该框架中引入的重整化群本领,这一法式或者高效地处理大限制数据集。

▷图 2. 本文来源:Friston, Karl, et al. "From pixels to planning: scale-free active inference." arXiv preprint arXiv:2407.20292 ( 2024 ) .

01 主动推理

主动推理(active inference),指的是一种基于咱们面前不雅察到的气候来预测曩昔的模子。为什么称这种推理为"主动"呢?因为这种推理不单是是被迫地恭候发生的事情,而是通过主动的不雅察来推断事件的原因。也就是说,天然事件的发生旅途有些是看不见的,但有些旅途是咱们不错通过我方的行动来影响的,此外,还有一些赶走是咱们采用行动后才会得到的,是以在推理的过程中,咱们不仅要推测事件可能会何如发生,还需要通过行动来股东这些事件的发生。

例如来说,在网球比赛中,球的翱游轨迹如同在一棵不停张开的"可能树"上延展,每一次击球王人为这棵树增添一条新的分支(比如截击、抽球、扣杀、放小球……)。赛场上的选手需在繁多可能的旅途中作念出取舍,这不仅取决于自身的本领,也受制于敌手的计谋。在主动推理中,这种"对曩昔有所猜测但不成笃定的进度"被称作目田能。它不错连续为模子对所处环境(不雅测数据)"没看昭着"的进度。目田能越高,就代表系统对面前或曩昔气象越"没底"。

其中,预判与施行的差距,等于预期目田能。而推理的目的,恰是将这种目田能降至最低。即选手不错通过不雅察(敌手球风、站位)和主动行动(比如试探性地将球打到敌手不擅长的区域)来减少这种不笃定性。最终,目田能降到一定进度,选手就能作念出料敌先机、打败敌手的最好决议。

 

▷  图 3. 该磋磨中生成模子,不论是决议照旧分类,生成模子王人是通过两个主要部分来线路:似然性(likelihood)给定原因的赶走概率和先验 A。似然性线路在每种状态(s)组合下,某个赶走发生的概率。而先验 A 则依赖于立时变量,反应了咱们对赶走的初步假定。脱色状态之间调度的先验 B 由先验 B 决定,这些调度依赖于特定的旅途(u),其调度概率则在 C 中进行了编码。若是某些旅途或者最小化预期目田能(G),那么这些旅途在先验上就更有可能被取舍。

具体来说,咱们不错基于上图 3,梳理出身成模子具体职责过程:

(1)计谋取舍:通过预期目田能的 softmax 函数来取舍计谋,这决定了后续脱色状态的生成表情。计谋取舍过程中,终末一溜的第一项线路近似后验散播(模子预测的状态散播)与真确后验散播(骨子状态散播)之间的 KL 散度,这一项斟酌了近似后验散播与真确散播的各异,反应了模子的复杂度(越小越好)。模子的复杂度较高可能意味着它过于拟合检修数据,无法很好地泛化。第二项线路在近似后验散播下,不雅测数据的对数似然的渴望,它斟酌了模子对不雅测数据的解释才智,解释才智越强,证据模子或者较好地刻画和预测数据,代表了模子的准确性。

(2)脱色状态生成:根据所选旅途组合指定的概率调度,生成脱色状态序列。这些脱色状态代表了模子在不同时期点或要领中的里面状态,匡助模子连续和预测数据的变化。

 

(3)赶走生成:脱色状态通过一个或多个模态生成最终的赶走。在这个过程中,脱色状态的推断是基于不雅测到的赶走序列,通过反推生成模子来意想脱色状态。学习则是通过更新模子参数来已毕。其中推断的过程是以过在(可戒指的)旅途上设立先验,来最小化预期目田能已毕的。

为了便于连续,咱们照旧以网球比赛为例进行证据。其中第一项是指通过模子参数的编削,进步对敌手行动的预测才智;第二项是指通过自身的行动来收尾敌手的取舍;第三项是这些行动由于不雅察不笃定性带来的亏蚀。主动推理模子通过最小化目田能 G(u)来优化计谋,从而在比赛中占据故意位置,最终获得告捷。

02 主动取舍与重整化群

传统的机器学习法式大多是:拿一堆数据去"检修"模子的参数,然后用这些参数来预测或分类。但无意候,模子太盛大或者数据散播太复杂,咱们就需要从多个模子中挑选出最合适的阿谁,让它能既准确又高效地处理数据。

在贝叶斯门户看来,这叫作念"贝叶斯模子取舍"。其中领有所有可能性的"父模子"可能很复杂,包含海量假定;但咱们也不错删掉一些无谓要的假定,让模子更简化,成为更易诡计、更易泛化的"子模子";咱们通过比拟父模子与子模子对数据的解释进度(即目田能、边缘似然等目的),来判断哪个更"精简而有劲"。迎面临新数据时,这个框架不错通过为每个独到不雅测添加新的潜在原因,来已毕快速结构学习。

在模子取舍过程中,通过比拟父模子和增强模子下参数的后验渴望,可诡计预期目田能的各异。这一各异反应了取舍一个模子相较于另一个模子所带来的信息增益,体现了模子在解释数据时的"职守"。根据对数上风比的大小,不错决定保留或拒却父模子。只好当预期目田能缩短时才保留或拒却父模子。

当数据集限制扩大时,模子通过重整化群本领,在更大的模范上生成对更轻细模范的近似刻画,从而高效应酬数据量的增长。拿图像为例,你不错先看一整张大的场景(比如一个城市俯瞰图),然后再不停放大某个局部去看街说念,终末对街说念里的某一栋建筑不时放大……在不同的缩放比例下,你良善的信息不一样,但它们其实是统一个场景,不同模范间不错彼此映射。

重整化群就是利用了这种多线索、多模范的想想:在每一层,模子王人对上一层的赶走进行简化、再加工(如把某些像素合并成一个块,或者把连气儿的语音讯号闹翻成多少音符),酿成一个更高线索、更玄虚的刻画;这么,数据集再盛大,也被一层一层地"压缩"成简便的要素和关系,大大缓慢了诡计职守。而且,这些高线索的"主见"或"状态"或者跨时期、跨空间地进交运算,模子无谓在每一个微小的维度上"纠缠",就不错作念出灵验推断。

在 RGM 中,这种重整化还会体当今时期上:对低线索的模子而言,你可能只良善"下一秒会发生什么"。对更高线索的模子,你良善的是"这一幕戏的剧情走向"或"下一个章节的主题",是以时期跨度更大。这就像看电影时,你不会珍贵每一帧的细节,只须主办举座情节即可。

在连气儿时期的极限情况下,模子的重整化不错处理速率的变化(即加快度),以至更高阶的变化,雷同于连气儿状态空间模子中在广义教会坐标下的运作表情。从更直不雅的角度看,更高线索编码的序列不错看作是事件的组合或情节,在深层结构中,一个状态不错生成序列的序列的序列,从而阻挠了在最低线索生成的内容的马尔可夫性质(即系统确面前状态只与前一个状态关连,而与更早的状态无关)。举个例子,一个低线索的天气模子,不错只关注今天的温度与昨天的温度的关联。但在更高线索,可能要引入"季节"这一主见,关注永久变化的趋势。

▷图 5.   模子重整化过程暗意

此外,模子在状态空间上也需要进行重整化,如图 5 所示,较低线索的状态组由较高线索的单个状态生成,且任何线索的状态王人不会分享较低线索的子状态,这使得潜在因素在每个线索上王人是条目寥寂的,从而保证了模子在不同线索之间不错进行高效的乞降积运算。

最终,RGM 通过多线索的时期和空间模范,把一个复杂的视频、声息或者游戏场景进行玄虚,让模子不错在更"宏不雅"的线索上惩办问题,并把微不雅层的预测(比如像素级别的变化)交给更底层去向理。

03 图像,视频及音频数据的压缩和重建

重整化生成模子可应用于不同类型的数据,例如进行图像分类和识别。咱们王人知说念图像是由连气儿的像素组成的,模子率先会将这些连气儿的像素值挪动为一组闹翻的值,称为量化;然后对图像进行分割,将图像永诀为小方块,这些小方块不错被看作"自旋",通过这种变换,不错让模子集中处理图像的小区域,而不是通盘大图像,这种法式称为"块自旋变换"(Block-Spin Transformation);接着进行奇异值明白(SVD),索取最伏击的信息。通过减少不伏击的因素(即小的奇异值),模子已毕了图像的初步压缩。

重迭对图像进行这种分块处理和变换,直到达到一个更高的线索。每次变换会创建一个从高线索到低线索的似然映射,即从全局的角度到局部的细节的调度,然后,通过快速结构学习(Fast Structure Learning),模子就能根据不同线索之间的结构关系来学习何如生成图像。在检修过程中,模子通过递归应用崎岖变换来学习图像的多线索结构,并不停诊疗参数,以最大化互信息。互信息反应了模子能从数据中索取到的有用信息量,优化模子时就是在尽量进步这一信息量。

以 MNIST 数字分类问题为例,模子通过对 MNIST 图像进行预处理,使用一丝示例图像进行快速结构学习,生成具有四个线索的 RGM。然后,通过主动学习优化模子参数,使互信息最大化。

▷  图 6.   MNIST 图像的量化过程,左图为原始图像,右图为重建图像。

▷图 7. RGM 的似然映射(图像的一个线索映射到另一个线索),上排展示了经转置后的映射,以证据状态在不同线索之间的生成关系。重整化生成模子在学习像素空间顶用于对象识别和生成的生成模子结构的应用。模子使用一丝示例图像来学习适用于无损压缩的重整化结构。

重整化之后,模子通过主动学习对所得赶走进行泛化;即在学习过程中,通过优化它的参数(例如压缩法式和取舍的块变换表情),从普遍图像中中式一些数据进行检修。然后,模子通过诡计这些数据何如压缩(即通过块变换),找到最灵验的压缩表情,使得压缩后的图像仍然保留尽可能多的要津信息。这种主动学习确保了从像素到对象或数字类别的模范不变映射,保留了像素间的互信息。

▷  图 8. RGM 在不同线索上的投射场(模子在不同线索上所学习到的结构),从上到基线索渐渐缩短,投射场渐渐从全局变为局部,雷同于视觉系统中检朴单的感受野到复杂感受野(神经元响应的图像区域)的变化。

除了进行数据压缩,RGM 会使用瞻望最可能的数字类别的表情来对测试图像进行分类。主动推理中的监督依赖于模子一经具备的一些对于内容原因的常识,这与一些在学习中使用类别标签的方针函数酿成对比。

在主动推理中,方针函数是用来斟酌笔据的"可能性"或者"边缘可能性"的一种数学器具。通过优化这个方针函数,模子或者推测出某个气候最可能的原因(比如数字的类别),同期判断这个气候是否是由某个特定的原因(比如数字类别)引起的。简而言之,模子试图通过最小化这种方针函数,来找到最合适的解释,匡助它更准确地连续和推测数据背后的原因。

上述 RGM 在斗争 10,000 个检修图像后,在自行取舍的测试数据子集上达到了起原进的分类准确性。每个检修图像在检修过程中只被呈现给模子一次,并采用连气儿学习表情。伏击的是,主动学习只取舍那些能带来最大信息量的图像进行检修,因此骨子用于学习的图像数目大大少于 10,000 个。这种为学习取舍正确数据,将会是后续部分的反复出现的主题。

▷  图 9. 展示了 MNIST 数据集的主动学习过程,包括互信息和变分目田能的变化。

▷   图 10   RGM 模子产生了谬妄分类的图像示例。

RGM 模子还可被用于识别和生成有序的图像序列,即视频。具体来说,为了生成视频,RGM 模子会磋议时期的变化,把时期分红不同的"模范",并在每个时期线索上进行调度,确保每一帧之间的过渡是独到的、天然的。

接下来,RGM 模子会对图像进行处理,把图像的空间(位置)、脸色和时期信息王人挪动为一个标准的景色,即时期 - 脸色 - 像素体素(time - colour - pixel voxels),并纪录相邻体素之间的变化。

然后,模子会把这些处理过的图像依时期分红等长的段,通过比拟不同时期点之间的各异来估算每段视频的驱动状态,并基于这些估算赶走生成一个新的时期段序列。通过重迭这个过程,模子最终不错生成一个视频序列的举座结构,且每个时期段的变化王人不错用一个简便的景色来线路。

以鸽子扇动翅膀的视频为例,图 11 展示了鸽子视频的原始帧和闹翻化后的重建帧,以及 RGM 生成电影的过程,包括状态和旅途的后验预测以及生成的图像。

▷ 图 11 预测模子生成的鸽子翱游视频。上图,RGM 何如把一帧原始图像"卷"进模子里、进行闹翻化后的重构示例。它证据模子能在保证主要信息不丢的情况下,完成从高维到低维的压缩。中图:RGM 如安在学到视频结构后,通过高层的"事件序列"生成新的、更多的帧序列。它要点体现了模子的"视频生成"功能——不单重构,还能合成新的动态内容。下图:RGM 在面临部分(不完好)输入时,何如利用一经学到的统计结构来推断、补全并及时更新对整幅图像的猜测。它证据了模子具有"基于教会的预测和填补"才智。

将 RGM 应用于声息文献时,可将像素替换为频率和时期上的体素(voxels),组成时期序列,例如使用连气儿小波变换(CWT),并通过逆变换将 CWT 表征调度为线性声息文献进行播放。重整化生成模子对于声息比视频内容更简便,因为需要处理的数据陪同时期只好一个维度。

以鸟叫声和爵士音乐为例,RGM 可对声息进行压缩并复现。图 12 展示了鸟叫声的检修数据,包括连气儿小波变换和闹翻线路。

▷   图 12.   RGM 对鸟叫声的重整化和生成,将鸟叫声压缩为一系列事件,并生成了雷同鸟叫的声息。

▷   图 13.RGM 对爵士音乐的生成,将音乐压缩为 16 个事件,每个事件对应一个音乐末节。

▷   图 14. 展示了 RGM 在有原始声息文献输入时的同步预测才智,雷同于音乐中的同步合奏。

RGM 还可应用于策画推理(强化学习),从而检修智能体使其或者在不笃定性下进行决议。在主动推理框架下,使用 RGM 进行决议的过程比单纯的预测更为平直。这一过程基于目田能旨趣以及与之关连的具身通晓表面。从目田能旨趣的角度看,智能体被视为具有特征状态的自组织系统,特征状态刻画了智能体的类型。眩惑集(attracting set)的存珍贵味着不错用先验偏好来刻画,是对于智能体何如自组织的信息论解释。

从仿生学的角度看,RGM 不服直发出教会领导,而是通过预测教会来戒指智能体的行动,雷同于东说念主类通过外周教会反射来戒指体格动作。这种想法源于目田能旨趣对状态的永诀,里面状态和外部状态通过戒指和嗅觉状态分开,这产生了主动推理,即戒指行动自己就是推理的一部分。

▷   图 15:主动推理和强化学习(即奖励学习)范式之间的区别。

主动推理团结了戒指表面和仿生学,它与强化学习之间的基本区别在于,主动推理中,行动是基于对行动赶走的后验预测来决定的,即通过贝叶斯策画来进行推理,这些预测来源于最小化预期目田能的计谋或经营,展示了行动的后果,减少了不笃定性。主动推理中的信念更新(即感知)和教会戒指(即行动)王人不错被视为最小化不笃定性的过程。这与强化学习有很大不同。在强化学习中,智能体依赖于一个预设的奖励函数,通过检修来更新输入和输出(嗅觉到戒指)之间的函数(频繁是深度神经会聚的参数)。

RGM 还可用于策画推理。以 Atari 类游戏(如 Pong 和 Breakout)为例,RGM 不错从立时动作的赶走序列中自动拼装出或者以群众水平进行游戏的智能体。

▷   图 16. 在 Pong 游戏应用 RGM 所产生中的旅途和轨说念以及何如压缩检修序列,并处理事件之间的调度。

04 数据的"真金不怕火金术",何如带来 AI 的进一步发展?

通过上述一系列实验和表面分析,Friston 过火共事在多种场景下诠释了基于重整化群的闹翻状态空间模子(RGM)特别灵验。在这些应用中,王人通过最小化预期目田能来进行取舍、学习和回转生成模子。重整化群的应用惩办了大限制数据处理的问题,而且由于主动推理法式依赖于目田能旨趣,使用重整化群时相对容易已毕。此外,目田能旨趣自己是一种模范不变的变分旨趣,天生适用于不同模范的系统。

因此,咱们不错说,RGM 在多个边界中具有巨大的后劲。例如,在图像和视频处理中,它不错已毕更高效的压缩和生成,有助于省俭存储空间和进步数据传输后果。在声息处理方面,或者对声息进行灵验的压缩和生成,对于音频数据的存储和传输具有伏击真谛,同期也为音乐创作和声息识别等边界提供了新的想路。在游戏和策画边界,该模子不错匡助智能体学习群众的计谋,已毕更智能的决议和行动,这对于东说念主工智能在游戏、机器东说念主戒指和决议制定等方面的应用具有伏击的股东作用。

RGM 模子结构简便、后果高,或者快速学习模子结构,但目下可能不适合用于复杂系统建模。曩昔的磋磨不错磋议将连气儿状态空间模子调度为闹翻状态空间模子,并使用重整化模范进行学习,同期改良模子的参数化以顺应更多的应用场景。从更豪迈的角度看,这种基于重整化群的法式为连续和处理复杂系统提供了一种新的框架,有助于揭示天然界中普遍存在的模范不变性和结构学习的旨趣,对物理学、生物学和诡计机科学等多个边界的磋磨王人具有一定的启发真谛。

现存的绝大多数东说念主工智能王人依赖于普遍的数据,何如更高效地学习和愚弄这些数据,决定了东说念主工智能惩办问题的后果和才智。回来历史,古代真金不怕火金术在某种进度上股东了冶金术的发展,让咱们或者更好地提真金不怕火和使用金属。今天,咱们一样在尝试将原始、未经处理的数据手脚"原料",从中挖掘出深线索的结构、礼貌和景色,进而索取出有价值的洞见。也许,在不久的将来,具备更强数据处理才智的东说念主工智能或者像《流浪地球》中的 Moss 一样,为咱们的生存提供更刚劲的决议相沿,成为咱们在应酬复杂问题时推断最优解的给力助手。

* 本文参考来源:Friston, Karl, et al. "From pixels to planning: scale-free active inference." arXiv preprint arXiv:2407.20292 ( 2024 ) .

 

 

 

www.hera-flowers.com
官方网站
关注我们
新闻资讯国际科技园4795号
公司地址

Powered by 开云(中国)Kaiyun·官方网站 - 登录入口 RSS地图 HTML地图


开云(中国)Kaiyun·官方网站 - 登录入口-开云体育(中国)官方网站模子通过递归应用崎岖变换来学习图像的多线索结构-开云(中国)Kaiyun·官方网站 - 登录入口