首页 > 技术 > AI/人工智能

AI研习|免疫计算概述|人工智能免疫

人阅读 2023-10-10 06:35:59

【AI研习|免疫计算概述|人工智能免疫】lot物联网小编为你整理了的相关内容,希望能为你解答。

前言

如今,人工智能已经是世界各国高度重视的一个热点领域,相关的研究和应用在学术界、产业界都是如火如荼。一般认为,机器学习是人工智能领域中的热点方向,而深度学习则是机器学习中的热点分支。众所周知,深度学习的前身是人工神经网络,或者更早一些的感知机,其思想来源于人类脑神经细胞构成的神经网络,属于计算智能的一个分支。

在计算智能领域,受人体信息处理机制启发而设计的计算模型主要包括深度学习、进化计算和免疫计算等。目前,深度学习就像正午 12 点的太阳,备受研究和开发人员喜欢,从者甚众。相比之下,进化计算则像是早晨八九点钟的太阳。今年 IEEE 进化计算汇刊的影响因子已达到11.169,从侧面说明其影响力已经不可小觑。至于免疫计算,则是刚刚露出曙光,还有很多不确定性和未知的东西需要探索和研究。

与深度学习和进化计算不同,免疫计算是受生物免疫系统中所蕴含的信息处理机制启发而来的。生物免疫系统是生物体的自我保护系统,具有免疫防御、免疫监视和免疫自稳等功能,是一个复杂自适应系统。因此,生物免疫系统可视为自然界一个典型的安全智能系统,其中蕴含的机制非常值得我们去探索和研究,并设计出新颖高效的免疫计算理论、方法和系统。

在此背景下,特邀了西安电子科技大学焦李成老师、四川大学李涛老师、深圳大学林秋镇老师,以及郑州轻工业学院张伟伟老师各自所领衔的团队,对免疫计算的基本现状,以及克隆选择算法、否定选择算法、免疫优化图像解释、多目标免疫算法进行了综述,希望能对免疫计算这一新的计算智能分支的发展有所推动。

作者:罗文坚

0 引言

免疫计算(Immune Computation)又称为人工免疫系统(Artificial Immune Systems),是计算智能领域中新兴的一个重要研究方向,其基本模型和算法受生物免疫系统启发而来。从信息处理的角度来看,生物免疫系统是一个具有自我学习和自我保护能力的自适应系统,是一个典型的安全智能系统,可为新一代计算智能、人工智能模型和方法提供灵感。国内外研究者将生物免疫系统所隐含的信息处理机制引入计算机科学领域,已提出了多种免疫计算模型和算法,逐渐形成了免疫计算这一研究领域。

免疫计算相关的研究发轫于20世纪80年代中期, 并在 90 年代得到初步发展。1986 年,Farmer 等首次提出了从生物免疫系统的自适应机制启发而来的机器学习模型。1990 年,Bersini和 Varela 提出了将免疫网络理论用于求解自适应问题的一些思路。同年,Ishida 提出了面向分布式故障检测的基于免疫网络原理的并行分布式处理模型。1994 年,Forrest 等基于免疫 T 细胞成熟机制和识别原理提出了负选择模型和算法,这是第一个典型的免疫计算模型和方法,尽管比较简单。随后,从上个世纪90年代末至今,克隆选择算法 (Clonal Selection Algorithms) 、人工免疫网络算法 (Artificial Immune Network) 和树突细胞算法(Dendritic Cell Algorithms) 相继提出,并逐渐形成了免疫计算领域的四个典型研究分支,即信息负表示、克隆选择算法、人工免疫网络算法和树突细胞算法。在应用方面,免疫计算模型和算法已被广泛应用在异常检测、网络安全、隐私保护、复杂优化问题求解、模式分析和机器学习等领域,均取得了不少进展。

伴随着免疫计算研究的发展,一系列相关的学术活动 也 随之诞生和发展起来。IEEE 计算智能协会下的演化计算技术委员会(IEEE CIS ECTC)专门成立了Task Force on Artificial Immune Systems 用于推动免疫计算领域的研究与发展。近年来,在IEEE Symposium Series on Computational Intelligence (IEEE SSCI)系列会议中,都有举行 IEEE Symposium on Immune Computation(IEEEIComputation)免疫计算研讨会。而演化计算领域的重要会议 IEEE Congress on Evolutionary Computation(CEC)已举办过多年的人工免 疫 系 统 主 题 研 讨 会(Special Session)。

IEEE Transactions on Evolutionary Computation、IEEE Transactions on Emerging Topics in Computational Intelligence、Applied Soft Computing、Swarm and Evolutionary Computation、Natural Com-putation、Information Sciences、Engineering Applications of Artificial Intelligence、Neural Computing and Applications、Swarm Intelligence、Genetic Programming and Evolvable Machines 和 Theoretical Computer Sciences 等国际知名学术期刊都曾出版过以免疫计算为主题的 专 刊(Special Issue)。2015 年,免疫计算领域的两位知名学者 Stephanie Forrest 和DipankarDasgupta 当选 IEEE Fellow,其主要贡献均包括免疫计算方面的研究工作。

1 生物免疫系统简述

生物免疫系统是生物体的自我保护系统,它代表着一系列生物学结构和复杂的生物、化学反应。免疫系统承担着检测、清除各类病原体和有害物质,保护生物体生命健康的重大责任。人类对免疫系统的研究有着悠久的历史,直到今天,免疫系统依然是人类医学和生命科学最重要的研究对象之一。在这些研究中,许多免疫学模型和专门学说被提出,比如克隆选择学说、免疫网络模型、免疫危险理论等,这些研究成果为计算机科学与技术研究者提供了灵感,为免疫计算的诞生和发展提供了生物免疫学基础。

从构成上来说,免疫系统由免疫器官、免疫细胞和免疫分子等构成。其中,免疫器官主要负责制造免疫细胞,如脾脏和胸腺等。免疫细胞是与免疫应答过程有关的细胞,如淋巴细胞和吞噬细胞等;而免疫分子则大多是由免疫细胞分泌的物质,如抗体和补体等。

与许多系统类似,生物免疫系统也是一个分层系统,且一般分为三层。第一层由皮肤和粘膜等构成的物理屏障;第二层主要依靠杀菌物质和吞噬细胞等的防御功能,第一层和第二层是天生的非特异性免疫机制。第三层则是特异性免疫机制,也称为获得性免疫,免疫系统通过各种反应识别入侵的病原体,并产生特异性的免疫反应;病原体清除之后,部分免疫细胞可能成为记忆细胞并长期存在于体内。当相同病原体再次入侵时,特异性免疫系统会快速产生强有力的特异性免疫效果。值得一提的是,在免疫计算中,主要依靠的免疫学理论基础就是第三层特异性免疫相关的理论和实验研究成果。

2 代表性模型和算法

2.1 信息负表示

信息负表示(Negative Representation of Information)是免疫计算领域中的一个重要分支。这是一种新颖的数据表示方法,它由免疫T 细胞的“自我 - 非我”识别机制启发而来:生物免疫系统中,能识别“自我”的免疫 T 细胞会被消灭,而不能识别“自我”的免疫 T 细胞则会成熟,并被用来识别“非我”。受到这一机制的启发,信息负表示模型存储和操作的一般是原始信息的补集(或其子集)。信息负表示有负选择(Negative Selection)算法、负数据库(Negative Databases)和负调查(Negative Surveys)三个主要研究方向。

负选择算法(又称为阴性选择算法)最早由 Forrest 等于 1994 年提出,并在过去的 20 多年间得到了广泛的研究。一个典型的负选择算法可以概括为三步。首先,根据实际环境构造自我样本集合 S。接着,生成一个检测器集合 D。特别地,D 中的每个检测器都不能与 S 中的任何一个样本匹配。最后,用检测器集合 D 来监测异常数据。只要被监测数据能与 D 中任一检测器匹配,那么它就被认为是异常数据。

负选择算法已经被应用于如异常检测、错误检测、网络与计算机安全等多个领域。例如,Dasgupta 等利用负选择算法进行时序反常数据的监控;Moncayo 等将负选择算法用于检测飞行器故障;Wang 等使用负选择算法识别病毒和恶意代码。

负数据库是信息负表示的主要模型和重要研究方向之一, 这一概念最早由Esponda 及其同事在 2004 年前后提出。在负数据库中,存储和操作的是原始数据的补集。根据数据存储的形式,负数据库可以分为二进制负数据库和实值负数据库。当前的研究以二进制负数据库为主,因此这里仅扼要介绍二进制负数据库。记全集为 U = {0, 1}n,DB = {x1, x2, ..., xm} 为包含m 个二进制串的正数据库(即原始数据),那么 U−DB 为正数据库的补集。为了压缩存储空间,引入符号 *,用来表示 0 和 1 中的任意一个。由此,U− DB 的压缩表示形式就称为 DB 的负数据库(NDB)。NDB 中的每条记录均可能包含三个符号 0、1、*。其中,值为 0 和 1 的位置称为确定位,而值为 * 的位置称为不确定位。举例来说,如果 DB={000},那么,一个可能的 NDB 则为 {1**, *1*, **1}。值得一提的是,二进制负数据库能与 SAT 公式一一对应,逆转负数据库则与求解对应的 SAT 公式等价。因此,对负数据库的研究而言,许多针对 SAT 问题的研究成果都是可以直接利用的。事实上,许多负数据库生成算法就是由 SAT 公式生成算法转化而来。

负数据库已用于隐私保护、安全认证等多个领域。例如,Dasgupta 等使用负数据库避免了认证过程中在前端直接暴露认证服务器数据;Luo 等则使用负数据库提高了哈希口令认证的安全性。

负调查最早于 2006 年由 Esponda 等提出,是一种在保护受访者隐私的前提下收集敏感信息的方法。在涉及到一些敏感或隐私信息的时候,若采用传统的问卷调查手段,受访者往往不愿意提供真实的信息。在负调查中,只要求被调查用户选取一个(或一部分)与实际情况不相符合的类别(称为负类别),并返回给数据收集者。而收集者,在收集完所用户返回的负类别之后,便可以通过统计学的方法,估算出真实类别的分布。根据受访者返回的负类别数量,负调查可以分为单选负调查和多选负调查两类。而根据受访者选择不同选项的概率,负调查则可以分为均匀负调查和非均匀负调查,这里的“是否均匀”指的是受访者是否以相同的概率选择不同选项。

负调查既可用于收集敏感信息,还可用于隐私保护的数据发布等领域。例如,Horey 等就利用负调查技术收集传感器网络中的敏感信息;Luo 等使用负调查收集网络购物的商品评价信息;Du 等在 2014 年提出了负发布概念和对应的两个数据负发布方法。

2.2 克隆选择算法

克隆选择算法由生物免疫学中的克隆选择学说启发而来。克隆选择算法的基本免疫学原理是,识别出入侵病原体的免疫细胞会进行快速的增殖,而在增殖过程中免疫细胞会发生变异,克隆变异的结果是产生更高亲和度的免疫细胞,从而使得免疫系统能够更高效地识别和清除病原体,这是生物免疫系统自学习和自适应特性的体现。

典型的克隆选择算法由选择、增殖、突变等基本策略组合而成,大致可分为五个步骤。

(1)初始化:随机生成含有 N 个抗体的种群。

(2)亲和度评估:逐个计算种群中每一个抗体与抗原的亲和度。

(3)抗体再生:将种群中的抗体按照亲和度降序排序,选择前 n(<N)个抗体进行克隆和超变异操作。所谓克隆,就是复制选中的抗体。所谓超变异,就是对克隆后的抗体进行突变。其中,复制次数和突变概率均取决于抗体的亲和度。

(4)抗体再选择:评估突变后抗体的亲和度,并且选取最优的 N 个抗体进入下一代种群;有时还使用随机生成的 d(<N)个抗体替换选中的 n="" 个抗体中最差的d个抗体,这是为了提高种群的多样性并避免陷入局部最优。

(5)终止判断:如果结果达到了要求,或者种群已经收敛,或者迭代次数达到了预定次数,那么结束算法;否则,转第 3 步继续执行。应该指出, 克隆选择算法的版本较多,尽管它们的基本框架类似, 但具体算子(乃至具体流程)并不完全相同。此外,在具体的应用中,“抗体”“亲和度”等都需要根据实际问题来定义。

目前,克隆选择算法的主要应用领域是全局优化、约束优化、组合优化、多目标优化和动态优化等复杂优化问题求解领域。在优化问题之外,克隆选择算法也有一些其他领域的应用,包括模式识别、机器学习和数据挖掘等。例如,De Castro 和 Von Zuben 于 2002 年提出的 CLONALG,已用于复杂优化问题求解和模式识别等领域。

2.3 人工免疫网络

人工免疫网络算法是受生物免疫学中的免疫网络学说启发而来。免疫网络学说最早于1974 年由 Jerne 提出,这一学说的核心思想是免疫系统中的元素(细胞、抗原和抗体等)不是孤立存在的个体,而是存在着相互的刺激、制约、识别等关系bubu,且整个免疫系统是一个庞大的处于动态平衡中的网络。人工免疫网络的相关研究也是基于免疫网络学说进行的。目前,主流的人工免疫网络模型主要有两种,分别是由 Timmis 等提出的 AINE 模型和 De Casto 等提出的 aiNet 模型。

AINE 模型提出了人工识别球(Artificial Recog- nition Ball)的概念。一个人工识别球代表的是特定类型的 B 淋巴细胞所覆盖的一个抗原区域,且相似的人工识别球互相连接,从而形成了网络结构。在 aiNE 模型中,资源是有限的,有限资源的分配由人工识别球的激活程度决定。一般而言,激活程度越高的人工识别球能获得

更多的资源。分配不到资源的弱人工识别球会被清除,而激活程度高于阈值的人工识别球则会经历克隆变异形成新的人工识别球群体。

aiNet 模型用加权图来表示抗体网络模型,而算法的运行过程则是模拟生物免疫系统中的抗原刺激和免疫应答过程,使用克隆选择思想使得生成的抗体网络能自适应于抗原模式。aiNet 算法的主要流程:首先,对于每一个抗原模式,计算抗体的亲和度,根据亲和度执行选择、克隆和变异操作,对变异后的个体进行重新评估并选择好的抗体加入记忆集;接着对记忆集中的低亲和度个体执行凋亡操作;然后根据抗体间亲和度对记忆集中剩余的个体进行克隆抑制,并形成最终记忆集。其次,在所有抗原模式处理完之后,对记忆集中的抗体,根据抗体间的亲和度,进行网络抑制。最后,判断是否满足终止条件,否则继续执行上述步骤。人工免疫网络算法已用于数据挖掘、机器学习和复杂优化问题求解等多个领域。比如,AINE 算法就是一种无监督的机器学习方法,aiNet 同样如此。这两种算法均可以用于求解数据的聚类分析问题。进一步,De Castro 等将aiNet 算法应用于优化问题领域,提出了 optaiNet 算法;而 Yue 等使用 aiNet 算法的思路进行垃圾邮件过滤并提出了ICAInet 算法。

2.4 树突细胞算法

树突细胞算法是受生物免疫学中的危险理论学说(Danger Theory)和树突细胞工作机理而提出的一种分类算法。在生物免疫系统中,树突细胞是一种用于呈递抗原的免疫细胞,起初在未成熟状态下的树突细胞会收集抗原和接受不同的刺激信号(安全信号、危险信号和病原体相关分子模式 PAMP 等),根据接收信号不同,分别进入半成熟状态(安全信号浓度较高)或者成熟状态(危险信号或 PAMP 浓度较高)。半成熟和成熟的树突细胞都会将抗原呈递给免疫 T 细胞, 不过半成熟树突细胞会抑制免疫响应,而成熟树突细胞则会激发免疫响应。

树突细胞算法模拟了生物免疫系统中树突细胞的工作方式。一般来说,典型的树突细胞算法依次包括初始化、检测、环境评估和分类四个阶段。在初始化阶段,首先生成一定规模的树突细胞群体,然后选取训练集元素中的关键属性,从属性的实际意义和问题需要出发,将其映射成不同类型的信号,包括安全信号、危险信号和 PAMP 信号。在检测阶段,首先由未成熟树突细胞收集抗原和信号,接着计算并累积协同刺激信号、半成熟信号和成熟信号的值。当累积的协同刺激信号值超过迁移阈值后,进入环境评估阶段。在环境评估阶段中,半成熟信号值和成熟信号值中较大的那一个将成为该细胞的环境。一般地,半成熟环境值记为 0,成熟环境值记为 1。最后是分类阶段,按照细胞的环境值总和计算成熟环境抗原值(MCAV),并根据 MCAV 衡 量 抗 原 的 可 能 有 害 程 度。MCAV 值越接近 1,抗原就越可能是有害的。

Greensmith 和 Aickelin 在 2005 年提出了第一个树突细胞算法;随后,Aickelin 领导的研究团队继续在树突细胞算法上做了大量的工作。目前,树突细胞算法已经应用在故障检测、网络入侵检测等多个领域。例如,Greensmith 等使用树突细胞算法进行网络入侵检测。

3 结束语

本文简介了免疫计算的发展历史和生物免疫系统的多层保护机制,并着重介绍了四个典型的免疫计算研究分支,包括它们的免疫学原理、基本内容和应用领域。生物免疫系统是一个复杂系统,具有自适应、自学习和鲁棒性等特性。从信息处理的角度来看,生物免疫系统是自然界中一个典型的安全智能系统,兼具安全和智能两个特征,可为智能科学与技术提供许多新的思想和模型,已逐渐孕育了免疫计算这一研究领域。从目前的研究现状来看, 免疫计算在机器学习、数据挖掘、异常检测、网络安全、隐私保护等多个涉及到人工智能和信息安全的领域均有着良好的开发潜力及应用前景。

(参考文献略)

选自《中国人工智能学会通讯》

2021年第11卷第3期

免疫计算专题

以上内容为【AI研习|免疫计算概述|人工智能免疫】的相关内容,更多相关内容关注lot物联网。

LOT物联网

iot产品 iot技术 iot应用 iot工程

Powered By LOT物联网  闽ICP备2024036174号-1

联系邮箱:support1012@126.com