人工智能(AI)将于2024年进一步改进,大型语言模型有望进一步发展。
2023年对于人工智能和生成式人工智能来说是激动人心的一年,特别是那些采用大型语言模型(LLM)架构的人工智能,比如来自开放人工智能(GPT 4)、Anthropic(Claude)和开源社区(Llama 2、Falcon、Mistral、Mixtral等)的模型,获得了动力和快速采用。
2024年可能会是更加激动人心的一年,因为人工智能将成为包括CES 2024在内的所有地方的中心舞台,大型语言模型有望进一步发展。
什么是人工智能(AI)以及我们处于什么阶段?
人工智能涉及开发计算系统的领域,这些系统能够执行人类非常擅长的任务,如识别物体,识别和理解语音,以及在受限环境下做出决策。
狭义人工智能(ANI):人工智能的一个领域,机器被设计为执行单一任务,并且机器非常擅长执行该特定任务。然而,一旦机器被训练,就不能推广到未知的领域。这是人工智能的形式,例如,Google翻译,代表了我们直到最近所处的人工智能时代。
广义人工智能(ABI):麻省理工学院IBM沃森实验室解释道:“广义人工智能是下一个。我们刚刚进入这个前沿领域,但当它完全实现时,它将以使用和集成多模式数据流的人工智能系统为特色,更有效、更灵活地学习,并跨越多个任务和领域。广义的人工智能将对商业和社会产生强大的影响。”
IBM进一步解释:“在单一领域执行特定任务的系统正在让位于广义的人工智能,后者可以更广泛地学习,并跨领域和跨问题工作。在大型未标记数据集上训练并针对一系列应用进行微调的基础模型正在推动这一转变。”
广义的人工智能能力是最近出现的,Francois Chollet在2019年提出“即使是当今最先进的人工智能系统也不属于这个类别......”
广义人工智能是一个复杂的自适应系统,它凭借其感官知觉、先前的经验和学到的技能成功地执行任何认知任务。
但作者澄清,ABI模型不具备人脑的整体通用能力。
通用人工智能(AGI):人工智能的一种形式,可以完成人类可以完成的任何智力任务。它更有意识,做出的决策与人类的决策方式类似。它也被称为“强人工智能”,IBM将AGI或强人工智能描述为拥有与人类同等的智能,具有自我意识和解决问题、学习和规划未来的能力。实际上,它将产生“与人类思维没有区别的智能机器”。
目前,AGI仍然是一个愿望,有各种预测,从2025年到2049年,甚至永远不会到来。它可能会在未来十年内实现,但面临着硬件方面的挑战,即当今强大机器所需的能源消耗。作者个人认为,2030年代是一个比较有可能到来的时间。
超级人工智能(ASI):是一种在所有领域都超过人类表现的智能形式(由Nick Bostrom定义)。这是指一般智慧、解决问题和创造力等方面。作者个人的观点是,人类将通过人机接口(可能是无线帽或耳机)来利用先进的人工智能,成为ASI(未来可能是神经拟态计算与量子能力的合并,被称为量子神经拟态计算)。
如今我们在人工智能方面处于什么位置?
Open AI的GPT-4的到来引发了社交媒体上的大量争论,一些人认为,由于GPT-4不是狭义的人工智能,因此它必须是通用人工智能(AGI)。作者将解释后者并非如此。
AGI不太可能在一夜之间神奇地出现,而更有可能通过人工智能研究和开发的持续进化进步过程而实现。
直到最近,我们一直处于狭义人工智能时代。然而,许多最先进的(SOTA)模型现在可以超越狭义的人工智能(ANI),我们越来越多地体验利用LLM的生成式AI模型,这些模型反过来又应用具有自注意力机制架构的变压器,它们是能够展示多模式、多任务处理能力。
然而,说当前的SOTA模型处于人脑水平(AGI)是不准确的,特别是在逻辑和推理任务方面,包括常识。
我们正处于广义人工智能(或ABI)时代,在这个时代,生成式人工智能模型既不是狭义的,因为它们可以执行多个任务;但也不是AGI,因为它们没有达到人类大脑的智力和能力水平。
科幻电影中的先进机器人还没有出现在我们的日常生活中,但是随着人工智能技术的进步,人工智能越来越多地嵌入到先进的机器人中,机器人技术正在迅速发展,例如斯坦福大学的研究人员推出了移动Aloha机器人,它可以向人类学习做饭、打扫卫生、洗衣服。
通往先进人工智能能力的道路
内存:据传GPT-5将解决这个问题,其他模型也一直在寻求解决内存问题,以便AI代理能够回忆起之前的参与情况。此外,在记忆和LLM方面,值得注意的是Dale Schuurmann的论文(2023年)以及Jesus Rodriguez提供的概述,还有Langchain的潜力、王等人(2023)发表了用长期记忆增强语言模型。
逻辑、推理、因果推理:常识和因果推理是LLM和深度神经网络/机器学习模型的其他领域经常遇到困难的领域。虽然思维链(CoT)已显示出希望,但生成式AI模型仍远未达到先进的人类逻辑推理水平。神经符号方法,包括通过LLM插件利用符号人工智能,可能有助于在未来解决这些问题,并为通向AGI开辟道路。
从更小的数据集学习:零样本学习和零样本提示,以及具有自关注机制的变压器采用自监督学习,以提高人工智能能力的状态。
微调,师生模型
初始训练之外,持续更新的世界知识–RAG:检索增强生成使LLM模型能够通过互联网连接到外部数据源,或通过Langchain或LlamaIndex等框架连接到私有数据,并检索最新信息。
对不确定世界的动态响应/动态学习。
多模式多任务处理:LLM正在开发多模式、多任务处理功能,Open AI的GPT 5预计将展示这些功能,其他模型也是如此。
数据:访问、有效且高效的存储、安全性和质量都是人工智能模型的关键。越来越多的合成数据本身可能是由生成式人工智能模型创建的,可能在人工智能的发展中发挥关键作用。
模型行为-强化学习(RL):将人类反馈强化学习(RLHF)应用于LLM,以减少偏差,同时提高性能、公平性和代表性。RLHF需要一个动态环境,在这个环境中,当AI代理进入一个新的状态(AI代理采取的行动)时,它会寻求最大的奖励(获得最优或至少更好的行动),并在什么是RLHF中提供了一个很好的概述。
提高LLM效率的技术
科术专业和开源社区一直在推进使LLM模型更加高效的方法。对于开源社区而言,寻找效率的解决方案非常重要,因为社区中许多人缺乏大型专业的资源。然而,即使是技术专业人士也越来越意识到,将大规模的LLM模型扩展到大量用户会导致巨大的服务器成本和能源成本,从而对碳足迹不利。
使生成式AI模型更加高效的进步示例:
LoRA:是一种在训练过程中显著减少参数数量的技术,它通过将更少数量的新权重插入模型中而只训练这些新权重来实现。这反过来又导致训练过程显着更快,内存效率更高,并且由于降低了模型权重而更容易共享和存储。
Flash Attention是另一项创新,它可以快速和高效地利用内存,具有输入和输出意识的精确注意力。
模型修剪:可以对这些非必要的组件进行修剪,使模型更加紧凑,同时保持模型的性能。
LLM量化:量化是一种压缩技术,可将这些参数转换为单字节或更小的整数,从而显著减小LLM的大小。
此外,硬件解决方案还可以提高计算资源效率,从而节省能源和减少碳足迹,例如第五代英特尔至强可扩展处理器、IBM正在利用模拟AI芯片等开展的工作。这将推动AIoT的兴起,在电力有限的环境中,人工智能可以跨设备扩展网络边缘,而效率和低延迟是关键。
企业可能希望考虑平衡性能能力与资源成本(包括能源和碳足迹的计算成本),和硬件的净现值回报(NPV)或投资回报(ROI)的模型架构。高效的硬件,如第五代英特尔至强可扩展处理器可能提供,特别是对于推理和/或微调模型低延迟小于200亿个参数的模型,如作者之前提出的。
作者认为,从长远来看,量子计算可能为推动人工智能迈向ASI提供潜在的途径,然而,峰值神经网络与树突计算和神经形态计算相结合,可能会为AGI(也很节能)提供一条可能的途径。
与深度学习中典型的人工神经网络(ANN)架构相比,峰值神经网络(SNN)与树突计算相结合时,更接近我们自己的人类大脑。相对于人工神经网络,SNN更节能,并且可以被设计成超低延迟,可以参与持续学习,并且由于它们可以部署在网络的边缘,因此数据更加安全
神经科学家发现树突有助于解释我们大脑独特的计算能力,据报道,科学家首次观察到人脑内一种被认为是独特的细胞信息传递形式,并可能表明我们的人脑拥有比之前认为的更强大的计算能力。
研究已经阐明了树突放大的潜在计算优势,以及利用树突特性推进机器学习和神经启发计算的潜力。
此外,研究还表明,仅靠树突就可以执行复杂的计算,因此单个神经元的多并行处理能力远远超出了常规假设。
研究人员正在寻求更好地了解记忆如何存储在大脑内的树突棘中,以及治疗阿尔茨海默氏症等疾病的潜力。这表明树突在人脑中发挥着重要作用,但ANN架构并不具有树突。
而且,树突预处理已被证明可以减少阈值性能所需的网络大小。此外,具有树突计算的SNN可能需要以瓦数而不是兆瓦数运行。
通过利用模拟信号和连续动态,神经形态计算可以提高人工智能应用的速度、准确性和适应性,同时克服传统计算的限制,例如延迟、功耗和可扩展性。
这将导致万物互联(IoE),其中高效的人工智能代理将超越本地所有互联网连接设备,提供智能响应,从而在所有交互中实现大规模的超个性化,进而称为AIoE。
AIoT以及随后的AloE是一个设备相互通信,并与人类动态交互的世界。
总结
本文是对人工智能现状的战略分析。进入人工智能和LLM领域,总是充满未知及挑战,毕竟在这个广义的人工智能时代,探索通往通用人工智能(AGI)的路,还很长。