语义文本图像生成技术关键词分析与热点研究
一、研究背景与研究意义
随着深度学习的发展,语义文本到图像的生成技术已经取得长足进步,AI绘画也因此快速崛起。只需输入关键词,AI系统就能自动生成符合语义描述的图像,这一技术的出现,使绘画的创作方式发生革命性变化。目前主流的AI绘画模型有Midjourney、Stable diffusion和文心一格等,其使用方式多为输入一段含有图片描述的“prompt(指令)”,由算法生成图像后用户进行反馈,改进指令后再次迭代。但由于指令输入规则不明、关键词定义不准确等,这种方式生成的图片多与用户预期不符,在给定复杂语义描述的情况下,生成高质量图像仍存在很大挑战。
一方面,AI绘画可能因模型的训练数据不同,而生成不同结果;另一方面,关键词的合理选择也对生成效果有更加重要的影响。因此,开展语义文本图像生成技术的关键词分析与热点研究,对更好地掌握AI绘画的方法有很大意义。本研究将针对当前网络热门AI绘画作品的语义描述进行分析,分析AI绘画常用指令内容与关键词词频,以寻找语义描述与生成内容之间的内在联系,分析AI绘画热点,了解AI绘画发展趋势。
二、国内外研究现状与发展趋势
2022年是AIGC元年,AIGC(Artificial Intelligence Generated Content),即生成式人工智能,标志着人工智能技术由1.0时代进入了2.0时代。对于此项技术的各种应用成为时下最热门的话题,AI绘画就是人工智能技术在绘画领域的应用,目前的AI绘画主要包括基于深度学习和深度神经网络的AI绘画和基于自然语言处理和知识图谱的AI绘画[1],其发展过程经历了由计算机语言指令到自然语言指令的阶段。
1962年,麻省理工学院首次提出“计算机图形学”这个术语,当时的计算机图形技术可以通过使用基本数学算法来完成对于简单图形的创建。到20世纪70年代,美国Applincon公司开发出了第一个完整的CAD系统,设计师可以在计算机上创建、操作三维形状以及更复杂的图像。1973年,艺术家哈罗德·科恩创造了世界上首个绘画算法——AARON,利用一些简单的计算机指令进行绘画创作。1984年,Adorni等人[2]构思了一个用于场景生成的系统,其输入指令是一系列简单的形容词和短语。1992年,Yamada等人利用一个实验性计算机程序SPRINT,通过自然语言文本生成了所描述的空间模型,称为“从自然语言文本重建空间图像的方法”[3]。2001年Coyne等人[4]提出了自动文本到场景转换系统,该系统可将文本转换为3D场景。2007年用于增强通信的文本到图片合成系统[5]首先识别语句中可描绘的文本单元,然后搜索与文本最接近的图像部分,最后根据文本优化图片布局,由此图像生成技术逐渐完成了从计算机语言到文本描述语言的转化。
通过描述或文本生成相应图像(Text to Image, T2I)的技术,为自然语言到机器视觉的转化提供了通道。语言文本作为人机交互中最自然的输入接口之一,具有灵活、丰富的特点,且语句也可能因主体理解不同而具有不同的含义。未来的图像生成技术将会使用更广泛,用户群体也逐渐趋向非专业化,因此研究文本图像生成技术的语言使用规律,分析语义文本关键词,有助于大众用户更好地使用市面上的AI绘画模型,以更方便、准确地获取需求的图像。
三、主要研究内容
3.1. AI绘画作品关键词分析
Civitai是目前国内外最大的ai绘画分享平台,ai绘画作者可以在平台上分享自己利用AI绘画模型midjourney、Stable diffusion等产生的作品、以及产生作品所使用的prompt(指令)、negative prompt(负面指令)等。研究采用网页爬虫技术收集热门AI绘画平台Civitai中的200份AI图像生成作品,这些作品均基于语义文本产生,并利用自然语言处理技术进行词频统计分析,得出频率最高的关键词,分析关键词的语义、使用方式与搭配规律等。
通过分析AI绘画作品热门关键词词频,可以反映用户偏爱的绘画作品风格、内容和常用的语义描述方式。与此同时,通过分析词汇组合的常见使用模式与搭配规律,如“风格+场景”“颜色+对象”等,可以总结出一套AI绘画指令生成规则,用于优化图像生成模型的使用效果,指导后续图像生成任务的语义文本描述。最后,针对高频词汇提供更准确的语义解析,并跟踪高频词汇的变化,可以掌握用户语义描述方式的演变,以及审美偏好的转变,有助于提高系统的生成效果,掌握流行审美变化趋势,对ai绘画系统的优化提供理论支撑。
3.2. 语义文本图像生成技术相关文献计量分析
研究采用文献计量分析软件CiteSpace6.1.6的可视化分析功能,对国内语义文本图像生成技术领域展开宏观分析。CiteSpace是一款由美国德雷塞尔大学陈超美教授研发的文献计量分析软件,该软件使用Java语言开发,基于共引分析理论和寻径网络算法等方法,专门针对科学知识图谱的构建而设计,可以对特定学科领域的文献进行计量统计分析,揭示该领域知识演进的主要发展路径、重要转折点等信息,构建学科知识框架的视图[6]。
研究搜集了国内500余篇语义文本图像生成技术相关文献,来源方面主要以中国知网(CNKI)数据库为主,通过其高级检索功能,将检索条件设为“主题=“‘语义文本图像生成’或‘文本图像生成’、‘midjourney’、‘人工智能绘画’”进行模糊搜索,将搜索结果导出为涵盖题目、作者、研究机构、关键词、摘要、发表年份等相关信息的Refworks格式,随后在CiteSpace6.1.6设置界面,将时间参数设置为2013-2023年,TopN为50,采用Pathfinder算法进行优化,以关键词作为节点进行分析,构建语义文本图像生成技术研究的关键词共现图谱与时间线图谱。
四、分析结果
4.1. AI绘画作品关键词分析结果
研究先利用网页爬虫获取热门的200幅ai绘画作品所对应的指令与负面指令,利用词频分析软件分析指令词汇出现频率,列举出现频率最高的20个关键词及出现频次(如图4.1所示)。最后获取出现频率最高的50个词汇,将结果进行分类整理,并对其进行语义分析。
图4.1 出现频率前20的AI绘画作品关键词
频率最高的50个词汇按顺序分别为:
Detailed,lora,Quality,hair,girl,Masterpiece,High,eyes,Beautiful,Realistic,Lighting,Body,Face,Light,White,Traditional,photo,Background,Black,Skin,art,Intricate,cinematic,extremely,solo,long,red,blue,dark,sharp,photorealistic,soft,raw,dynamic,colors,women,perfect,portrait,highly,illustration,wall,film,sky,smile,field,short,dramatic,cute,skirt,delicate,texture.
指令关键词可被划分为以下类别:
1.绘画风格描述
Masterpiece, Traditional, Illustration, Photorealistic, Realistic, Dynamic, Sharp, Dramatic, Cinematic, Intricate, Delicate等,这类词汇主要描述了画作的整体风格倾向,如大师风格、传统风格、真实照片风格等。照片级逼真关键词(Photorealistic, Realistic)等词汇出现,显示AI绘画追求强烈的逼真效果,模糊绘画与照片的界限,突破传统绘画的限度。
2.绘画效果描述
Detailed, Quality, Lighting, Texture, Raw, Soft, Perfect等,这类词汇主要描述绘画效果,如细节、质量、光影、质感等。这类词汇使用频率高,反映了AI绘画对细节的精致处理,能够迅速、批量生成具有细腻效果的高质量绘画,这是AI绘画的技术优势。
3.绘画对象描述
Hair, Eyes, Body, Face, Girl, Skin, Women, Portrait, Solo, Long, Short等。这类词汇描述了画作中的主要对象,以女性人物形象为主,说明ai绘画热点内容多为单人年轻女性,并且用户尤其注重细节特征的生成,可以定制对象的头发、身体、皮肤等效果。
4.情感描述词汇
Beautiful, Cute, Smile等。这类词汇说明用户大多趋向于画作拥有积极的情感态度,表明图片带来的正面情感体验也是用户关注的点之一。
5.其它细节描述
除了White, Black, Red, Blue, Dark, Colors等直观的颜色词汇外,还有Background, Wall, Field, Sky等表达场景环境的词汇。
通过上述分类和分析,可以看出这些高频指令词汇主要用于描述作品风格、细节、对象等方面,与人物绘画相关词汇使用频率较高。通过分析总结,得以整理出以下的指令设计架构:风格+效果+对象+情感+颜色+场景构图,可用于指导ai绘画指令生成,得到更符合需求的绘画结果。
4.2. 语义文本图像生成技术相关文献关键词分析
研究利用CiteSpace6.1.6的可视化分析功能,构建了近十年语义文本图像生成技术相关文献的关键词共现图谱(如图4.2所示)。从关键词图谱网络中可得到关键词聚类,表示此研究领域的热点话题[7],其组成的前8个较大的聚类为“人工智能”、“图像生成”、“深度学习”、“绘画”、“学习”、“文本生成”、“中国画”、“技术”。可见其探讨的主要话题为:技术实现手段、艺术与技术的关系、与图像生成风格等。
在关键词共现分析的基础上,利用CiteSpace绘制时间线图谱,图谱可以从时间跨度上呈现该领域的知识演进与热点变化。从图谱可知该领域的研究热点从研究图像生成技术实现手段开始,逐渐演化到多模态、多领域的知识共创,而当今的研究热点则以研究图像生成技术应用的相关话题为主,包括数字版权、商业价值、协同创作等;拓宽ai绘画技术的应用场景、训练风格更丰富ai绘画模型也是领域研究的热点之一。
图4.2 语义文本图像生成技术文献关键词聚类分析
图4.2语义文本图像生成技术文献关键词时间线图谱
五、总结及新见解
研究对当前语义文本图像生成技术的关键词使用规律、当今领域研究热点有全面的了解,对于使用语义文本图像生成技术进行艺术创作,与探讨语义文本图像生成技术未来发展的方向均具有重要借鉴意义。通过上述两个方面的数据搜集、分析与整合,可以得出:AI绘画作品指令关键词可被分为:绘画风格描述、绘画效果描述、绘画对象描述、情感描述词汇和其它细节词汇,从中可以整理出“风格+效果+对象+情感+颜色+场景构图”的绘画指令设计架构。而通过相关文献关键词分析与时间线图谱分析,可见当今领域研究热点主要在于对ai绘画模型的应用与扩展方面。
除了技术实现手段、绘画共创模式与艺术和技术的关系等广受探讨的宏观话题外,在当今ai飞速发展的背景下,语义文本图像生成技术也产生了许多新的问题,如ai绘画技术的更多应用场景、数字绘画版权的伦理问题、商业价值与商业模式的探讨等,这些话题都有待进一步的探究与讨论。
参考文献
[1]杨宇鹤. AI绘画的演化、影响与思辨_杨宇鹤[J]. 传媒, 2023, (17): 52-55.
[2]G Adorni,M Di-Manzo,F Giunchiglia. Natural language driven image generation[C]//10th international conference on computational linguistics and 22nd annual meeting of the association for computational linguistics, 1984.
[3]A Yamada,T Yamamoto,H Ikeda,等. Reconstructing spatial image from natural language texts[C]//COLING 1992 Volume 4: The 14th International Conference on Computational Linguistics, 1992.
[4]B Coyne,R. Sproat. WordsEye: An automatic text-to-scene conversion system[C]//Proceedings of the 28th annual conference on Computer graphics and interactive te-chniques, 2001: 487-496.
[5]X Zhu,B Goldberg-A,M Eldawy,等. A Text-to-Picture Synthesis System for Augmenting Communication[C]//AAAI Conference on Artificial Intelligence. DBLP, 2007: 1590-1595.
[6]陈悦,陈超美,刘则渊,等. CiteSpace知识图谱的方法论功能_陈悦[J]. 科学学研究, 2015, 33(02): 242-253.
[7]况宇翔,李泽梅,黄倩雯. 基于知识图谱的文化创意产品研究热点和趋势分析[J]. 包装工程, 2020, 41(18): 154-164.