视觉语言 - AIGC资讯

ai在电影分镜中的应用：自动化脚本可视化

标题：AI在电影分镜中的应用：自动化脚本可视化随着人工智能技术的飞速发展，其在电影制作领域的应用日益广泛，尤其在电影分镜阶段，AI正逐步成为导演、编剧及制作团队不可或缺的创意辅助工具。自动化脚本可视化，作为AI技术在电影制作中的一项创新应用，不仅极大地提高...

大数据 2025-07-19 人工智能

910阅读

ai与时尚：从趋势预测到个性化推荐

标题：AI与时尚：从趋势预测到个性化推荐的革新之旅在21世纪的科技浪潮中，人工智能（AI）正以前所未有的速度渗透到我们生活的方方面面，时尚界也不例外。这一技术的融入，不仅改变了时尚行业的运作模式，更深刻地影响了我们对美的追求和表达。从精准的趋势预测到高度个...

AIGC 2025-07-07 人工智能

787阅读

ai与艺术：从生成绘画到音乐创作的边界突破

标题：AI与艺术：从生成绘画到音乐创作的边界突破在21世纪的科技浪潮中，人工智能（AI）正以前所未有的速度渗透进人类生活的各个领域，艺术，这一长久以来被视为人类情感与创造力独特表达的殿堂，也悄然迎来了AI的足迹。从最初的生成绘画到如今的音乐创作，AI艺术的...

大数据 2025-06-26 人工智能

684阅读

数据与艺术：算法生成的美学

标题：数据与艺术：算法生成的美学探索在数字时代，数据与艺术的交汇点正孕育着一场前所未有的美学革命。曾经，艺术被视为人类情感与创造力的独特表达，而数据则被看作是冰冷、理性的数字堆砌。然而，随着科技的飞速发展，尤其是人工智能和大数据技术的兴起，算法开始介入艺术...

AIGC 2025-06-12 大数据

678阅读

GPT-4o能玩《黑神话》！精英怪胜率超人类，无强化学习纯大模型方案

AI玩黑神话，第一个精英怪牯护院轻松拿捏啊。有方向感，视角也没有问题。躲闪劈棍很丝滑。甚至在打鸦香客和牯护院时，AI的胜率已经超过人类。而且是完全使用大模型玩，没有使用强化学习。阿里巴巴的研究人员们提出了一个新型VARP（视觉动作角色扮演...

AIGC 2024-09-23 人工智能

1029阅读

AIGC实战——多模态模型Flamingo

AIGC实战——多模态模型Flamingo 0. 前言 1. Flamingo 架构 2. 视觉编码器 3. Perceiver 重采样器 4. 语言模型 5. FIamingo 应用小结系列链接 0. 前言我们已经学习了文...

AIGC 2024-09-18 人工智能

1568阅读

每日AIGC最新进展(57)：小红书提出视频理解模型VideoLLM-MoD、香港大学提出脉冲神经扩散模型、香港大学提出使用反球面插值改进基于扩散模型的数据增强方法

Diffusion Models专栏文章汇总：入门与实战 VideoLLM-MoD: Efficient Video-Language Streaming with Mixture-of-Depths Vision Computation 随着...

人工智能 2024-09-12 人工智能

884阅读

【AI绘画】Midjourney光影控制详解

博客主页： [小ᶻZ࿆] 本文专栏: AI绘画 | Midjourney 文章目录 ?前言 ?为什么要学习光影控制光影控制的作用 ?强化主题 hard lighting（硬光） soft lighting（...

人工智能 2024-09-10 人工智能

1829阅读

第三十五篇-各大模型测评地址和说明集合

1.Open LLM Leaderboard - 开放式LLM排行榜测评地址：https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard 说明：使用Eleuther...

AIGC 2024-09-06 人工智能

1763阅读

AI日报：Claude 3.5 Sonnet不免费了；海螺AI上线音乐和视频生成；360AI 助手推出模型竞技场

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解：https://top.aibase.com/ 1、Claude 3.5 Sonn...

AIGC 2024-09-02 人工智能

1204阅读

ACM MM2024 | 网易伏羲多模态研究再获国际认可，推动特定领域跨模态理解新突破

近日，第32届ACM国际多媒体学术会议（ACM International Conference on Multimedia，简称ACM MM）公布论文接收结果，网易伏羲最新研究成果《Selection and Reconstruction of Key...

人工智能 2024-08-24 人工智能

899阅读

AIGC学习笔记

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档前言提示：这里可以添加本文要记录的大概内容：记录一下学习AIGC，参考链接: 爆火的AIGC到底是什么提示：以下是本篇文章正文内容，下面案例可供参考一、stab...

AIGC 2024-08-21 人工智能

885阅读

本地部署 Llama-3-EvoVLM-JP-v2

本地部署 Llama-3-EvoVLM-JP-v2 0. 引言 1. 关于 Llama-3-EvoVLM-JP-v2 2. 本地部署 2-0. 克隆代码 2-1. 安装依赖模块 2-2. 创建 Web UI 2-3.启动 Web UI 2-4...

生成式AI 2024-08-21 人工智能

1070阅读

3 种华丽的Midjourney 风格参考

1. 参考风格: 70s – 70 年代 (灰色和青色下面的图片可以作为你的 Midjourney 70s 风格参考图。用法： --serf urlA urlB urlC 案例1： 70 年代产品的编辑摄影 + 复古美学...

人工智能 2024-07-28 人工智能

986阅读

AI日报：微软推设计神器Microsoft Designer；苹果开源小模型 DCLM-Baseline-7B；小爱宣布新增AI文档问答等功能

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/ 1、微软推设计神器Microsof...

AIGC 2024-07-22 人工智能

1000阅读

【AIGC调研系列】VILA-1.5版本的视频理解功能如何

VILA-1.5版本的视频理解功能表现出色，具有显著的突破。这一版本不仅增强了视频理解能力，还提供了四种不同规模的模型供用户选择，以适应不同的应用需求和计算资源限制[1][2][3]。此外，VILA-1.5支持在笔记本等边缘设备上部署，这得益于其高效的模型...

AIGC 2024-07-20 人工智能

1619阅读

每日AIGC最新进展(46)：上海AI Lab发布多模态大模型InternLM-XComposer-2.5、阿里发布视频生成大模型EasyAnimate-V3、快手发布人像模型LivePortrait

Diffusion Models专栏文章汇总：入门与实战 InternLM-XComposer-2.5: A Versatile Large Vision Language Model Supporting Long-Contextual Input...

生成式AI 2024-07-19 人工智能

880阅读

【AIGC调研系列】InternVL开源多模态模型与GPT-4V的性能对比

InternVL和GPT-4V都是多模态模型，但它们在性能、参数量以及应用领域上有所不同。 InternVL是一个开源的多模态模型，其参数量为60亿，覆盖了图像/视频分类、检索等关键任务，并在32个视觉-语言基准测试中展现了卓越性能[2]。InternV...

大数据 2024-07-15 人工智能

1663阅读

AIGC实践｜用AI制作视频短片创作全流程

前言：在深入探讨了AI在动态有声绘本和小游戏开发的应用之后，本次我们将聚焦于视频创作领域。本篇文章将详细展示如何使用AI工具从概念构思到画面生成再到最终成片的全过程，涵盖剧本创作、分镜头设计、视觉效果生成及音乐配制等各个阶段。让我们一同启程，再次踏上这...

AIGC 2024-07-05 人工智能

3066阅读

Llama 3-V：以100倍小的模型和500美元匹敌GPT4-V视觉模型

概述 Llama3 的横空出世震惊了世界，它在几乎所有基准测试中都超越了 GPT-3.5，并在一些方面超越了 GPT-4。随后，GPT-4o 的出现凭借其多模态能力再次夺回了王座。今天，我们发布了一个改变现状的产品：Llama3-V，这是首个基于 Ll...

AIGC 2024-06-25 人工智能

1269阅读

AIGC |「多模态模型」系列之OneChart：端到端图表理解信息提取模型

论文标题: OneChart: Purify the Chart Structural Extraction via One Auxiliary Token 论文作者: Jinyue Chen, Lingyu Kong, Haoran Wei, Chen...

人工智能 2024-06-18 人工智能

1146阅读

具身智能的视觉-语言-动作模型：综述

本文经自动驾驶之心公众号授权转载，转载请联系出处。 24年5月论文“A Survey on Vision-Language-Action Models for Embodied AI”。深度学习已在计算机视觉、自然语言处理和强化学习等许多领域取得了显著...

人工智能 2024-06-04 人工智能

1503阅读

理解老司机，超越老司机！LeapAD：具身智能加持下的双过程自驾系统（上海AI Lab等）

本文经自动驾驶之心公众号授权转载，转载请联系出处。论文信息论文题目：Continuously Learning, Adapting, and, Improving: A Dual-Process Approach to Autonomous Dr...

AIGC 2024-06-04 人工智能

1067阅读

【AIGC调研系列】CogVLM2:第二代视觉大模型

CogVLM2是智谱AI推出的新一代多模态大模型，继承并优化了上一代模型的经典架构。CogVLM2采用了一个拥有50亿参数的强大视觉编码器，并创新性地在大语言模型中整合了一个70亿参数的视觉专家模块[1]。这一设计使得CogVLM2在视觉和语言理解方面实现...

人工智能 2024-05-28 人工智能

1667阅读

牛津大学最新 | 近400篇总结！畅谈大语言模型与三维世界最新综述

本文经自动驾驶之心公众号授权转载，转载请联系出处。写在前面&笔者的个人理解随着大型语言模型（LLM）的发展，它们与3D空间数据（3D LLM）之间的集成取得了快速进展，为理解物理空间和与物理空间交互提供了前所未有的能力。本文全面概述了LLM...

AIGC 2024-05-21 人工智能

890阅读

时隔一年Falcon回归！110亿参数5.5万亿token，性能超越Llama 3

这几天，全世界的目光仿佛都被OpenAI发布的GPT-4o所吸引，与此同时，OpenAI的挑战者们也在同步创造历史。就在5月14日，阿布扎比先进技术研究委员会（ATRC）下属的技术创新研究所（TII），发布了新一代的Falcon 2模型。 Falco...

人工智能 2024-05-20 人工智能

821阅读

AI日报：百度搜索11%结果由AI生成；腾讯混元支持生成16s视频；谷歌发布开源视觉语言模型PaliGemma；Hugging Face承诺免费提供1000万美元GPU计算资源

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解：https://top.aibase.com/ 1、李彦宏：百度搜索已有11%结果...

人工智能 2024-05-17 人工智能

845阅读

又被 OpenAI 截胡，Google推出开源视觉语言模型：PaliGemma

前言该模型结合了 SigLIP 视觉模型和 Gemma 语言模型，这两种模型都是开放组件，使得PaliGemma在处理视觉与语言结合的任务上表现出色。 PaliGemma的使用场景包括图像字幕、图像标签和视觉问答等。这些应用场景利用了PaliGemm...

生成式AI 2024-05-17 人工智能

949阅读

谷歌 I/O开发者大会汇总：AI模型全面更新几乎覆盖所有生成模型类型

在昨晚的Google I/O发布会上，Google宣布了一系列AI模型的更新，涵盖了从文本到视觉和音乐的多个领域: Gemini1.5Pro:支持200万上下文，针对翻译、编码、推理等关键用例进行了质量改进，但未发布测试结果。 Gemini Flash:针...

AIGC 2024-05-15 人工智能

829阅读

智谱 AI 上线大模型开放平台 bigmodel.cn

智谱 AI 上线大模型开放平台 bigmodel.cn ，该平台是一个集成了 GLM 系列大模型的平台。这些大模型包括企业版 GLM-4/4V、个人版 GLM-3Turbo、文本描述创作图像的 CogView-3、角色定制模型 CharacterGLM、中...

生成式AI 2024-05-13 人工智能

969阅读

图灵巨头现身ICLR，顶会现场疯狂追星LeCun、Bengio！中国团队三大技术趋势引爆AGI新想象

这几天，AI届的盛会——ICLR在维也纳举办。 OpenAI、Meta、谷歌、智谱AI等世界前沿AI科技企业齐聚一堂。现场名流云集，星光耀眼，走几步就能偶遇一位发过颠覆性paper的大咖。毫无意外地，ICLR 2024展厅也变成了追星现场。热闹的气氛...

人工智能 2024-05-11 人工智能

837阅读

AI教母李飞飞首次创业！成立“空间智能”公司，已完成种子轮

AI教母李飞飞，创业了! 最新消息，斯坦福大学教授李飞飞正在建立一家AI公司，已完成种子轮融资。公司方向定为“空间智能”——旨在让AI能像人类一样对视觉信息进行高级推理。消息人士表示，这将是该技术的一次飞跃。投资方包括硅谷风投a16z和Radical...

生成式AI 2024-05-04 人工智能

885阅读

新加坡国立大学 | 通过语言分割任何3D目标

本文经自动驾驶之心公众号授权转载，转载请联系出处。写在前面&笔者的个人理解本文研究了具有自由形式语言指令的开放词汇3D实例分割（OV-3DIS）。先前的作品只依赖于注释的基本类别进行训练，对看不见的长尾类别的泛化能力有限。最近的工作通过生成类...

人工智能 2024-04-12 人工智能

934阅读

等等我还没上车！LLM赋能端到端全新范式LeGo-Drive，车速拉满

本文经自动驾驶之心公众号授权转载，转载请联系出处。写在前面&笔者个人理解这篇论文介绍了一种名为LeGo-Drive的基于视觉语言模型的闭环端到端自动驾驶方法。该方法通过预测目标位置和可微分优化器规划轨迹，实现了从导航指令到目标位置的端到端闭...

人工智能 2024-04-12 人工智能

953阅读

首个开源世界模型！百万级上下文，长视频理解吊打GPT-4，UC伯克利华人一作

想了解更多AIGC的内容，请访问： 51CTO AI.x社区 https://www.51cto.com/aigc/ 首个开源「世界模型」来了！来自UC berkeley的研究人员发布并开源了LWM（LargeWorldModel）系列模型：论文...

AIGC 2024-04-07 人工智能

865阅读

AIGC批量图生成的一些思考

从技术到先进生产力，从先进装备到作战能力，中间隔了一道GAP。现在AI技术进展很快，开源的模型大部分是单点或者一个模块单元的突破。如何把这些技术整装成作战单元，为业务带来实际的价值是我们必须要解决的一个问题。消费侧技术点中文clip：这...

人工智能 2024-04-05 人工智能

1010阅读

首个开源世界模型LWM ：百万级上下文，长视频理解超GPT-4

来自加州大学伯克利分校的研究人员最近发布并开源了首个世界模型，被称为 LWM（LargeWorldModel）系列模型。这一模型采用了大量视频和书籍数据集，通过 RingAttention 技术实现了长序列的可扩展训练，使得模型的上下文长度达到了1M to...

生成式AI 2024-04-04 人工智能

931阅读

今日AI：AI视频神器PixVerse被玩出花；抖音封杀李一舟等“割韭菜”内容；最神秘国产大模型团队冒泡；剪映Dreamina一键整合mj+sd+PS工作流

欢迎来到【今日AI】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解：https://top.aibase.com/ ???AI应用 AI视频生成神器...

大数据 2024-04-01 人工智能

1039阅读

苹果研发多模态AI，这是研究人员迄今发现的结果

译者 | 布加迪审校 | 重楼如果我告诉你，在最近热议的多模态AI背后，苹果正在悄然酝酿一场革命，你会作何感想？苹果的一群研究人员一直在系统地研究如何构建功能最强大的多模态模型，揭露了质疑传统智慧的重要见解。现在他们让我们有机会一窥底层的细节。他...

人工智能 2024-03-28 人工智能

916阅读

Video-LLaMa:利用多模态增强对视频内容理解

在数字时代，视频已经成为一种主要的内容形式。但是理解和解释视频内容是一项复杂的任务，不仅需要视觉和听觉信号的整合，还需要处理上下文的时间序列的能力。本文将重点介绍称为video - llama的多模态框架。Video-LLaMA旨在使LLM能够理解视频中的...

AIGC 2024-03-27 人工智能

871阅读

突破性的百万级视频和语言世界模型：Large World Model~

本文经自动驾驶之心公众号授权转载，转载请联系出处。在探索如何让AI更好地理解世界方面，最近的一项突破性研究引起了广泛关注。来自加州大学伯克利分校的研究团队发布了“Large World Model, LWM”，能够同时处理百万级长度的视频和语言序列，...

生成式AI 2024-03-26 人工智能

960阅读

离职谷歌的Transformer作者创业，连发3个模型（附技术报告）

去年 8 月，两位著名的前谷歌研究人员 David Ha、Llion Jones 宣布创立一家人工智能公司 Sakana AI，总部位于日本东京。其中，Llion Jones 是谷歌 2017 年经典研究论文《Attention is all you n...

人工智能 2024-03-25 人工智能

868阅读

色彩的魅力与重构的艺术——从色彩构成采集与重构作业图片谈起

在视觉艺术的世界里，色彩是最具表现力和感染力的元素之一。它不仅能够传递情感，还能够引导观者的视线，构建作品的层次感和空间感。而“色彩构成采集与重构”这一作业，正是对色彩运用的一次深入探索和实践。作业要求我们首先从自然或人造环境中采集色彩样本，这一过程犹如在...

人工智能 2024-03-19 大数据

1633阅读

自适应剪枝让多模态大模型加速2-3倍，哈工大等推出SmartTrim

基于 Transformer 结构的视觉语言大模型（VLM）在各种下游的视觉语言任务上取得了巨大成功，但由于其较长的输入序列和较多的参数，导致其相应的计算开销地提升，阻碍了在实际环境中进一步部署。为了追求更为高效的推理速度，前人提出了一些针对 VLM 的...

大数据 2024-03-18 人工智能

884阅读

苹果大模型MM1入场：参数达到300亿超半数作者是华人

苹果公司最新发布了一款名为MM1的大型多模态基础模型，拥有300亿参数，采用了MoE架构，并且超过一半的作者是华人。该模型在多模态领域具有重要意义，可能预示着苹果未来推出与此相关的产品。今年以来，苹果明显加大了对生成式人工智能（GenAI）领域的投入，这...

生成式AI 2024-03-15 人工智能

870阅读

苹果大模型MM1杀入场：300亿参数、多模态、MoE架构，超半数作者是华人

今年以来，苹果显然已经加大了对生成式人工智能（GenAI）的重视和投入。此前在 2024 苹果股东大会上，苹果 CEO 蒂姆・库克表示，今年将在 GenAI 领域实现重大进展。此外，苹果宣布放弃 10 年之久的造车项目之后，一部分造车团队成员也开始转向...

大数据 2024-03-15 人工智能

914阅读

OpenAI大模型上身机器人，原速演示炸场！

OpenAI大模型加持的机器人，深夜来袭！名曰Figure 01，它能听会说，动作灵活。能和人类描述眼前看到的一切：我在桌子上看到了一个红色的苹果，沥水架上面还有几个盘子和一个杯子；然后你站在附近，手放在桌子上。图片听到人类说“想吃东西”，就...

AIGC 2024-03-14 人工智能

827阅读

科幻片成真！Figure与OpenAI合作新进展 Figure 01接入ChatGPT后成“精”了！

Figure最新展示了他们与OpenAI合作的成果，这一合作让他们的机器人获得了惊人的能力。机器人可以进行语音对话、描述周围环境、做出决策推理、执行高层次请求，并口头解释推理过程。这些功能使得机器人能够执行类似人类的快速、灵巧动作，表明这一合作取得了显著进...

大数据 2024-03-14 人工智能

787阅读

谷歌具身智能新研究：比RT-2优秀的RT-H来了

随着 GPT-4 等大型语言模型与机器人研究的结合愈发紧密，人工智能正在越来越多地走向现实世界，因此具身智能相关的研究也正受到越来越多的关注。在众多研究项目中，谷歌的「RT」系列机器人始终走在前沿（参见《大模型正在重构机器人，谷歌 Deepmind 这样...

人工智能 2024-03-11 人工智能

808阅读

基于“帝国cms模板带手机版加采集”的全面解析与实践

引言--随着移动互联网的快速普及和发展，内容的获取和传播途径也随之发生了根本性的变革。为适应这一新形势，越来越多的网站建设者和内容管理者开始关注手机端适配以及内容的采集和整理问题。在这一过程中，“帝国CMS（内容管理系统）模板带手机版加采集”作为一种有效的...

生成式AI 2024-03-10 大数据

895阅读