多模态第15页 - AIGC资讯

谷歌AI新星转投Pika：视频生成Lumiere一作，担任创始科学家

视频生成进展如火如荼，Pika迎来一位大将—— 谷歌研究员Omer Bar-Tal，担任Pika创始科学家。一个月前，还在谷歌以共同一作的身份发布视频生成模型Lumiere，效果十分惊艳。当时网友表示：谷歌加入视频生成战局，又有好戏可看了。 St...

人工智能 2024-02-26 人工智能

811阅读

谷歌Gemini生图功能紧急关闭，口碑一夜塌房，Yann LeCun：我早就知道

去年年底，谷歌 Gemini 震撼了业界，它是谷歌「最大、最有能力和最通用」的 AI 系统，号称第一个原生多模态大模型，能力超越 GPT-4，也被认为是谷歌反击微软和 OpenAI 的强大工具。对此，在 2 月 8 日，谷歌还把自家对标 ChatGPT...

AIGC 2024-02-26 人工智能

807阅读

【AIGC】基于深度学习的图像生成与增强技术

摘要：本论文探讨基于深度学习的图像生成与增强技术在图像处理和计算机视觉领域的应用。我们综合分析了主流的深度学习模型，特别是生成对抗网络（GAN）和变分自编码器（VAE）等，并就它们在实际应用中的效果和局限性展开讨论。通过比较实验和案例研究，我们评估了不...

生成式AI 2024-02-25 人工智能

1243阅读

图像生成发展起源：从VAE、扩散模型DDPM、DETR到ViT、Swin transformer

前言 2018年我写过一篇博客，叫：《一文读懂目标检测：R-CNN、Fast R-CNN、Faster R-CNN、YOLO、SSD》，该文相当于梳理了2019年之前CV领域的典型视觉模型，比如 2014 R-CNN 2015 Fast R-CNN、...

AIGC 2024-02-25 人工智能

2126阅读

AIGC报告：大模型改变开发及交互环境，处于高速迭代创新周期

今天分享的是AIGC系列深度研究报告：《AIGC报告：大模型改变开发及交互环境，处于高速迭代创新周期》。（报告出品方：华安证券）报告共计：64页 LLM大模型爆发的关键节点: 2017年“Transformer”模型的出现 • 在“Tran...

大数据 2024-02-24 人工智能

859阅读

OpenAI和谷歌，AI对线中的飞驰人生

到底什么时候，才能有一家公司赶超OpenAI?这句问题，想必是过去一年多来，萦绕在不少读者心中的困惑。如果全世界只有一家公司能赶超OpenAI，谷歌应该是最有希望的选手。同为北美AI巨头的谷歌，与OpenAI有着相同的AGI目标、世界级的技术人才、全球...

AIGC 2024-02-24 人工智能

844阅读

鱼眼相机与超声波传感器融合实现鸟瞰近场障碍物感知

本文经自动驾驶之心公众号授权转载，转载请联系出处。论文链接：https://browse.arxiv.org/pdf/2402.00637.pdf 视频链接：https://youtu.be/JmSLBBL9Ruo 本文介绍了鱼眼相机与超声传...

生成式AI 2024-02-23 人工智能

889阅读

EgoGen官网体验入口微软AI合成数据生成自我感知工具使用指南

EgoGen是一个用于生成以自我为中心的合成数据的系统，它能够模拟头戴设备（HMDs）的相机装置，并从相机佩戴者的视角渲染多种传感器数据。该系统提供了丰富的多模态数据和准确的注释，适用于自我感知任务。点击前往EgoGen官网体验入口谁可以从EgoGe...

人工智能 2024-02-23 人工智能

883阅读

AIGC内容分享(五十九)：拐点时刻？AIGC时代的新闻业

目录前言大洗牌：新闻业的三重变革涌现：AIGC正掀起一场 “供给侧改革”之外：达克摩斯之剑： AIGC时代结语：前言一阵生成式人工智能(AIGC 的旋风，正在席卷众多领域。 2022年底，OpenAI发布自然语言对话...

人工智能 2024-02-23 人工智能

1147阅读

Latent Diffusion Models / Stable Diffusion（LDM）

High-Resolution Image Synthesis with Latent Diffusion Models（CVPR 2022）https://arxiv.org/abs/2112.10752latent-diffusionstable-di...

人工智能 2024-02-22 人工智能

1070阅读

都在搞端到端，试问端到端自动驾驶的基石到底是什么？

本文经自动驾驶之心公众号授权转载，转载请联系出处。写在前面&笔者的个人理解基础模型的出现彻底改变了自然语言处理和计算机视觉领域，为其在自动驾驶（AD）中的应用铺平了道路。这项调查对40多篇研究论文进行了全面回顾，展示了基础模型在增强AD中的...

人工智能 2024-02-22 人工智能

904阅读

在OpenAI引领的多模态时代，专注语音的ElevenLabs如何生存？

2024年2月，OpenAI的视觉大模型Sora横空出世，这是一个历史性的里程碑，视觉生成领域将有一次大的技术和商业革命。在Sora发布几天后，AI语音创业公司ElevenLabs为Sora的演示视频完成了精准匹配的配音，AI视频“以假乱真”的制作链条实...

大数据 2024-02-21 人工智能

902阅读

深度学习在时间序列预测的总结和未来方向分析

2023年是大语言模型和稳定扩散的一年，时间序列领域虽然没有那么大的成就，但是却有缓慢而稳定的进展。Neurips、ICML和AAAI等会议都有transformer 结构(BasisFormer、Crossformer、Inverted transf...

生成式AI 2024-02-21 人工智能

913阅读

免费AI网站，AI人工智能写作+在线AI绘画midjourney

大家可以通过收藏网页www.woka.chat 直接进行访问，也可通过关注新公众号实现微信端使用~ 注册赠送大量额度，可用于网站全部功能（问答和绘画）！每天签到也可领取充足使用额度！废话不多说，我们现在来看看新系统到底有什么特点？网页手机...

生成式AI 2024-02-21 人工智能

1217阅读

AnyGPT:实现任意模态输入到任意模态输出

近日，复旦大学、上海人工智能实验室等机构联合推出了一款名为AnyGPT的多模态大语言模型，该模型在处理语音、文本、图像和音乐等多种模态输入时，可以生成任何模态的输出。 AnyGPT采用离散表示技术，通过在各模态输入上进行离散标记，实现了多模态信息的统一处...

大数据 2024-02-20 人工智能

921阅读

Sora概念股大涨人工智能「AI视频生成」应用工具软件有哪些？

最近在Sora文生视频模型热点的带动下，A股市场的AI概念股出现了全线爆发的情况。各家上市公司对于Sora相关产品和应用的发展状态表示，目前处于初级阶段，需要进一步研究和探索。随着文生视频技术的落地和Sora应用的深入，这些公司将在自身业务特点的基础上...

AIGC 2024-02-20 人工智能

967阅读

『拯救』开放异构场景 | HEAL：最新可扩展协作感知框架

本文经自动驾驶之心公众号授权转载，转载请联系出处。协同感知技术能够有效解决自动驾驶车辆单体感知中存在的障碍物遮挡、视角受限、以及远距离感知能力弱等问题。然而，现有的工作都做了一个过分简单的假设，即参与协作的智能体使用相同的传感器，部署相同的感知模型。...

生成式AI 2024-02-20 人工智能

1056阅读

揭秘Sora技术路线：核心成员来自伯克利，基础论文曾被CVPR拒稿

最近几天，据说全世界的风投机构开会都在大谈 Sora。自去年初 ChatGPT 引发全科技领域军备竞赛之后，已经没有人愿意在新的 AI 生成视频赛道上落后了。在这个问题上，人们早有预判，但也始料未及：AI 生成视频，是继文本生成、图像生成以后技术持续发...

生成式AI 2024-02-20 人工智能

877阅读

GitHub热榜第一：百万token上下文，还能生成视频，UC伯克利出品

今日GitHub热榜榜首，是最新的开源世界模型。上下文窗口长度达到了100万token，持平了谷歌同时推出的王炸Gemini 1.5，伯克利出品。强大的模型，命名也是简单粗暴——没有任何额外点缀，直接就叫LargeWorldModel（LWM）。...

AIGC 2024-02-20 人工智能

872阅读

100万token，一次能分析1小时YouTube视频，「大世界模型」火了

最近几天，我们接连被谷歌的多模态模型 Gemini 1.5 以及 OpenAI 的视频生成模型 Sora 所震撼到，前者可以处理的上下文窗口达百万级别，而后者生成的视频能够理解运动中的物理世界，被很多人称为「世界模型」。然而，这些刷屏无数的模型真的能很好...

大数据 2024-02-20 人工智能

765阅读

AIGC专题：AIGC产业链近况更新

今天分享的是AIGC系列深度研究报告：《AIGC专题：AIGC产业链近况更新》。（报告出品方：国联证券）报告共计：19页 AIGC 正反馈持续加强依托于强大的算力基础设施和海量的通用数据，经过训练和不断调优打造出了 AIGC 大模型，到中...

人工智能 2024-02-19 人工智能

999阅读

生成式人工智能（AIGC）之最全详解图解

生成式人工智能（AIGC）之最全详解图解 1. AIGC的发展历程 1.1 AIGC演化重要时间节点 AIGC发展历程图 OpenAI大语言模型发展进程 1.2技术推进路线 2.AIGC技术场景 2.1 技术场景 3.1AIGC相关应用...

生成式AI 2024-02-18 人工智能

2487阅读

如何免费访问和使用Gemini API？

Gemini是谷歌开发的一个新模型。有了Gemini可以为查询提供图像、音频和文本，获得几乎完美的答案。我们在本教程中将学习Gemini API以及如何在机器上设置它。我们还将探究各种Python API函数，包括文本生成和图像理解。 Gemini A...

大数据 2024-02-18 人工智能

2310阅读

AIGC音视频工具分析和未来创新机会思考

编者按：相较于前两年，2023年音视频行业的使用量增长缓慢，整个音视频行业遇到瓶颈。音视频的行业从业者面临着相互竞争、不得不“卷”的状态。我们需要进行怎样的创新，才能从这种“卷”的状态中脱离出来？LiveVideoStack 2023上海站邀请到了P...

人工智能 2024-02-18 人工智能

948阅读

近期关于AIGC方面的学习笔记和思路整理

LLM 对于LLM，我现在重点关注在这几个方面：开源且可私有化部署的代码生成模型：因为大部分软件企业对于安全都很重视，文档、数据、代码一般都会尽量避免被泄露。所以很难使用类似Copilot或者OpenAI的Bito这种需要连到互联网上的服务。如果...

生成式AI 2024-02-17 人工智能

977阅读

AIGC内容分享(二)：全球大模型技术与应用分析

目录前言人工智能技术回顾 AIGC近期动态梳理 1. 国内动态 2. 国外动态 3. OpenAI的关键动作 4. AIGC的技术变革 AIGC的关键应用 1. AIGC应用背后的驱动力 2. AIGC的三大原能力 3. AI...

生成式AI 2024-02-17 人工智能

1007阅读

从声音到形象，AIGC 赋能的 TT 语音年度盛典有多好玩？

摘要： 23年是 AIGC 暴热的一年，这一年我们既兴奋又彷徨。兴奋之处在于新技术持续突破，业界“百模大战”的白热化，一些创新应用开始崭露头角，例如 ChatGPT 和 DALL·E 3，Midjourney，HeyGen，星野，Copilot 等。彷...

大数据 2024-02-17 人工智能

993阅读

每日互动（个推）CTO叶新江：AIGC时代，大模型推动数据要素商业化

ChatGPT在一夜之间火爆互联网，让AIGC受到世界范围内的高度关注。时至今日，AIGC热度持续高涨，各大互联网公司争相布局这一领域。日渐成熟的技术、显著的降本增效优势以及日益增长的市场需求等因素，已经推动AIGC成为互联网公司新一轮必争之地。在近期...

生成式AI 2024-02-16 人工智能

869阅读

读懂ChatGPT、AIGC和元宇宙

参考来源：书名：一本书读懂ChatGPT、AIGC和元宇宙作者：王喜文出版社：电子工业出版社出版时间：2023年5月 ISBN：9787121453571 斯克称ChatGPT将颠覆世界；微软为ChatGPT投资数百亿美元，并计划将其整...

AIGC 2024-02-16 人工智能

821阅读

文心一言4.0API接入指南

概述文心一言是百度打造出来的人工智能大语言模型，具备跨模态、跨语言的深度语义理解与生成能力，文心一言有五大能力，文学创作、商业文案创作、数理逻辑推算、中文理解、多模态生成，其在搜索问答、内容创作生成、智能办公等众多领域都有更广阔的想象空间。文心一言企业...

生成式AI 2024-02-15 人工智能

2183阅读

AIGC内容分享(五十二)：AIGC视觉艺术创新工具之：Bing图像生成器（Bing Image Creator）

“视觉艺术工具”是指能够协助艺术家或设计师创作视觉艺术作品的一类工具。通常，这类工具的学习和使用门槛较高，往往只有专业人士能够运用。通过AIGC生成全新的艺术品，这种创新的创作方式显著降低了艺术创作的门槛，使其变得更加平易近人、易于使用。这使得更多非专...

AIGC 2024-02-15 人工智能

1398阅读

扩散模型的发展过程梳理多个扩散模型理论知识总结/DDPM去噪扩散概率/IDDPM/DDIM隐式去噪/ADM/SMLD分数扩散/CGD条件扩散/Stable Diffusion稳定扩散/LM

前言 1.最近发现自己光探索SDWebUI功能搞了快两个月，但是没有理论基础后面科研路有点难走，所以在师兄的建议下，开始看b站视频学习一下扩散模型，好的一看一个不吱声，一周过去了写个博客总结一下吧，理理思路。不保证下面的内容完全正确，只能说是一个菜鸟的思...

AIGC 2024-02-15 人工智能

2146阅读

清华系2B模型杀出，性能吊打LLaMA-13B

2 月 1 日，面壁智能与清华大学自然语言处理实验室共同开源了系列端侧语言大模型 MiniCPM，主体语言模型 MiniCPM-2B 仅有 24 亿（2.4B）的非词嵌入参数量。在综合性榜单上与 Mistral-7B 相近，在中文、数学、代码能力表现更...

人工智能 2024-02-13 人工智能

902阅读

LLM是世界模型的新证据？ChatGPT能理解WiFi等物理信号，并猜出你的位置

大语言模型是否是世界模型? 大语言模型除了在数字世界完成如写作或翻译等任务，它们能否理解并处理物理世界中的信息并进而完成更广泛的任务呢? 最近来自香港科技大学（HKUST）、南洋理工大学(NTU 与加利福尼亚大学洛杉矶分校(UCLA 的研究者们提供了新的思...

生成式AI 2024-02-13 人工智能

949阅读

每日一看大模型新闻（2023.12.13）趣味项目CLoT:训练LLM更幽默地回答问题；用RLHF 2%的算力让LLM停止有害输出，字节提出LLM遗忘学习；2.7B能打Llama 2 70B，微软祭出

1.产品发布 1.1 2.7B能打Llama 2 70B，微软祭出「小语言模型」发布时间：2023-12-13 2.7B能打Llama 2 70B，微软祭出「小语言模型」！96块A100 14天训出Phi-2，碾压谷歌Gemini na...

大数据 2024-02-13 人工智能

1016阅读

文心一言一把火，百度智能云盈利了！李彦宏诚不欺我？

鱼羊发自凹非寺量子位 | 公众号 QbitAI 文心一言发布后，百度的首份财报来了。先说结论：以文心一言为代表的大模型技术，正在给百度带来新的增长契机。文心一言发布前，李彦宏就曾判断：中国AI市场即将迎来爆发性的需求...

生成式AI 2024-02-13 人工智能

955阅读

将AI融入CG特效工作流；对谈Dify创始人张路宇；关于Llama 2的一切资源；普林斯顿LLM高阶课程；LLM当前的10大挑战 | ShowMeAI日报

?日报&周刊合集 | ?生产力工具与行业应用大全 | ? 点赞关注评论拜托啦！ ? 将AI融入CG特效工作流，体验极致的效率提升 BV1pP411r7HY 这是 B站UP主 @特效小哥studio 和 @拓星研究所联...

大数据 2024-02-12 人工智能

1161阅读

AI绘画：Stable-diffusion程序的突破与未来展望

随着人工智能技术的快速发展，AI绘画已经成为了一个备受关注的前沿领域。在这其中，Stable-diffusion程序作为一款优秀的AI绘画工具，以其独特的风格和强大的功能，受到了广泛的关注和赞誉。本文将对Stable-diffusion程序进行深入解析，探...

人工智能 2024-02-12 人工智能

1274阅读

OpenAI豪赌7万亿，能买4个英伟达！奥特曼芯片帝国占全球GDP 10%，或引世界经济末日？

昨天，Sam Altman筹资7万亿美元建芯片帝国的新闻一出，舆论哗然。 7万亿美元，是全球GDP的10%，大约是美国GDP的1/4，或者2/5个中国的GDP。这个数字实在令人难以理解，除非OpenAI确信，自己的技术就从根本上重塑整个世界。否则，人...

大数据 2024-02-12 人工智能

962阅读

国内大厂这么玩AI就对了！AI绘画版权攻防「黑魔法」；用AI赚到钱的人做对了什么；Agent机遇全解析；2024生成式AI学习路线图 | ShowMeAI日报

?日报&周刊合集 | ?生产力工具与行业应用大全 | ? 点赞关注评论拜托啦！ ? 小红书「AI涂鸦」，抖音「AI扩图」，国内大厂找到了AI正确打开方式配图说明：小红书AI创作工具「此刻」使用方式：点击首页底部「+」...

生成式AI 2024-02-12 人工智能

1173阅读

《杭州新闻联播》首推全AI主持播报：表情生动、肢体自然

快科技2月12日消息，据杭州电视台官方公众号杭州综合频道”介绍，《杭州新闻联播》甲辰龙年上新两位新主播小雨、小宇。这两位主播已经在年初一和年初二的节目中登场，TA们是杭州文广集团短视频AI生产实验车间开发生产的AI数字主播，以两位真人主播雨辰、麒宇为蓝本...

人工智能 2024-02-12 人工智能

832阅读

AI 编程的机会和未来：从 Copilot 到 Code Agent

大模型的快速发展带来了 AI 应用的井喷。统计 GPT 使用情况，编程远超其他成为落地最快、使用率最高的场景。如今，大量程序员已经习惯了在 AI 辅助下进行编程。数据显示，GitHub Copilot 将程序员工作效率提升了 55%，一些实验中 AI 甚至...

AIGC 2024-02-11 人工智能

1336阅读

上海人工智能实验室发布LLaMA-Adapter | 如何1小时训练你的多模态大模型用于下游任务

本文首发于微信公众号 CVHub，未经授权不得以任何形式售卖或私自转载到其它平台，违者必究！ Title: LLaMA-Adapter: Efficient Fine-tuning of Language Models with Zero-...

人工智能 2024-02-11 人工智能

1106阅读

AI系统ChatGPT网站系统源码AI绘画详细搭建部署教程，支持GPT语音对话+DALL-E3文生图+GPT-4多模态模型识图理解

一、前言 SparkAi创作系统是基于ChatGPT进行开发的Ai智能问答系统和Midjourney绘画系统，支持OpenAI-GPT全模型+国内AI全模型。本期针对源码系统整体测试下来非常完美，可以说SparkAi是目前国内一款的ChatGPT对接Op...

生成式AI 2024-02-11 人工智能

1031阅读

第四范式AIGC的野心，改变软件行业游戏规则

图片AI算法提供：Midjourney 在国内众多发布大模型的科技企业中，第四范式入局的方式与众不同。 “我们并不需要完整地对标OpenAI，也并不需要OpenAI能做什么就一定要做什么……我们不去参与一场全面的竞争，而是专注于其中一场比...

人工智能 2024-02-11 人工智能

906阅读

百度的文心一言，没有想像中那么差

robin 的演示我们用 robin 的演示例子来对比一下文心一言和 ChatGPT 的真实表现（毕竟发布会上是录的）。注意，我使用的 GPT 版本是 4.0 文学创作 1 三体的作者是哪里人？文心一言： ChatGPT：嗯，中文...

AIGC 2024-02-10 人工智能

932阅读