多模态模型第2页

Android 15即将推出：融入谷歌Gemini大模型

快科技5月15日消息，谷歌在I/O大会上宣布，Android 15已融入谷歌Gemini大模型，支持诸如AI语音助理防诈骗、画圈图片搜索、理解图片给出更符合用户需求的答案等功能，Android 15 Beta 2将在明天正式推出。据悉，全新升级后的谷歌G...

AIGC 2024-05-15 人工智能

739阅读

开源领域最强大模型！阿里云发布通义千问2.5：全面赶超GPT-4 Turbo

快科技5月9日消息，阿里云正式发布了通义千问2.5，模型性能全面赶超GPT-4 Turbo，声称地表最强中文大模型。据了解，通义千问2.5最新开源的1100亿参数模型在多个基准测评中均取得了最佳成绩，成功超越了Meta的Llama-3-70B模型，成为开...

生成式AI 2024-05-09 人工智能

828阅读

AI日报：Remini“黏土AI”攻占小红书；HeyGen推自动剪辑工具；多图漫画工具StoryDiffusion来了；AI音乐Udio可生成15分钟音频

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解：https://top.aibase.com/ 1、这个五一假期，小红书被Remi...

大数据 2024-05-06 人工智能

1441阅读

Meta AI推MA-LMM:用于长视频理解的记忆增强多模态大模型

Meta AI近日推出了一种名为MA-LMM的新型模型，旨在解决长期视频理解中的挑战。LLMs在处理文本数据时表现出了令人印象深刻的能力，但在处理视频输入方面存在一些限制，例如上下文长度限制和GPU内存限制。为了克服这些限制，研究人员提出了MA-LMM，...

生成式AI 2024-04-12 人工智能

1139阅读

太全了！多模态深度学习的综述！

1.介绍我们对世界的体验是多模态的 —— 我们看到物体，听到声音，感觉到质地，闻到气味，尝到味道。模态是指某件事发生或经历的方式，当一个研究问题包含多个模态时，它就具有多模态的特征。为了让人工智能在理解我们周围的世界方面取得进展，它需要能够同时解释这些...

人工智能 2024-04-08 人工智能

1021阅读

中科大等意外发现：大模型不看图也能正确回答视觉问题！

想了解更多AIGC的内容，请访问： 51CTO AI.x社区 https://www.51cto.com/aigc/ 大模型不看图，竟也能正确回答视觉问题？！中科大、香港中文大学、上海AI Lab的研究团队团队意外发现了这一离奇现象。他们首先看到像...

人工智能 2024-04-07 人工智能

796阅读

Kimi平替？最神秘国产大模型团队阶跃星辰冒泡一出手就是两个王炸！

国内基础大模型创业公司阶跃星辰近日正式亮相，由微软前全球副总裁姜大昕创立。该公司专注于多模态融合和Scaling Law，已经开发出千亿参数的ToC产品，并在万亿模型研发上取得显著进展。阶跃星辰的产品包括两款面向C端市场的应用:跃问和冒泡鸭，均已全面开放使...

生成式AI 2024-04-01 人工智能

1003阅读

【Stable Diffusion】专栏介绍和文章索引（持续更新中）

目录 1 背景 2 思考 3 文章索引（持续更新中） 3.1 入门 3.2 初级 3.3 中级 3.3 高级 1 背景最近开始学习AIGC，对Stable Diffusion比较感兴趣，所以新建了这个专栏，来记录自己在使用和...

AIGC 2024-03-29 人工智能

881阅读

苹果研发多模态AI，这是研究人员迄今发现的结果

译者 | 布加迪审校 | 重楼如果我告诉你，在最近热议的多模态AI背后，苹果正在悄然酝酿一场革命，你会作何感想？苹果的一群研究人员一直在系统地研究如何构建功能最强大的多模态模型，揭露了质疑传统智慧的重要见解。现在他们让我们有机会一窥底层的细节。他...

人工智能 2024-03-28 人工智能

923阅读

OpenAI把微软电网搞崩！GPT-6被曝25年发布，训练刷爆10万张H100

GPT-6也被电力卡脖子了——部署十万个H100时，整个电网发生了崩溃！就在刚刚，微软工程师爆料，10万个H100基建正在紧锣密鼓地建设中，目的就是训练GPT-6。微软工程师吐槽说，团队在部署跨区域GPU间的infiniband级别链接时遇到了困难。...

大数据 2024-03-27 人工智能

866阅读

文生图的基石CLIP模型的发展综述

CLIP的英文全称是Contrastive Language-Image Pre-training，即一种基于对比文本-图像对的预训练方法或者模型。CLIP是一种基于对比学习的多模态模型，CLIP的训练数据是文本-图像对：一张图像和它对应的文本描述，这里...

AIGC 2024-03-22 人工智能

1040阅读

零一万物API开放多模态中文图表体验超越GPT-4V

近日，零一万物API正式向开发者开放，其中包含三款强大的模型。首先是Yi-34B-Chat-0205，支持通用聊天、问答、对话、写作和翻译等功能;其次是Yi-34B-Chat-200K，能处理多文档阅读理解和构建超长知识库;最后是Yi-VL-Plus多模态...

生成式AI 2024-03-22 人工智能

804阅读

国产大模型kimi chat突然火了 Kimi概念股都有哪些？

3 月 21 日，三大指数集体高开高走。受Kimi的催化，影视院线板块在内的Kimi概念股盘中走高，影视院线板块延续昨日涨势，开盘后迅速拉升走强。影视ETF（159855）领涨，截至发稿，该ETF涨3.45%，成交额突破 810 万元，换手率13.98%...

生成式AI 2024-03-21 人工智能

812阅读

自适应剪枝让多模态大模型加速2-3倍，哈工大等推出SmartTrim

基于 Transformer 结构的视觉语言大模型（VLM）在各种下游的视觉语言任务上取得了巨大成功，但由于其较长的输入序列和较多的参数，导致其相应的计算开销地提升，阻碍了在实际环境中进一步部署。为了追求更为高效的推理速度，前人提出了一些针对 VLM 的...

大数据 2024-03-18 人工智能

890阅读

2024最新ChatGPT网站源码, AI绘画系统

一、前言说明 R5Ai创作系统是基于ChatGPT进行开发的Ai智能问答系统和Midjourney绘画系统，支持OpenAI-GPT全模型+国内AI全模型。本期针对源码系统整体测试下来非常完美，那么如何搭建部署AI创作ChatGPT？小编这里写一个详细...

大数据 2024-03-16 人工智能

955阅读

生数科技「多模态大模型」正式通过备案

近日，生数科技「多模态大模型」正式通过国家《生成式人工智能服务管理暂行办法》备案。成立于2023年3月，生数科技是一家全球领先的自主研发多模态通用大模型的人工智能企业，布局MaaS（模型即服务）与应用级产品，面向艺术设计、游戏制作、影视动画、社交娱乐等...

AIGC 2024-03-15 人工智能

850阅读

4万亿晶体管5nm制程，全球最快AI芯片碾压H100！单机可训24万亿参数LLM，Llama 70B一天搞定

全球最快、最强的AI芯片面世，让整个行业瞬间惊掉了下巴！就在刚刚，AI芯片初创公司Cerebras重磅发布了「第三代晶圆级引擎」（WSE-3）。性能上，WSE-3是上一代WSE-2的两倍，且功耗依旧保持不变。 90万个AI核心，44GB的片上SRA...

生成式AI 2024-03-15 人工智能

853阅读

能说会看会行动，OpenAI机器人，一出手就是王炸

「借助 OpenAI 的能力，Figure 01 现在可以与人全面对话了！」本周三，半个硅谷都在投的明星机器人创业公司 Figure，发布了全新 OpenAI 大模型加持的机器人 demo。这家公司在 3 月 1 日刚刚宣布获得 OpenAI 等公...

人工智能 2024-03-14 人工智能

789阅读

零一万物发布API开放平台

3月14日，零一万物正式发布 Yi 大模型 API 开放平台，为开发者提供通用 Chat、200k 超长上下文、多模态交互等模型。同时，零一万物表示，近期零一万物将为开发者提供更多更强模型和 AI 开发框架。主要亮点包括：推出一系列的模型 API，...

生成式AI 2024-03-14 人工智能

1020阅读

科幻片成真！Figure与OpenAI合作新进展 Figure 01接入ChatGPT后成“精”了！

Figure最新展示了他们与OpenAI合作的成果，这一合作让他们的机器人获得了惊人的能力。机器人可以进行语音对话、描述周围环境、做出决策推理、执行高层次请求，并口头解释推理过程。这些功能使得机器人能够执行类似人类的快速、灵巧动作，表明这一合作取得了显著进...

大数据 2024-03-14 人工智能

794阅读

清华系2B模型杀出支持离线本地化部署，可以个人电脑或者手机上部署的多模态大模型，超越 Mistral-7B、LLaMA-13B

清华系2B模型杀出支持离线本地化部署，可以个人电脑或者手机上部署的多模态大模型，超越 Mistral-7B、LLaMA-13B。 2 月 1 日，面壁智能与清华大学自然语言处理实验室共同开源了系列端侧语言大模型 MiniCPM，主体语言模型 Mini...

人工智能 2024-03-11 人工智能

885阅读

华人CV宗师黄煦涛高徒离职特斯拉，加入OpenAI！专攻多模态模型研究

OpenAI又迎来一位AI大将。最近，华人科学家程博文官宣离职特斯拉，即将加入OpenAI专攻多模态模型的研究。图片今天是我在特斯拉自动驾驶部门的最后一天，这一年半的经历真的很棒：有机会与才华横溢的同事们共事，学习了如何开发出色的产品等等。但我向通...

AIGC 2024-03-11 人工智能

809阅读

用AI短视频「反哺」长视频理解，腾讯MovieLLM框架瞄准电影级连续帧生成

在视频理解这一领域，尽管多模态模型在短视频分析上取得了突破性进展，展现出了较强的理解能力，但当它们面对电影级别的长视频时，却显得力不从心。因而，长视频的分析与理解，特别是对于长达数小时电影内容的理解，成为了当前的一个巨大挑战。究其原因，导致模型理解长视...

人工智能 2024-03-11 人工智能

859阅读

（Sora模型风口）2024最新GPT4.0使用教程，AI绘画，一站式解决

一、前言 ChatGPT3.5、GPT4.0、GPT语音对话、Midjourney绘画，文档对话总结+DALL-E3文生图，相信对大家应该不感到陌生吧？简单来说，GPT-4技术比之前的GPT-3.5相对来说更加智能，会根据用户的要求生成多种内容甚至也可以...

生成式AI 2024-03-09 人工智能

984阅读

「还是谷歌好」，离职创业一年，我才发现训练大模型有这么多坑

如何在不到一年的时间里创办一家公司、筹集资金、购买芯片，并搭建出追赶 Gemini pro/GPT 3.5 的 LLM？很多人都对构建基础架构和训练大语言模型和多模态模型感到好奇，但真正走完「从零开始」这一流程的人很少。我们普遍认为，储备技术人才是前提...

人工智能 2024-03-07 人工智能

836阅读

一文看尽297篇文献！中科院领衔发表首篇「基于扩散模型的图像编辑」综述

本文全面研究图像编辑前沿方法，并根据技术路线精炼地划分为3个大类、14个子类，通过表格列明每个方法的类型、条件、可执行任务等信息。此外，本文提出了一个全新benchmark以及LMM Score指标来对代表性方法进行实验评估，为研究者提供了便捷的学习参...

AIGC 2024-03-07 人工智能

807阅读

AIlice官网体验入口 AI代理智能助手使用方法指南教程

AIlice是一个轻量级的AI代理，旨在创建一个类似于JARVIS的自包含人工智能助手。它通过构建一个以大型语言模型（LLM）为核心的“文本计算机”来实现这一目标。AIlice在主题研究、编码、系统管理、文献综述以及超越这些基本能力的复杂混合任务方面表现出...

生成式AI 2024-03-06 人工智能

1199阅读

2024最新AI系统ChatGPT网站源码, AI绘画系统

一、前言说明 R5Ai创作系统是基于ChatGPT进行开发的Ai智能问答系统和Midjourney绘画系统，支持OpenAI-GPT全模型+国内AI全模型。本期针对源码系统整体测试下来非常完美，那么如何搭建部署AI创作ChatGPT？小编这里写一个详细图...

AIGC 2024-03-05 人工智能

1054阅读

十年内出现AGI？下一代Gemini能感知环境？DeepMind CEO哈萨比斯畅谈AI

「如果我们在未来十年内拥有类似 AGI 的系统，我不会感到惊讶。」Google DeepMind 联合创始人和 CEO Demis Hassabis 近日在人工智能播客节目 Dwarkesh Podcast 上如是说。在长达一个小时的节目中，Hassa...

人工智能 2024-03-05 人工智能

923阅读

53页PDF广泛流传，核心员工相继离职，OpenAI到底有什么秘密？

一份关于「OpenAI 在 2027 年实现 AGI」的 53 页 PDF，正在互联网上广泛流传。文档来源于一个名为「vancouver1717」的 X 账户，该账户注册于 2023 年 7 月，只有两条推文。最新发布的这个 PDF 文档称，Ope...

生成式AI 2024-03-04 人工智能

803阅读

53页PDF爆料OpenAI“AGI时间表”，爆料者：马斯克诉讼搅了局

OpenAI神秘的Q*计划，又有新鲜爆料。今天凌晨，一篇54页google文档开始在网络上热传，透露OpenAI“计划在2027年前实现完全AGI”。爆料者称，自己选择发布这篇文档是不想让马斯克继续“造成伤害”，他认为后者发起的诉讼造成了AGI的推迟...

人工智能 2024-03-04 人工智能

834阅读

马斯克怒告OpenAI案解密：Ilya看到了什么？125万亿参数Q*细节曝光，53页PDF全网疯转

本年度科技圈这场里程碑级大战，还在持续白热化！刚刚，Sam Altman罕见地发声了，连发两条推文。在马斯克闹出起诉风波后，Altman一直保持缄默。因此，这两条推文应该是全公司经过了深思熟虑的结果—— 飓风已经愈来愈猛烈，但风暴中心却仍然保持着平静...

人工智能 2024-03-04 人工智能

833阅读

复旦研发出“眸思”大模型：助力视障者安全出行

快科技3月3日消息，据复旦大学官微发文，复旦大学自然语言处理实验室基于多模态大模型复旦眸思”（MouSi）为视障者量身打造的听见世界”APP上线，将成为视障人士的生活助手与智能管家。 2023年上半年，复旦大学自然语言处理实验室发布了开发MOSS对话式大型...

AIGC 2024-03-03 人工智能

854阅读

OpenAI把GPT塞进机器人大脑，具身AGI奇点迫近！英伟达微软参投26亿美金独角兽Figure

人形机器人明星公司Figure迎来了高光时刻！就在刚刚，OpenAI与Figure官宣合作，专为人形机器人打造下一代AI多模态模型。图片这项合作最大的目的是，增强机器人处理语言和推理的能力。上个月，机器人Figure 01仅使用神经网络煮咖啡的视...

生成式AI 2024-03-01 人工智能

883阅读

OpenAI宣布与Figure合作将GPT整合到机器人

OpenAI宣布与独角兽Figure合作，旨在打造下一代AI大模型，提升机器人的语言处理和推理能力。Figure01通过学习实现煮咖啡等任务，借助OpenAI的多模态模型，其能力有望得到进一步提升。合作旨在增强机器人的智能，尤其是语言处理和推理方面。Fi...

AIGC 2024-03-01 人工智能

743阅读

高通宣布推出 AI Hub 开发人员在高通设备上运行AI模型

在巴塞罗那世界移动大会上，高通公司推出了多项新技术。该公司发布了Qualcomm AI Hub，这是一款新工具，允许开发人员在高通设备上运行AI模型。 Qualcomm AI Hub 为 Snapdragon 和 Qualcomm 平台提供75多个优化的...

AIGC 2024-02-26 人工智能

826阅读

高通发布AI Hub 为开发者提供了75+优化的AI模型

高通在巴塞罗那举办的MWC上发布了AI Hub，该平台为开发者提供了一系列优化的AI模型，可在Snapdragon和高通平台上运行。这些模型的推出不仅加快了开发速度，还实现了在设备上运行AI的优势。通过在云端主机设备上运行模型，开发者只需几行代码即可实现。...

AIGC 2024-02-26 人工智能

780阅读

鱼眼相机与超声波传感器融合实现鸟瞰近场障碍物感知

本文经自动驾驶之心公众号授权转载，转载请联系出处。论文链接：https://browse.arxiv.org/pdf/2402.00637.pdf 视频链接：https://youtu.be/JmSLBBL9Ruo 本文介绍了鱼眼相机与超声传...

生成式AI 2024-02-23 人工智能

892阅读

在OpenAI引领的多模态时代，专注语音的ElevenLabs如何生存？

2024年2月，OpenAI的视觉大模型Sora横空出世，这是一个历史性的里程碑，视觉生成领域将有一次大的技术和商业革命。在Sora发布几天后，AI语音创业公司ElevenLabs为Sora的演示视频完成了精准匹配的配音，AI视频“以假乱真”的制作链条实...

大数据 2024-02-21 人工智能

903阅读

从声音到形象，AIGC 赋能的 TT 语音年度盛典有多好玩？

摘要： 23年是 AIGC 暴热的一年，这一年我们既兴奋又彷徨。兴奋之处在于新技术持续突破，业界“百模大战”的白热化，一些创新应用开始崭露头角，例如 ChatGPT 和 DALL·E 3，Midjourney，HeyGen，星野，Copilot 等。彷...

大数据 2024-02-17 人工智能

999阅读

清华系2B模型杀出，性能吊打LLaMA-13B

2 月 1 日，面壁智能与清华大学自然语言处理实验室共同开源了系列端侧语言大模型 MiniCPM，主体语言模型 MiniCPM-2B 仅有 24 亿（2.4B）的非词嵌入参数量。在综合性榜单上与 Mistral-7B 相近，在中文、数学、代码能力表现更...

人工智能 2024-02-13 人工智能

904阅读

AI系统ChatGPT网站系统源码AI绘画详细搭建部署教程，支持GPT语音对话+DALL-E3文生图+GPT-4多模态模型识图理解

一、前言 SparkAi创作系统是基于ChatGPT进行开发的Ai智能问答系统和Midjourney绘画系统，支持OpenAI-GPT全模型+国内AI全模型。本期针对源码系统整体测试下来非常完美，可以说SparkAi是目前国内一款的ChatGPT对接Op...

生成式AI 2024-02-11 人工智能

1036阅读

玩LLM和StableDiffusion常说的LoRA到底是什么

论文地址：LoRA: Low-Rank Adaptation of Large Language Models LoRA是一种用于adapters和大模型迁移的技术,全称为Low-Rank Adaptation of Large Language M...

生成式AI 2024-02-07 人工智能

1555阅读