-
Mobile-Agent: 具有视觉感知 可以像人类样操作手机的自主多模态AI代理
Mobile-Agent是一款具有视觉感知的自主多模式移动设备代理,由北京交通大学联合阿里巴巴团队共同开发。简单的说,Mobile-Agent相当于一个可以模拟人类操作手机的自主多模态AI代理。 该代理采用纯视觉解决方案,独立于XML和系统元数据,不需要...
-
2031年通信AI市场规模将达388亿美元 5G/6G与AI融合可带来多重收益
全球4G和5G的部署速度比商业服务的推进速度更快,6G预计到2030年也会到来,电信运营商如何以正确姿势迎接未来? 目前,全球电信业界都在思考这个问题。其中一大方向是AI,日本NTT Docomo、韩国SK电信等代表,都在积极推进AI与通信融合,寻找新...
-
上海智能实验室推图文多模态大模型InternLM-XComposer2(浦语·灵笔2)
InternLM-XComposer2是一款先进的视觉-语言模型,在自由组合文本和图像以及理解这两者之间的内容方面表现卓越。 这款模型不仅超越了传统的视觉-语言理解,而且能够巧妙地将多样化的输入,如概要、详尽的文本描述和参考图片,融合成包含文本和图像的复合...
-
一文读懂: AIGC基本原理及应用领域
AIGC是利用人工智能技术来生成内容的一种新型技术。随着人工智能技术的不断发展,AIGC技术也得到了越来越广泛的应用。未来,AIGC技术将会对我们的生活和工作产生巨大的影响。 一、AIGC技术的基本原理 AIGC技术的基本...
-
多模态LLM多到看不过来?先看这26个SOTA模型吧
当前 AI 领域的关注重心正从大型语言模型(LLM)向多模态转移,于是乎,让 LLM 具备多模态能力的多模态大型语言模型(MM-LLM)就成了一个备受关注的研究主题。 近日,腾讯 AI Lab、京都大学和穆罕默德・本・扎耶德人工智能大学的一个研究团队发布...
-
近200+自动驾驶数据集全面调研!一览如何数据闭环全流程
写在前面&个人理解 自动驾驶技术在硬件和深度学习方法的最新进展中迅速发展,并展现出令人期待的性能。高质量的数据集对于开发可靠的自动驾驶算法至关重要。先前的数据集调研试图回顾这些数据集,但要么集中在有限数量的数据集上,要么缺乏对数据集特征的详细调查...
-
重磅!讯飞星火V3.5马上发布!AI写作、AI编程、AI绘画等功能全面提升!
讯飞星火大模型相信很多友友已经不陌生了,可以说是国内GPT相关领域的龙头标杆,而对于1月30日即将在讯飞星火发布会发出的V3.5新版本来说,讯飞星火V3.5与之前版本相比,性能提升方面相当明显,在提示语义理解、内容生成、逻辑推理、实时交互等非常出色,几乎...
-
最新国内GPT4.0使用教程,AI绘画,GPT语音对话使用,DALL-E3文生图
一、前言 ChatGPT3.5、GPT4.0、GPT语音对话、Midjourney绘画,文档对话总结+DALL-E3文生图,相信对大家应该不感到陌生吧?简单来说,GPT-4技术比之前的GPT-3.5相对来说更加智能,会根据用户的要求生成多种内容甚至也可...
-
【探索科技 感知未来】文心一言大模型
【探索科技 感知未来】文心大模型 ?本文介绍 文心一言大模型是由中国科技巨头百度公司研发的一款大规模语言模型,其基于先进的深度学习技术和海量数据训练而成。这款大模型具备强大的自然语言处理能力,可以理解并生成自然语言,为用户提供自然、流畅的语言交...
-
最新国内GPT4.0使用入门到精通,Midjourney绘画,GPT语音对话使用,DALL-E3文生图
一、前言 ChatGPT3.5、GPT4.0、GPT语音对话、Midjourney绘画,文档对话总结+DALL-E3文生图,相信对大家应该不感到陌生吧?简单来说,GPT-4技术比之前的GPT-3.5相对来说更加智能,会根据用户的要求生成多种内容甚至也可以...
-
2024中关村论坛系列活动——中关村开源生态论坛暨大模型智能应用技术大会圆满举办
海淀区是全国人工智能发展高地,具有较好的产业基础和先发优势。为精准支持人工智能大模型的发展,近年来,海淀区陆续出台了《关于加快中关村科学城人工智能大模型创新发展的若干措施》 《中关村科学城通用人工智能创新引领发展实施方案(2023-2025年)》等政策文...
-
准确率不足20%,GPT-4V/Gemini竟看不懂漫画!首个图像序列基准测试开源
OpenAI的GPT-4V和谷歌最新的Gemini多模态大语言模型一经推出就得到业界和学界的热切关注: 一系列工作都从多角度展示了这些多模态大语言模型对视频的理解能力。人们似乎相信我们离通用人工智能artificial general intellige...
-
讯飞推出“智慧黑板”:从板书工具跃迁为教师AI助手
快科技1月30日消息,今天下午讯飞星火大模型3.5正式发布。 会上,科大讯飞推出了星火智慧黑板”,号称让黑板从板书工具跃迁为教师AI助手。 据了解,星火智慧黑板具备四大特色: 1、多模态理解与推荐,让知识的讲解更直观、更生动 2、全自然交互,让老师授课更便...
-
AIGC教育行业全景报告:AI助教和家教成真,学习机迎来新机遇
经过一年的快速迭代,业内对于生成式AI将会率先落地于哪些行业已经有了答案。 教育领域,不仅被OpenAI列为重点应用之一,也成为国内大模型厂商布局的重点方向。 生成式AI技术发展的背后,反映出人类与大模型交互的不断精进。大模型在训练过程中不断学习人类的思...
-
科大讯飞发布星火认知大模型 V3.5,多项核心能力超越GPT-4Turbo
在今日下午的发布会上,科大讯飞宣布了星火认知大模型 V3.5的全面升级,该模型在文本生成、语言理解、知识问答等七大能力上均取得显著提升。值得一提的是,其中语言理解、数学能力已超越 GPT-4Turbo,代码能力更达到了 GPT-4Turbo96%,多模态理...
-
AIGC能产生什么样的应用价值?AIGC技术与应用全解析
一、简介 近期,短视频平台上火爆的“AI绘画”,在各大科技平台上刷屏的智能聊天软件ChatGPT,引起了人们广泛关注。人工智能潜力再次被证明,而这两个概念均来自同一个领域:AIGC。AIGC到底是什么?为什么如此引人关注?AIGC能产生什么样的应用价值?...
-
AI视野:Meta发布Code Llama70B;Nijijourney V6模型正式上线;Chrome将内置AI写作助手;Minimax的AI对话机器人海螺问问上线
欢迎来到【AI视野】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。 新鲜AI产品点击了解:https://top.aibase.com/ ???AI应用 Meta发布最新A...
-
把图像视为外语,快手、北大多模态大模型媲美DALLE-3
当前的大型语言模型如 GPT、LLaMA 等在自然语言处理领域取得了显著进展,能够理解和生成复杂的文本内容。但你是否想过,如果能够将大语言模型这强大的理解和生成能力迁移到多模态数据上,就可以轻松理解海量的图像与视频,并辅助创作图文并茂的内容。近期,来自快...
-
AI虚拟陪伴聊天应用如此火爆,为什么没有中国版Character.ai出现?
三句话,让生气的AI恋人原谅我。 最近,一款名为“哄哄模拟器”的AI聊天产品突然走红。 与单纯提供陪伴、情绪价值的AI聊天应用不同,哄哄模拟器更像是一个练习高情商对话的小游戏。 游戏内预设了多种常见的情侣吵架场景,包括但不限于: 你需要想方设法在限...
-
PAI-ChatLearn :灵活易用、大规模 RLHF 高效训练框架(阿里云最新实践)
PAI-ChatLearn 是阿里云机器学习平台 PAI 团队自主研发的,灵活易用、大规模模型 RLHF 高效训练框架,支持大模型进行 SFT(有监督指令微调)、RM(奖励模型)、RLHF(基于人类反馈的强化学习)完整训练流程。PAI-ChatLear...
-
科大讯飞2023年净利同比增幅达15%-30%:星火大模型V3.5明日发
快科技1月29日消息,科大讯飞晚间发布2023年度业绩预告,2023年实现归属于上市公司股东的净利润6.45亿元-7.3亿元,同比增长15%-30%。 报告期内,公司在人工智能通用大模型及行业大模型方面坚定投入并取得显著进展。科大讯飞表示,公司在讯飞星火...
-
第三十二章:ChatGPT与AIGC在物联网领域的应用
1.背景介绍 物联网(Internet of Things,IoT 是指通过互联网将物体和设备连接起来,实现数据的传输和共享。物联网技术已经广泛应用于各个领域,如智能家居、智能城市、智能制造、智能农业等。随着数据量的增加和计算能力的提高,人工智能...
-
Gemini官网体验入口 谷歌DeepMind多模态AI人工智能在线使用地址
Gemini是由谷歌DeepMind推出的新一代人工智能系统。作为全球热门的多模态AI系统,Gemini能够进行多模态推理,支持文本、图像、视频、音频和代码之间的无缝交互。在语言理解、推理、数学、编程等多个领域,Gemini超越了之前的状态,成为迄今为止最...
-
2024年1月17日Arxiv最热论文推荐:清华提出多模态知识检索新框架、MIT新方法大幅提升LLMs的连贯性、浙大新模型助力视频任务新突破、Meta 革新搜索技术、Google革新AI写作
本文整理了今日发表在ArXiv上的AI论文中最热门的TOP5。 论文解读、论文热度排序、论文标签、中文标题、推荐理由和论文摘要均由赛博马良平台(saibomaliang.com)上的智能体 「AI论文解读达人」 提供。 如需查看其他热门论文,欢迎移步 ...
-
Llama-2+Mistral+MPT=? 融合多个异构大模型显奇效
随着 LLaMA、Mistral 等大语言模型的成功,各家大厂和初创公司都纷纷创建自己的大语言模型。但从头训练新的大语言模型所需要的成本十分高昂,且新旧模型之间可能存在能力的冗余。 近日,中山大学和腾讯 AI Lab 的研究人员提出了 FuseLLM,用...
-
年轻人的第一个多模态大模型:1080Ti轻松运行,已开源在线可玩
一款名为Vary-toy的“年轻人的第一个多模态大模型”来了! 模型大小不到2B,消费级显卡可训练,GTX1080ti 8G的老显卡轻松运行。 想将一份文档图片转换成Markdown格式?以往需要文本识别、布局检测和排序、公式表格处理、文本清洗等多个步骤...
-
更适合中文LMM体质的基准CMMMU来了:超过30个细分学科,12K专家级题目
近期,随着多模态大模型(LMM) 的能力不断进步,评估 LMM 性能的需求也日益增长。与此同时,在中文环境下评估 LMM 的高级知识和推理能力的重要性更加突出。 在这一背景下,M-A-P 开源社区、港科大、滑铁卢大学、零一万物等联合推出了面向中文大规模多...
-
三星与百度合作,为Galaxy S24系列创造AI体验
三星在中国选择了一个合法的替代方案,即与百度AI Cloud展开合作。这一战略伙伴关系的宣布意味着三星电子中国和百度将共同创造一种AI体验,以提升三星Galaxy S24系列的功能。 在这次合作中,百度的文心一言基础模型将与Galaxy AI深度集成,为...
-
通义千问视觉语言模型Qwen-VL在线体验入口 阿里云AI在线使用入口
Qwen-VL是阿里云推出的通用型视觉语言模型,具备强大的视觉理解和多模态推理能力。采用 Transformer 结构,以 7B 参数规模进行预训练,支持 448x448 分辨率,能够端到端处理图像与文本的多模态输入与输出。Qwen-VL在多个视觉基准测试...
-
最新国内可用GPT4、Midjourney绘画、DALL-E3文生图模型教程
一、前言 ChatGPT3.5、GPT4.0、GPT语音对话、Midjourney绘画,文档对话总结+DALL-E3文生图,相信对大家应该不感到陌生吧?简单来说,GPT-4技术比之前的GPT-3.5相对来说更加智能,会根据用户的要求生成多种内容甚至也可以...
-
未来五年AI如何改变各学科?从LLM到AI蛋白设计、医疗保健......
五年前(2019 年 1 月),《Nature Machine Intelligence》创刊。当然,就人工智能(AI)而言,五年前似乎是一个不同的时代。 1 月 24 日,Nature Machine Intelligence 杂志在《Annivers...
-
从20亿数据中学习物理世界,基于Transformer的通用世界模型成功挑战视频生成
建立会做视频的世界模型,也能通过Transformer来实现了! 来自清华和极佳科技的研究人员联手,推出了全新的视频生成通用世界模型——WorldDreamer。 它可以完成自然场景和自动驾驶场景多种视频生成任务,例如文生视频、图生视频、视频编辑、动作序...
-
开源一个整合了AIGC大语言模型的SpringBoot智慧医药系统
前言 哈喽兄弟们,好久不见哦~ 最近整理了一下之前写过的一些小项目/毕业设计。发现还是有很多存货的,虽然这些项目普遍都写的比较简单,但想一想既然放在电脑里面也吃灰,那么还不如开源分享出去,没准还可以帮助到一些小白新手。 本期就在其中选取了一个医...
-
首届百度商业AI技术创新大赛启动 点燃AIGC革新“星火”
随着生成式AI在全球范围的热议,AIGC前沿技术也在快速迭代,正如百度CEO李彦宏所说 “人工智能发生了方向性改变,从辨别式AI走向生成式AI,生成式AI会带来极大的效率提升” 。而这一领域的发展,将推动AI产品应用深化,极有可能在内容创作、客户服务等领域...
-
最新GPT4、AI绘画、DALL-E3文生图模型教程,GPT语音对话使用,ChatFile文档对话总结
一、前言 ChatGPT3.5、GPT4.0、GPT语音对话、Midjourney绘画,文档对话总结+DALL-E3文生图,相信对大家应该不感到陌生吧?简单来说,GPT-4技术比之前的GPT-3.5相对来说更加智能,会根据用户的要求生成多种内容甚至也可以...
-
Midjourney V6更新解读与侵权风险警告;AI Agent智能体创业必读;高清图解Mixtral和MoE;2023年度AI设计实践报告 | ShowMeAI日报
?日报&周刊合集 | ?生产力工具与行业应用大全 | ? 点赞关注评论拜托啦! ? Midjourney V6 文生图细节爆炸,但是被扒叠图电影画面? 左图提示词:a full body editorial santa ho...
-
最新ChatGPT商业运营版源码,AI绘画,Midjourney绘画,GPT-4V多模态模型识图理解+GPT语音对话+ChatFile文档对话总结+DALL-E3文生图
一、前言 SparkAi创作系统是基于ChatGPT进行开发的Ai智能问答系统和Midjourney绘画系统,支持OpenAI-GPT全模型+国内AI全模型。本期针对源码系统整体测试下来非常完美,可以说SparkAi是目前国内一款的ChatGPT对接Op...
-
多模态大模型,阿里通义千问能和GPT-4V掰手腕了
通义千问的图像推理能力,最近有了大幅提升。 2024年,大模型领域要卷什么? 如果没有思路的话,不妨看看各家大厂都在押注什么方向。 最近一段时间,先是 OpenAI 推出 GPT-4V,让大模型拥有了前所未有的图像语义理解能力。 谷歌随后跟上,发布的 G...
-
聚观早报 |苹果官网大促销;微软开放AI助手Copilot
聚观早报每日整理最值得关注的行业重点事件,帮助大家及时了解最新行业动态,每日读报,就读聚观365资讯简报。 整理丨Cutie 1月17日消息 苹果官网大促销 微软开放AI助手Copilot vivo X100 Ultra影像规格曝光 智谱A...
-
AI视野:ChatGPT模型大更新;阿里云发布多模态大模型;Runway视频生成输给Pixverse;百度推多模态模型UNIMO-G
欢迎来到【AI视野】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。 新鲜AI产品点击了解:https://top.aibase.com/ ???AI应用 ChatGPT模型...
-
Altman地位又危了?!OpenAI董事会邀请竞争对手加入,还挖角谷歌Gemini高管
Altman的地位又危险了? 据知情人士透露,上个月,OpenAI董事会的Adam D'Angelo致电Databricks的首席执行官Ali Ghodsi,询问Ghodsi是否考虑加入OpenAI董事会。 Adam D'Angelo 本来找知名公司高...
-
最新ChatGPT网站源码,支持Midjourney绘画,GPT语音对话+GPT-4识图理解能力+ChatFile文档对话总结+DALL-E3文生图
一、前言 SparkAi创作系统是基于ChatGPT进行开发的Ai智能问答系统和Midjourney绘画系统,支持OpenAI-GPT全模型+国内AI全模型。本期针对源码系统整体测试下来非常完美,可以说SparkAi是目前国内一款的ChatGPT对接Op...
-
最新ChatGPT网站AI系统源码,附详细搭建教程/支持GPT4.0/AI绘画/GPT语言对话/DALL-E3文生图/自定义知识库
一、前言 SparkAi创作系统是基于ChatGPT进行开发的Ai智能问答系统和Midjourney绘画系统,支持OpenAI-GPT全模型+国内AI全模型。本期针对源码系统整体测试下来非常完美,可以说SparkAi是目前国内一款的ChatGPT对接Op...
-
顶流Mamba竟遭ICLR拒稿,学者集体破防变小丑,LeCun都看不下去了
一项ICLR拒稿结果让AI研究者集体破防,纷纷刷起小丑符号。 争议论文为Transformer架构挑战者Mamba,开创了大模型的一个新流派。发布两个月不到,后续研究MoE版本、多模态版本等都已跟上。 但面对ICRL给出的结果,康奈尔副教授Alexand...
-
NeurIPS 2023精选回顾:大模型最火,清华ToT思维树上榜
近日,作为美国前十的科技博客,Latent Space对于刚刚过去的NeurIPS 2023大会进行了精选回顾总结。 在NeurIPS会议总共接受的3586篇论文之中,除去6篇获奖论文,其他论文也同样优秀和具有潜力,甚至有可能预示着下一个AI领域的新突破...
-
中文性能反超VLM顶流GPT-4V,阿里Qwen-VL超大杯限免!看图秒写编程视觉难题一眼辨出
【新智元导读】多模态大模型将是AI下一个爆点。最近,通义千问VLM模型换新升级,超大杯性能堪比GPT-4V。最最重要的是,还能限时免费用。 最近,通义千问实火。 前段时间被网友玩疯的全民舞王,让「AI科目三」频频登上热搜。 让甄嬛、慈禧、马斯克、猫主子和兵...
-
阿里云发布多模态大模型Qwen-VL-Max版本 性能比肩GPT-4V
阿里云公布了多模态大模型的最新研究成果,继Plus版本之后,再次推出Max版本。 Qwen-VL-Max模型在视觉推理方面展现出卓越的能力,可以理解并分析复杂的图片信息,包括识人、答题、创作和写代码等任务。此外,该模型还具备视觉定位功能,可根据画面指定区域...
-
AI图像高清修复工具SUPIR 可根据文本提示智能修复
SUPIR是一个通过增加模型规模来提升图像修复能力的技术,它能够根据文本提示进行智能修复,提高图像修复的质量和智能程度。 SUPIR的主要功能包括图像修复和文本引导的修复,利用了模型放大、多模态技术和结果表明,SUPIR在各种图像修复任务和复杂处理场景中都...
-
Camera or Lidar?如何实现鲁棒的3D目标检测?最新综述!
本文经自动驾驶之心公众号授权转载,转载请联系出处。 0. 写在前面&&个人理解 自动驾驶系统依赖于先进的感知、决策和控制技术,通过使用各种传感器(如相机、激光雷达、雷达等)来感知周围环境,并利用算法和模型进行实时分析和决策。这使得车辆...
-
最新AI系统ChatGPT网站系统源码,Midjourney绘画,GPT语音对话+ChatFile文档对话总结+DALL-E3文生图+思维导图一站式解决方案
一、前言 SparkAi创作系统是基于ChatGPT进行开发的Ai智能问答系统和Midjourney绘画系统,支持OpenAI-GPT全模型+国内AI全模型。本期针对源码系统整体测试下来非常完美,可以说SparkAi是目前国内一款的ChatGPT对接Op...