-
Llama 3-V:以100倍小的模型和500美元匹敌GPT4-V视觉模型
概述 Llama3 的横空出世震惊了世界,它在几乎所有基准测试中都超越了 GPT-3.5,并在一些方面超越了 GPT-4。随后,GPT-4o 的出现凭借其多模态能力再次夺回了王座。今天,我们发布了一个改变现状的产品:Llama3-V,这是首个基于 Ll...
-
8 款 Stable Diffusion 最新写实风格 SDXL 大模型推荐!
以上推荐模型可在liblibai或Civitai自行下载即可。排名不分先后。 1、9realisticSDXL:触发词:xxmixgirl;图片尺寸:768*1280;全身:建议开hires,用ad修脸。肖像照:可以不开hires,可以用ad修脸 采样次...
-
建筑类AIGC图像微调模型(LoRA)训练经验介绍
前言 AIGC大模型正广泛应用于各行业,包括建筑设计。运用这些大模型,设计师可以在设计早期阶段进行方案探索和优化,提高设计效率和满足实际需求。然而,要充分发挥大模型的优势,需要进行微调以适应特定设计任务。这是一项技术挑战,也是创新机会。 AIGC大...
-
马斯克的Grok已经可以在xAI网站上单独访问
马斯克开发的Grok现在已经可以在xAI网站上单独访问。这个工具在xAI平台上的功能比之前在推特上展示的版本更加丰富。特别值得一提的是它的分支树模式,这个模式允许用户观察多轮对话中可能产生的不同回答路径,这对于分析和理解对话流程非常有用。 如果你对使用Gr...
-
轻松拿捏4K高清图像理解!这个多模态大模型自动分析网页海报内容,打工人简直不要太方便
一个可以自动分析PDF、网页、海报、Excel图表内容的大模型,对于打工人来说简直不要太方便。 上海AI Lab,香港中文大学等研究机构提出的InternLM-XComposer2-4KHD(简写为IXC2-4KHD)模型让这成为了现实。 相比于其他多模...
-
“梗王”大模型,靠讲笑话登上CVPR | 中山大学
谁能想到,只是让大模型讲笑话,论文竟入选了顶会CVPR! 没开玩笑,这还真真儿的是一项正儿八经的研究。 例如看下面这张图,如果让你根据它来讲个笑话或梗,你会想到什么? 现在的大模型看完后会说: 脑子短路。 再看一眼 蜘蛛侠 的海报,大模型会配一句“刚擦的...
-
阿里7B多模态文档理解大模型拿下新SOTA
多模态文档理解能力新SOTA! 阿里mPLUG团队发布最新开源工作mPLUG-DocOwl 1.5,针对高分辨率图片文字识别、通用文档结构理解、指令遵循、外部知识引入四大挑战,提出了一系列解决方案。 话不多说,先来看效果。 复杂结构的图表一键识别转换为M...
-
Midjourney V6有多厉害,看完这27张图你就明白了!
一些结论 当前V6版本仍处于Alpha测试阶段:这意味着产品的某些方面可能会发生变化。 更准确地遵循提示指令:V6在遵循用户的提示指令方面更为准确,特别是对于较长的提示指令。 模型更加连贯:新版本的模型在生成图像时展现出更高的一致性和连...
-
GPT-4V只能排第二!华科大等发布多模态大模型新基准:五大任务14个模型全面测评
近期,多模态大模型(LMMs)在视觉语言任务方面展示了令人印象深刻的能力。然而,由于多模态大模型的回答具有开放性,如何准确评估多模态大模型各个方面的性能成为一个迫切需要解决的问题。 目前,一些方法采用GPT对答案进行评分,但存在着不准确和主观性的问题。另...
-
准确率不足20%,GPT-4V/Gemini竟看不懂漫画!首个图像序列基准测试开源
OpenAI的GPT-4V和谷歌最新的Gemini多模态大语言模型一经推出就得到业界和学界的热切关注: 一系列工作都从多角度展示了这些多模态大语言模型对视频的理解能力。人们似乎相信我们离通用人工智能artificial general intellige...
-
ChatGPT重磅升级!集简云支持GPT4 Turbo Vision, GPT4 Turbo, Dall.E 3,Whisper等最新模型
在11月7日凌晨,OpenAI全球开发者大会宣布了 GPT-4的一次大升级,推出了 GPT-4 Turbo号称为迄今为止最强的大模型。 此次GPT-4的更新和升级在多个方面显示出强大的优势和潜力。为了让集简云用户能快速体验新模型的能力,我们第一时间整理了大...
-
RAG实战 7 - 使用llama_index实现多模态RAG
LLM之RAG实战(七)| 使用llama_index实现多模态RAG 文章目录 LLM之RAG实战(七)| 使用llama_index实现多模态RAG 一、多模态RAG 二、多模态LLM 三、多模态嵌入 四、多模态索引与检索 五、多...
-
微软Copilot全新升级:Copilot Pro为个人和企业释放前所未有的AI能力
微软今天宣布了一系列关于其AI助手Copilot的重大更新和扩展。这包括推出面向个人用户的新高级订阅服务Copilot Pro,提供跨设备的高级AI功能,包括对Microsoft 365个人和家庭订阅者的支持,以及更快速的最新模型访问,如GPT-4 Tur...
-
AI聊天机器人,一个就够了:文心一言、讯飞星火、通义千问AI聊天机器人深度对比(二)
一些结论 本次为第二部分的测评,第一部分的测评请点击这里。综合结论::通义千问 > 讯飞星火 > 文心一言。 逻辑推理能力:讯飞星火 = 通义千问 > 文心一言。对于基本的逻辑推理问题,三个AI聊天机器人都能通过测试。但对...
-
AI在操作系统里复制自己,这一天还是来了
这一天还是来了,AI在操作系统里启动了一个自己的副本。 往小了说,不过是多模态大模型通过操纵鼠标键盘的API执行任务。 往大了说,也可以算是“AI复制自己”的雏形了。 (别被作者的蓝天白云壁纸骗到了,这其实是MacOS) 从AI这一顿眼花缭乱的操作中...
-
AI聊天机器人,一个就够了:文心一言、讯飞星火、通义千问AI聊天机器人深度对比(一)
一些结论 本次为第一部分的测评,综合结论:讯飞星火 > 文心一言 = 通义千问。 文本生成能力:文心一言 = 讯飞星火 > 通义千问,讯飞星火表现亮眼,文心一言作为国内AI聊天机器人的先发者,在创意写作方面略不尽如人意。 代...
-
国内多所高校共建开源社区LAMM,加入多模态语言模型大家庭的时候到了
ChatGPT问世以来,大语言模型(LLM)实现了跳跃式发展,基于自然语言进行人机交互的AI范式得到广泛运用。然而,人类与世界的交互中不仅有文本,其他诸如图片、深度等模态也同样重要。然而,目前的多模态大语言模型(MLLM)研究大多数闭源,对高校和大多数研...
-
使用CLIP和LLM构建多模态RAG系统
在本文中我们将探讨使用开源大型语言多模态模型(Large Language Multi-Modal 构建检索增强生成(RAG 系统。本文的重点是在不依赖LangChain或LLlama index的情况下实现这一目标,这样可以避免更多的框架依赖。 什么...
-
LLM之RAG实战(七)| 使用llama_index实现多模态RAG
一、多模态RAG OpenAI开发日上最令人兴奋的发布之一是GPT-4V API(https://platform.openai.com/docs/guides/vision)的发布。GPT-4V是一个多模态模型,可以接收文本/图像,并可以...
-
腾讯与悉尼大学联手打造GPT4Video:显著提升大语言模型视频生成能力
在多模态大型语言模型(MLLMs)领域取得显著进展的同时,尽管在输入端多模态理解方面取得了显著进展,但在多模态内容生成领域仍存在明显的空白。为填补这一空白,腾讯人工智能实验室与悉尼大学联手推出了GPT4Video,这是一个统一的多模态框架,赋予大型语言模型...
-
用GPT-4V和人类演示训练机器人:眼睛学会了,手也能跟上
如何将语言 / 视觉输入转换为机器人动作? 训练自定义模型的方法已经过时,基于最近大语言模型(LLM)和视觉语言模型(VLM)的技术进展,通过 prompt 工程使用 ChatGPT 或 GPT-4 等通用模型才是时下热门的方法。 这种方法绕过了海量数据...
-
AI视野:Stability.ai开源SDXL Turbo;Pika Labs1.0版发布;字节跳动ChitChop在海外上线;Keras3.0正式发布;法院判决AI生成图片具备版权
???AI应用 Stability.ai发布开源文生图模型SDXL Turbo 文生成图AI平台Stability.ai发布开源SDXL Turbo,图像生成实时响应,仅需1秒。SDXL Turbo基于全新对抗扩散蒸馏技术(ADD),将生成步骤减至1-4步...
-
中国团队开源大规模高质量图文数据集ShareGPT4V
中国团队最近开源了一个引人瞩目的图文数据集,命名为ShareGPT4V,它基于GPT4-Vision构建,训练了一个7B模型。这一举措在多模态领域取得了显著的进展,超越了同级别的模型。 该数据集包含了120万条图像-文本描述数据,涵盖了世界知识、对象属性、...
-
通用异常检测新曙光:华科大等揭秘GPT-4V的全方位异常检测表现
异常检测任务旨在识别明显偏离正常数据分布的异常值,在工业检验、医学诊断、视频监控和欺诈检测等多个领域都发挥了重要作用。传统的异常检测方法主要依赖于描述正常数据分布以进行正异常样本的区分。然而,对于实际的应用而言,异常检测也需要理解数据的高层语义,从而深入...
-
GPT-4V学会用键鼠上网,人类眼睁睁看着它发帖玩游戏
GPT-4V学会自动操纵电脑,这一天终于还是到来了。 只需要给GPT-4V接入鼠标和键盘,它就能根据浏览器界面上网: 图片 甚至还能快速摸清楚“播放音乐”的播放器网站和按钮,给自己来一段music: 图片 是不是有点细思极恐了? 这是一个MIT本科生小哥...
-
GPT-4V连小学生都不如?最新基准测试错误率竟高达90%:红绿灯认错、勾股定理也不会
GPT-4被吹的神乎其神,作为具备视觉能力的GPT-4版本——GPT-4V,也被大众寄于了厚望。 但如果告诉你,初中生都知道的勾股定理,只适用于直角三角形。 然而GPT-4V却自信将其用于钝角三角形中计算斜边长度。还有更离谱的,GPT-4V直接犯了致命的...
-
智谱的“GPT-4V”来了,CEO张鹏说他们就是奔着AGI去的
时隔仅仅四个月,智谱大模型再度升级。在沈阳举办的2023中国计算机大会CNCC2023上,智谱介绍了新一代ChatGLM3大模型。 根据智谱官方的表述,尽管新的大模型名字中带有Chat,但实际上这是一个全新版本的基座模型,它的完全版和上一代一样拥有1300...
-
全新视觉提示方法SoM 让GPT-4V看的更准、分的更细
研究人员推出了一种新的视觉提示方法 Set-of-Mark(SoM),它可以让 OpenAI 多模态大模型 GPT-4V 在视觉内容理解方面有了质的提升。GPT-4V 是一种基于 GPT-4的多模态模型,可以同时处理文本和图像,并生成多种类型的输出。 然而...
-
AI视野:WPS AI宣布接入WPS Mac版;爱奇艺推出AI搜索;苹果计划明年推出生成式AI功能;DALL-E3易受越狱攻击
???AI应用 爱奇艺推出AI搜索 将生成式AI技术应用于剧情搜索等场景 爱奇艺升级AI搜索,区别于传统搜索第一步只能搜到片名,升级后的爱奇艺AI搜索主打让观众在搜索环节便能一键直达心仪内容。 WPS AI 宣布接入 WPS Mac 版 提供内容生成等功...
-
在视觉提示中加入「标记」,微软等让GPT-4V看的更准、分的更细
最近一段时间,我们见证了大型语言模型(LLM)的显著进步。特别是,生成式预训练 Transformer 或 GPT 的发布引领了业界和学术界的多项突破。自 GPT-4发布以来,大型多模态模型 (LMM 引起了研究界越来越多的兴趣,许多工作致力于构建多模态...