-
攻克图像「文本生成」难题,碾压同级扩散模型!两代TextDiffuser架构深度解析
近年来,文本生成图像领域取得了显著进展,尤其是基于扩散(Diffusion)的图像生成模型在细节层面上展现出逼真的效果。 然而,一个挑战仍然存在:如何将文本准确地融入图像。 生活中存在大量的「含文本图像」,从广告海报到书籍封面,再到路牌指示,都包含了重要...
-
AI平台:百度AI开放平台-全球领先的人工智能服务平台
百度AI开放平台-全球领先的人工智能服务平台 开放能力 开发平台 文心大模型 场景应用 软硬一体 客户案例 更多 AI市场 开发与生态 最近搜索 热门产品 语音识别 人脸识别 文字识别 内容安全...
-
AI平台:文心大模型-产业级知识增强大模型
文心大模型-产业级知识增强大模型···大模型···产品中心···星河社区···合作咨询···文心一言,你的智能伙伴有用、有趣、有温度写方案、想点子、问万事、闲聊天现已全面开放,快来和我聊天吧查看详情两小时玩转大模型创意应用学习课程文心一言向全社会开放文心一...
-
AI平台:印象笔记 | 工作必备效率应用
印象笔记 | 工作必备效率应用 Skip...
-
GPT-4V开源平替!清华浙大领衔,LLaVA、CogAgent等开源视觉模型大爆发
如今,GPT-4 Vision在语言理解和视觉处理方面展现出了非凡的能力。 然而,如果想在不影响性能的前提下,寻求具有成本效益的替代方案,开源方案就蕴藏着无限可能。 国外的一位开发者Youssef Hosni为大家奉上了三种GPT-4V的开源替代方案,可...
-
百度大模型这一年:文心一言国内首个用户破亿,飞桨开发者超千万
文心一言用户规模破1亿,飞桨的开发者数量达到1070万。 只用短短两个月,文心大模型4.0整体效果又提升了32%。 2023年12月28日,在刚刚过去的 WAVE SUMMIT+2023深度学习开发者大会上,百度揭幕了文心大模型与深度学习平台飞桨的一系列新...
-
AI绘图模型不会写字的难题,被阿里AnyText破解了
能准确写汉字的AI绘图工具,终于登场了! 包括中文在内一共支持四种语言,而且还能文字的位置还能任意指定。 从此,人们终于可以和AI绘图模型的“鬼画符”说再见了。 这款名为AnyText的绘图工具来自阿里巴巴,可以按照指定位置精准地向图中加入文字。 此前的绘...
-
Gemini vs GPT-4V到底哪家强?视觉-语言模型的全面比较和结合使用
概括 大家好,我是戚张扬,目前就读于香港大学,今天和大家分享一篇我们关于视觉语言模型最新的研究,这篇论文提供了对谷歌的Gemini和OpenAI的GPT-4V(ision 两个SOTA模型的深入定性比较研究。我们的研究涉及到对这两个模型在视觉语言能力、与...
-
ocr识别原理和场景应用浅析
Labs 导读 日常生活的截图提取、拍照搜题,都用到了文字识别领域占据重要地位的OCR(光学字符识别)技术。 Part 01、 什么是OCR OCR(光学字符识别)是计算机文字识别的一种方法,利用光学技术和计算机技术将印刷或手写在纸张等介质的文...
-
OCR终结了?旷视提出支持文档级OCR的多模态大模型,支持中英文,已开源!
想将一份文档图片转换成Markdown格式? 以往这一任务需要文本识别、布局检测和排序、公式表格处理、文本清洗等多个步骤—— 这一次,只需一句话命令,多模态大模型Vary直接端到端输出结果: 图片 无论是中英文的大段文字: 图片 还是包含了公式的文档图片...
-
到2030年,六项技术工作将由AI/自动化终结
译者 | 晶颜 审校 | 重楼 如今,人工智能和自动化已进入高速发展阶段,很多人都在担心它们将会取代部分专业角色。虽然预测某些工作将彻底消失似乎有些夸张,但明智的做法是,对未来可能发生的情况保持现实视角,以便为接下来发生的任何事情做好准备。 考虑到这一...
-
文字识别表格识别,这个库直接调用
PaddleOCR是一个基于PaddlePaddle深度学习框架开发的开源OCR(Optical Character Recognition)工具。除了光学字符识别(OCR)功能外,最新版本的PaddleOCR还引入了表格识别功能。 表格识别是一种将图像...
-
扳回一局!Gemini-Pro多模态能力和GPT-4V不相上下
近期的Gemini-Pro评测报告显示其在多模态领域取得了显著的进展,与GPT-4V不相上下,甚至在某些方面表现更为出色。首先,在多模态专有基准MME上的综合表现中,Gemini-Pro以1933.4的高分超越了GPT-4V,展现出在感知和认知方面的全面优...
-
copilot 逆向
原文: copilot-explorer | Hacky repo to see what the Copilot extension sends to the server 对我来说,Github Copilot 极其有用。它经常能神奇地读懂我的...
-
Copilot 用户现可通过Suno AI插件创作自己的 AI 歌曲
微软的 AI 聊天机器人 Copilot 现在可以随时创作 AI 歌曲,这要归功于与 Suno 的新插件合作。Suno 是一家位于剑桥的 AI 音乐初创公司,在 Discord 上提供了一个工具,可以根据文本提示创作一首原创歌曲,包括歌词。 现在,Copi...
-
35个国内AI绘画工具【免费+付费】
最近,随着人工智能技术的不断发展,越来越多的AI绘画工具在市场上涌现。这些工具通过结合深度学习、图像识别、生成对抗网络等技术,可以帮助用户快速地创建独特且富有创意的图形和艺术作品。 以下是35个国内AI绘画工具的免费和付费版本,供您选择参考: 1. 云...
-
【Stable Diffusion论文精读】High-Resolution Image Synthesis with Latent Diffusion Models(主打详细和易懂)
【Stable Diffusion论文精读】High-Resolution Image Synthesis with Latent Diffusion Models(主打详细和易懂) 0、前言(学的明明白白) Abstract 1. I...
-
LLaMA Adapter和LLaMA Adapter V2
LLaMA Adapter论文地址: https://arxiv.org/pdf/2303.16199.pdf LLaMA Adapter V2论文地址: https://arxiv.org/pdf/2304.15010.pdf LLaMA Ada...
-
七月论文审稿GPT第2版:从Meta Nougat、GPT4审稿到Mistral、LongLora Llama
前言 如此前这篇文章《学术论文GPT的源码解读与微调:从chatpaper、gpt_academic到七月论文审稿GPT》中的第三部分所述,对于论文的摘要/总结、对话、翻译、语法检查而言,市面上的学术论文GPT的效果虽暂未有多好,可至少还过得去,而如果涉...
-
LLaMA 2:开源的预训练和微调语言模型推理引擎 | 开源日报 No.86
facebookresearch/llama Stars: 36.0k License: NOASSERTION LLaMA 2 是一个开源项目,用于加载 LLaMA 模型并进行推理。 该项目的主要功能是提供预训练和微调后的 LLaMA 语言模型...
-
大模型版“5年高考3年模拟”来了!6141道数学题,还是多模态的那种
大模型的“5年高考3年模拟”数学题来了,还是加强强强版! 微软、加州大学洛杉矶分校(UCLA)、华盛顿大学(UW)联合打造全新多模态数学推理基准数据集。 名为“MathVista”。 涵盖各种题型共6141个问题,来源于28个现有的多模态数据集和3个新标...
-
向“创新者”升阶,程序员当下如何应对 AI 的挑战 | 京东云技术团队
随着 AI 技术的飞速发展,特别是大模型的出现,传统的程序员角色正在经历深刻的变革,我们不得不重新对自己进行审视和思考。 通用领域大模型的“泛化能力” 在过去的二十年内,AI 领域的大部分研究和应用都集中在完成一项特定的任务中,例如:分类图片、总结...
-
人工智能在供应链中有哪些应用?
应用人工智能(AI 是供应链专业人士解决关键问题和改善全球运营的一种方式。 人工智能增强工具正在整个供应链中使用,以提高效率,减少全球工人短缺的影响,并发现更好、更安全的方式将货物从一个地方转移到另一个地方。 为什么企业应该使用人工智能? 人工智能的应...
-
突破分辨率极限,字节联合中科大提出多模态文档大模型
现在连文档都有大模型了,还是高分辨率、多模态的那种! 不仅能准确识别出图像里的信息,还能结合用户需求调用自己的知识库来回答问题。 比如,看到图中马里奥的界面,直接就回答出了这是任天堂公司的作品。 这款模型由字节跳动和中国科学技术大学合作研究,于2023年...
-
AIGC 违规/违禁/敏感词图片审核 秒审
一款基于AI算法和云计算技术,结合海量的违规图像数据进行训练建模,对用户上传的图片不宜或违规内容进行高召回高准确的审核识别和标注的产品,并实时跟进监管要求,持续更新审核维度,提升技术对抗能力,协助企业高效搭建内容风控体系。 针对AIGC特点着重优化,规避...
-
最强的GPT-4V都考不过?基于大学考试的测试基准MMMU诞生了
目前最好的大型多模态模型 GPT-4V 与大学生谁更强?我们还不知道,但近日一个新的基准数据集 MMMU 以及基于其的基准测试或许能给我们提供一点线索,如下排行榜所示。 看起来,GPT-4V 在一些科目上已经强过挂科的大学生了。当然这个数据集的创造目的...
-
通义千问720亿参数模型开源,率先实现“全尺寸全模态”开源
12月1日,阿里云通义千问720亿参数模型Qwen-72B宣布开源。该模型基于3T tokens高质量数据训练,在10个权威基准测评中夺得开源模型最优成绩,在部分测评中超越闭源的GPT-3.5和GPT-4。 在英语任务上,Qwen-72B在MMLU基准测...
-
AI视野:OpenAI官宣奥特曼回归;元象推出3D拍摄与混合编辑插件工具;百度灵医大模型将接入孚宝机器人;together.ai融资7.3亿元
???AI新鲜事 OpenAI官宣Sam Altman回归担任CEO OpenAI正式宣布Sam Altman回归担任CEO,Mira Murati将回到CTO职位,新的董事会由Bret Taylor、Larry Summers和Adam D'Angelo...
-
佐糖客户端下载地址 AI照片修复清晰软件推荐
佐糖是一款采用人工智能AI技术的高效图片处理软件,拥有抠图、消除笔、人像变清晰、通用变清晰、证件照、压缩、加水印、裁剪等功能,支持批量处理海量图片,功能齐全,操作便捷高效,让图像处理更简单。那么佐糖在哪里可以体验呢?这里就给大家带来佐糖官网体验入口。 &...
-
stable diffusion v1及v2版本 本地部署方法、踩坑
v1版本: 确保你至少有12G显存 git: GitHub - CompVis/stable-diffusion: A latent text-to-image diffusion modelhttps://github.com/CompVis/s...
-
自带 AI 生图,微软现已为 Windows 11 画图 App 引入 DALL-E 3 集成
IT之家 11 月 28 日消息,微软现已开始向所有 Windows 11 用户推送集成 DALL-E 3 的“画图”应用。 IT之家注:DALL-E 模型是 OpenAI 开发的图片生成模型,此前已在微软 Bing 的图像生成功能中使用。 得益于 D...
-
Redis内存空间预估与内存优化策略:保障数据安全与性能的架构实践AIGC/AI绘画/chatGPT/SD/MJ
推荐阅读 AI文本 OCR识别最佳实践 AI Gamma一键生成PPT工具直达链接 玩转cloud Studio 在线编码神器 玩转 GPU AI绘画、AI讲话、翻译,GPU点亮AI想象空间 资源分享 「java、pytho...
-
【多模态】3、CLIP | OpenAI 出品使用 4 亿样本训练的图文匹配模型
文章目录 一、背景 二、方法 2.1 使用自然语言来监督训练 2.2 建立一个超大数据集 2.3 选择预训练的方式——对比学习而非预测学习 2.4 模型缩放和选择 三、效果 四、思考 论文:Learning Transferabl...
-
GPTs 初体验 - 1 分钟就能创建一个自己的 ChatGPT? | 京东云技术团队
就在 11.10 号早上,ChatGPT 已经偷摸的把 GPTs 功能,开放给所有尊贵的 Plus 用户了。 随着这波的功能开放,界面也是改了不少。点击左侧的 Explore 或者左下角的用户处,就可以直接进入新的 GPTs 功能: 这里可以看到我...
-
Open Vocabulary Detection 开放世界目标检测竞赛 2023获胜团队方案分享
OVD技术简介 目标检测是计算机视觉领域中的一项核心任务,其主要目标是让计算机能够自动识别图片中目标的类别,并准确标示每个目标的位置。目前,主流的目标检测方法主要针对闭集目标的开发,即在任务开始之前需要对待检测目标进行类别定义,并进行人工数据标注,通...
-
stable-diffusion领域prompt集合
有什么写实的stable diffusion模型? - 知乎试了试这个模型,感觉勉强,大佬们知道有没有更写实的模型?https://huggingface.co/CompVis/stable-diff…https://www.zhihu.com/quest...
-
研究人员开发自动识别古代楔形文字片的AI软件
一项由马丁·路德大学哈勒-维滕贝格(MLU)、约翰内斯·古腾堡大学迈因茨分校和迈因茨应用科学大学团队开发的新型人工智能软件如今能够解读难以辨认的楔形文字。与以往依赖照片的方法不同,该AI系统利用楔形文字片的3D模型,传递的结果比先前的方法更加可靠。这使得能...
-
提前对齐,视频问答新SOTA!北大全新Video-LLaVA视觉语言大模型,秒懂视频笑点
【新智元导读】最近,来自北京大学等机构研究者提出了一种全新视觉语言大模型——Video-LLaVA,使得LLM能够同时接收图片和视频为输入。Video-LlaVA在下游任务中取得了卓越的性能,并在图片、视频的13个基准上达到先进的性能。这个结果表明,统一L...
-
最新!基于视觉方案的车辆速度、距离估计综述
本文经自动驾驶之心公众号授权转载,转载请联系出处。 论文名称:Vision-based Vehicle Speed Estimation: A Survey 导读 在精确检测车速车距的方案中,视觉方案是非常具有挑战性的,但由于没有昂贵的距离传感器而大幅...
-
谷歌为什么输给了OpenAI?科技公司创始人兼谷歌前员工带你一探究竟
在当今的人工智能浪潮中,OpenAI这样的新兴公司引领了革命。 ——而GPT的一些关键部分:Transformer、强化学习(AlphaGo ) 和 多模态(Flamingo)却都是由Google发明的。 那么为什么,作为科技领域巨无霸的Google,却...
-
探寻人工智能前沿 迎接AIGC时代——CSIG企业行(附一些好玩的创新点)
上周我有幸参加了由中国图像图形学会和合合信息共同举办的CSIG企业行活动。 这次活动邀请了多位来自图像描述与视觉问答、图文公式识别、自然语言处理、生成式视觉等领域的学者,他们分享了各自的研究成果和经验,并与现场观众进行了深入的交流和探讨。干货多多...
-
免费AI绘画网站推荐,6个好用的AI画画生成网站
6个免费AI绘画网站推荐,AI画画操作简单更好看! 1.触站: 触站是一款国内人气很高的画师作品分享平台,有海量插画师入驻,同时触站的AI绘画功能也十分强大。触站的AI绘画功能可以快速产出高质量的绘画作品,并且支持一键下载,让大家可以轻松的获取到自己想...
-
动手做个mini智能助理--数据准备(2)
背景: 这部分会介绍如何准备自己的数据,利用chatgpt的self-instruct的方式批量的生成平行语料对。chatgpt有超强的生成能力,并且chatgpt的生成结果有经过harmless、种族歧视、不和法规的过审过滤。所以我们可以考虑是...
-
GPTs有哪些值得推荐的应用?14款热门GPTs应用合集
GPTstore是OpenAi推出的GPT应用商店,类似于Appstore,支持普通用户自定义自己的GPT并与其他用户分享。GPTs即将发布的消息一公布就吸引了众多人的热议,目前已经有很多好用的GPTs应用,下面就给大家带来14款值得推荐的GPTs应用,另...
-
Google Photos推出AI功能,智能整理照片,分类更便捷
Google Photos日前推出了一系列新功能,利用人工智能技术更好地为您组织和分类照片。其中一个新功能称为“Photo Stacks”,Google将利用AI识别一组同时拍摄的照片中的“最佳”照片,并将其选为该组的顶部选择,以减少您的照片库中的混乱。另...
-
使用Python从图像中提取表格
大约一年前,我被分配任务从文件中提取和结构化数据,主要是包含在表格中的数据。我之前对计算机视觉没有了解,并且很难找到一个合适的“即插即用”的解决方案。当时可选的方案要么是基于最新神经网络(NN)的解决方案,这些解决方案庞大而繁琐,要么是基于OpenCV的...
-
如何利用人工智能释放非结构化数据的力量
随着几乎所有垂直行业都走向数字化,人们常说“数据就是新石油”。然而,人们往往没有足够重视的是,石油在经过精炼并以柴油、汽油、天然气或航空燃料等所需形式存在之前,不适合驱动我们的机器,非结构化数据的情况几乎相同。 据估计,非结构化数据约占全球组织生成和存...
-
被谷歌收购后,我终于知道为什么大模型竞争落后于OpenAI了
2018 年 3 月,一家科技教育初创 Socratic 被谷歌收购。当时这家仅 10 人的小公司打造了一款家庭作业助手(也被国内媒体称为海外「作业帮」)——学生拍下家庭作业的问题,助手就能帮助解答。除了数学,Socratic 还可以解决科学、文学、社会...
-
Stable Diffusion MacBookAir 手把手安装教程,以及checkpoint安装、Lora安装、civitai介绍。
目标: 本地部署Stable Diffusion 安装步骤: 安装git Git - Downloadshttps://git-scm.com/downloads 安装python 3.10.6 Python Releases for ma...
-
UNC斯坦福等曝光GPT-4V意外漏洞,被人类哄骗数出8个葫芦娃!LeCun和Jim Fan震惊了
GPT-4V诞生后,惊艳的多模态能力让网友惊呼连连,连OpenAI总裁Greg Brockman都不断在X上安利。 不过,最近大家发现,只要打乱布局,GPT-4V就会被曾经解决的著名计算机视觉难题——「吉娃娃还是松饼」,再次难倒…… UCSC教授Xin...