ocr 第3页 - AIGC资讯

stable-diffusion打造自己的lora模型（使用lora-scripts）

1、训练图片收集比如要训练一个自己头像的模型，就可以拍一些自己的照片（20-50张，最少15张），要求画质清晰，脸部轮廓清楚，背景较为简单的照片。 2、使用stable_diffusion的预处理功能进行图片的预处理这里可以根据自己的情况设置...

人工智能 2024-01-20 人工智能

1435阅读

VideoCrafter2官网体验入口视频生成AI模型在线使用方法

VideoCrafter2 官网体验入口是一款强大的视频生成AI模型，能够根据您提供的文本描述生成高质量、流畅的视频作品。无需复杂的视频编辑技能，只需简单的文本描述，VideoCrafter2 就能帮助您创作出剧本级别的视频。在本文中，我们将详细介绍如何使...

生成式AI 2024-01-19 人工智能

1268阅读

AI视野：百度推视频生成模型UniVG；下一代大模型Llama3正在训练；腾讯推视频模型VideoCrafter2；TikTok测试AI作曲功能

欢迎来到【AI视野】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解：https://top.aibase.com/ ???AI应用 1、百度推出视频生...

人工智能 2024-01-19 人工智能

917阅读

微软Windows 11 Paint新增AI生成图像功能（附使用教程）

各种人工智能图像生成器将根据您的描述创建图像。但最贴近家庭的一个是微软自己的画图程序。借助 Windows11版本的 Paint，Windows11用户可以使用名为 Cocreator 的 AI 驱动工具来生成图像。除了描述您想要的内容之外，还可以选择特...

人工智能 2024-01-17 人工智能

1095阅读

大型语言模型检索增强生成利器——向量搜索引擎

译者 | 朱先忠审校 | 重楼简介随着大型语言模型（LLM）席卷全球，向量搜索引擎也紧随其后。同时，向量数据库也构成大型语言模型长期记忆系统的基础。通过有效的算法找到相关信息并使其作为上下文传递给语言模型，向量搜索引擎可以提供超出训练截止值的最...

AIGC 2024-01-17 人工智能

977阅读

肯睿中国Cloudera：数据与AI如何帮助企业“反脆弱”？

2023年，无论是个人还是企业，“脆弱“几乎是一种普遍的状态。在全球经济经历诸多重大动荡的今天，越来越多个人和企业意识到“反脆弱“的重要性。“反脆弱“这一概念由作家尼古拉斯 · 塔勒布提出，是一个比复原力、强韧性更高阶的概念。简单来讲，反脆弱指的是在混...

生成式AI 2024-01-16 人工智能

897阅读

连可怜的记事本都没躲过微软的 AI 魔爪

从一个 Windows Insider 用户发布的截图来看，Windows 记事本将成为微软人工智能关注的下一个对象。虽然在当前的任何 Windows Insider 版本中都无法直接使用该功能，但精明的用户总能找到方法深入系统，将那些未经公开预览的...

生成式AI 2024-01-16 人工智能

857阅读

WAIC2023| AIGC究竟在向善还是向恶而行？

目录一、常见图像篡改技术二、传统篡改图像检测方法 2.1、基于光源和噪声的拼接图像篡改检测方法 2.2、基于马尔科夫特征的检测方法三、基于深度学习的图像篡改检测方法 3.1、基于Fisher编码和SVM模型的方法 3.2、基于...

AIGC 2024-01-15 人工智能

997阅读

AI视野：阿里推ReplaceAnything框架；OpenAI取消军用禁令；Pika推视频画面扩充功能；SD推图生视频插件I2V-Adapter

欢迎来到【AI视野】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解：https://top.aibase.com/ ?‍???聚焦开发者阿里推Rep...

大数据 2024-01-15 人工智能

852阅读

2023年AIGC发展回顾与展望

2023年是人工智能内容生成（AIGC）技术飞速发展的一年。从年初ChatGPT一炮打响，大家纷纷加入到大模型研究之中。期间Midjourney和Stable Diffusion AI绘画技术持续火热，基于AIGC类的应用也如雨后春笋般遍地...

AIGC 2024-01-07 人工智能

1194阅读

攻克图像「文本生成」难题，碾压同级扩散模型！两代TextDiffuser架构深度解析

近年来，文本生成图像领域取得了显著进展，尤其是基于扩散（Diffusion）的图像生成模型在细节层面上展现出逼真的效果。然而，一个挑战仍然存在：如何将文本准确地融入图像。生活中存在大量的「含文本图像」，从广告海报到书籍封面，再到路牌指示，都包含了重要...

生成式AI 2024-01-06 人工智能

907阅读

AI平台：百度AI开放平台-全球领先的人工智能服务平台

百度AI开放平台-全球领先的人工智能服务平台开放能力开发平台文心大模型场景应用软硬一体客户案例更多 AI市场开发与生态最近搜索热门产品语音识别人脸识别文字识别内容安全...

大数据 2024-01-06 人工智能

1151阅读

AI平台：文心大模型-产业级知识增强大模型

文心大模型-产业级知识增强大模型···大模型···产品中心···星河社区···合作咨询···文心一言，你的智能伙伴有用、有趣、有温度写方案、想点子、问万事、闲聊天现已全面开放，快来和我聊天吧查看详情两小时玩转大模型创意应用学习课程文心一言向全社会开放文心一...

生成式AI 2024-01-06 人工智能

1182阅读

AI平台：印象笔记 | 工作必备效率应用

印象笔记 | 工作必备效率应用 Skip...

人工智能 2024-01-06 人工智能

1363阅读

GPT-4V开源平替！清华浙大领衔，LLaVA、CogAgent等开源视觉模型大爆发

如今，GPT-4 Vision在语言理解和视觉处理方面展现出了非凡的能力。然而，如果想在不影响性能的前提下，寻求具有成本效益的替代方案，开源方案就蕴藏着无限可能。国外的一位开发者Youssef Hosni为大家奉上了三种GPT-4V的开源替代方案，可...

AIGC 2024-01-03 人工智能

1001阅读

百度大模型这一年：文心一言国内首个用户破亿，飞桨开发者超千万

文心一言用户规模破1亿，飞桨的开发者数量达到1070万。只用短短两个月，文心大模型4.0整体效果又提升了32%。 2023年12月28日，在刚刚过去的 WAVE SUMMIT+2023深度学习开发者大会上，百度揭幕了文心大模型与深度学习平台飞桨的一系列新...

大数据 2024-01-03 人工智能

854阅读

AI绘图模型不会写字的难题，被阿里AnyText破解了

能准确写汉字的AI绘图工具，终于登场了! 包括中文在内一共支持四种语言，而且还能文字的位置还能任意指定。从此，人们终于可以和AI绘图模型的“鬼画符”说再见了。这款名为AnyText的绘图工具来自阿里巴巴，可以按照指定位置精准地向图中加入文字。此前的绘...

生成式AI 2024-01-01 人工智能

924阅读

Gemini vs GPT-4V到底哪家强？视觉-语言模型的全面比较和结合使用

概括大家好，我是戚张扬，目前就读于香港大学，今天和大家分享一篇我们关于视觉语言模型最新的研究，这篇论文提供了对谷歌的Gemini和OpenAI的GPT-4V(ision 两个SOTA模型的深入定性比较研究。我们的研究涉及到对这两个模型在视觉语言能力、与...

大数据 2023-12-29 人工智能

1269阅读

ocr识别原理和场景应用浅析

Labs 导读日常生活的截图提取、拍照搜题，都用到了文字识别领域占据重要地位的OCR（光学字符识别）技术。 Part 01、什么是OCR OCR（光学字符识别）是计算机文字识别的一种方法，利用光学技术和计算机技术将印刷或手写在纸张等介质的文...

生成式AI 2023-12-25 人工智能

1182阅读

OCR终结了？旷视提出支持文档级OCR的多模态大模型，支持中英文，已开源！

想将一份文档图片转换成Markdown格式？以往这一任务需要文本识别、布局检测和排序、公式表格处理、文本清洗等多个步骤—— 这一次，只需一句话命令，多模态大模型Vary直接端到端输出结果：图片无论是中英文的大段文字：图片还是包含了公式的文档图片...

AIGC 2023-12-25 人工智能

1000阅读

到2030年，六项技术工作将由AI/自动化终结

译者 | 晶颜审校 | 重楼如今，人工智能和自动化已进入高速发展阶段，很多人都在担心它们将会取代部分专业角色。虽然预测某些工作将彻底消失似乎有些夸张，但明智的做法是，对未来可能发生的情况保持现实视角，以便为接下来发生的任何事情做好准备。考虑到这一...

人工智能 2023-12-25 人工智能

969阅读

文字识别表格识别，这个库直接调用

PaddleOCR是一个基于PaddlePaddle深度学习框架开发的开源OCR（Optical Character Recognition）工具。除了光学字符识别（OCR）功能外，最新版本的PaddleOCR还引入了表格识别功能。表格识别是一种将图像...

人工智能 2023-12-24 人工智能

1141阅读

扳回一局！Gemini-Pro多模态能力和GPT-4V不相上下

近期的Gemini-Pro评测报告显示其在多模态领域取得了显著的进展，与GPT-4V不相上下，甚至在某些方面表现更为出色。首先，在多模态专有基准MME上的综合表现中，Gemini-Pro以1933.4的高分超越了GPT-4V，展现出在感知和认知方面的全面优...

生成式AI 2023-12-22 人工智能

822阅读

copilot 逆向

原文： copilot-explorer | Hacky repo to see what the Copilot extension sends to the server 对我来说，Github Copilot 极其有用。它经常能神奇地读懂我的...

人工智能 2023-12-20 人工智能

873阅读

Copilot 用户现可通过Suno AI插件创作自己的 AI 歌曲

微软的 AI 聊天机器人 Copilot 现在可以随时创作 AI 歌曲，这要归功于与 Suno 的新插件合作。Suno 是一家位于剑桥的 AI 音乐初创公司，在 Discord 上提供了一个工具，可以根据文本提示创作一首原创歌曲，包括歌词。现在，Copi...

人工智能 2023-12-20 人工智能

1243阅读

35个国内AI绘画工具【免费+付费】

最近，随着人工智能技术的不断发展，越来越多的AI绘画工具在市场上涌现。这些工具通过结合深度学习、图像识别、生成对抗网络等技术，可以帮助用户快速地创建独特且富有创意的图形和艺术作品。以下是35个国内AI绘画工具的免费和付费版本，供您选择参考： 1. 云...

AIGC 2023-12-17 人工智能

1978阅读

【Stable Diffusion论文精读】High-Resolution Image Synthesis with Latent Diffusion Models（主打详细和易懂）

【Stable Diffusion论文精读】High-Resolution Image Synthesis with Latent Diffusion Models（主打详细和易懂） 0、前言（学的明明白白） Abstract 1. I...

AIGC 2023-12-15 人工智能

819阅读

LLaMA Adapter和LLaMA Adapter V2

LLaMA Adapter论文地址： https://arxiv.org/pdf/2303.16199.pdf LLaMA Adapter V2论文地址： https://arxiv.org/pdf/2304.15010.pdf LLaMA Ada...

人工智能 2023-12-10 人工智能

1073阅读

七月论文审稿GPT第2版：从Meta Nougat、GPT4审稿到Mistral、LongLora Llama

前言如此前这篇文章《学术论文GPT的源码解读与微调：从chatpaper、gpt_academic到七月论文审稿GPT》中的第三部分所述，对于论文的摘要/总结、对话、翻译、语法检查而言，市面上的学术论文GPT的效果虽暂未有多好，可至少还过得去，而如果涉...

生成式AI 2023-12-06 人工智能

944阅读

LLaMA 2：开源的预训练和微调语言模型推理引擎 | 开源日报 No.86

facebookresearch/llama Stars: 36.0k License: NOASSERTION LLaMA 2 是一个开源项目，用于加载 LLaMA 模型并进行推理。该项目的主要功能是提供预训练和微调后的 LLaMA 语言模型...

AIGC 2023-12-05 人工智能

978阅读

大模型版“5年高考3年模拟”来了！6141道数学题，还是多模态的那种

大模型的“5年高考3年模拟”数学题来了，还是加强强强版！微软、加州大学洛杉矶分校（UCLA）、华盛顿大学（UW）联合打造全新多模态数学推理基准数据集。名为“MathVista”。涵盖各种题型共6141个问题，来源于28个现有的多模态数据集和3个新标...

生成式AI 2023-12-05 人工智能

926阅读

向“创新者”升阶，程序员当下如何应对 AI 的挑战 | 京东云技术团队

随着 AI 技术的飞速发展，特别是大模型的出现，传统的程序员角色正在经历深刻的变革，我们不得不重新对自己进行审视和思考。通用领域大模型的“泛化能力” 在过去的二十年内，AI 领域的大部分研究和应用都集中在完成一项特定的任务中，例如：分类图片、总结...

大数据 2023-12-05 人工智能

839阅读

人工智能在供应链中有哪些应用？

应用人工智能(AI 是供应链专业人士解决关键问题和改善全球运营的一种方式。人工智能增强工具正在整个供应链中使用，以提高效率，减少全球工人短缺的影响，并发现更好、更安全的方式将货物从一个地方转移到另一个地方。为什么企业应该使用人工智能? 人工智能的应...

大数据 2023-12-04 人工智能

1534阅读

突破分辨率极限，字节联合中科大提出多模态文档大模型

现在连文档都有大模型了，还是高分辨率、多模态的那种! 不仅能准确识别出图像里的信息，还能结合用户需求调用自己的知识库来回答问题。比如，看到图中马里奥的界面，直接就回答出了这是任天堂公司的作品。这款模型由字节跳动和中国科学技术大学合作研究，于2023年...

大数据 2023-12-04 人工智能

859阅读

AIGC 违规/违禁/敏感词图片审核秒审

一款基于AI算法和云计算技术，结合海量的违规图像数据进行训练建模，对用户上传的图片不宜或违规内容进行高召回高准确的审核识别和标注的产品，并实时跟进监管要求，持续更新审核维度，提升技术对抗能力，协助企业高效搭建内容风控体系。针对AIGC特点着重优化，规避...

AIGC 2023-12-02 人工智能

1264阅读

最强的GPT-4V都考不过？基于大学考试的测试基准MMMU诞生了

目前最好的大型多模态模型 GPT-4V 与大学生谁更强？我们还不知道，但近日一个新的基准数据集 MMMU 以及基于其的基准测试或许能给我们提供一点线索，如下排行榜所示。看起来，GPT-4V 在一些科目上已经强过挂科的大学生了。当然这个数据集的创造目的...

AIGC 2023-12-01 人工智能

871阅读

通义千问720亿参数模型开源，率先实现“全尺寸全模态”开源

12月1日，阿里云通义千问720亿参数模型Qwen-72B宣布开源。该模型基于3T tokens高质量数据训练，在10个权威基准测评中夺得开源模型最优成绩，在部分测评中超越闭源的GPT-3.5和GPT-4。在英语任务上，Qwen-72B在MMLU基准测...

AIGC 2023-12-01 人工智能

994阅读

AI视野：OpenAI官宣奥特曼回归；元象推出3D拍摄与混合编辑插件工具；百度灵医大模型将接入孚宝机器人；together.ai融资7.3亿元

???AI新鲜事 OpenAI官宣Sam Altman回归担任CEO OpenAI正式宣布Sam Altman回归担任CEO，Mira Murati将回到CTO职位，新的董事会由Bret Taylor、Larry Summers和Adam D'Angelo...

人工智能 2023-11-30 人工智能

947阅读

佐糖客户端下载地址 AI照片修复清晰软件推荐

佐糖是一款采用人工智能AI技术的高效图片处理软件，拥有抠图、消除笔、人像变清晰、通用变清晰、证件照、压缩、加水印、裁剪等功能，支持批量处理海量图片，功能齐全，操作便捷高效，让图像处理更简单。那么佐糖在哪里可以体验呢?这里就给大家带来佐糖官网体验入口。 &...

生成式AI 2023-11-29 人工智能

1238阅读

stable diffusion v1及v2版本本地部署方法、踩坑

v1版本：确保你至少有12G显存 git: GitHub - CompVis/stable-diffusion: A latent text-to-image diffusion modelhttps://github.com/CompVis/s...

大数据 2023-11-29 人工智能

1015阅读

自带 AI 生图，微软现已为 Windows 11 画图 App 引入 DALL-E 3 集成

IT之家 11 月 28 日消息，微软现已开始向所有 Windows 11 用户推送集成 DALL-E 3 的“画图”应用。 IT之家注：DALL-E 模型是 OpenAI 开发的图片生成模型，此前已在微软 Bing 的图像生成功能中使用。得益于 D...

生成式AI 2023-11-28 人工智能

856阅读

Redis内存空间预估与内存优化策略：保障数据安全与性能的架构实践AIGC/AI绘画/chatGPT/SD/MJ

推荐阅读 AI文本 OCR识别最佳实践 AI Gamma一键生成PPT工具直达链接玩转cloud Studio 在线编码神器玩转 GPU AI绘画、AI讲话、翻译,GPU点亮AI想象空间资源分享「java、pytho...

AIGC 2023-11-27 人工智能

920阅读

【多模态】3、CLIP | OpenAI 出品使用 4 亿样本训练的图文匹配模型

文章目录一、背景二、方法 2.1 使用自然语言来监督训练 2.2 建立一个超大数据集 2.3 选择预训练的方式——对比学习而非预测学习 2.4 模型缩放和选择三、效果四、思考论文：Learning Transferabl...

AIGC 2023-11-27 人工智能

2281阅读

GPTs 初体验 - 1 分钟就能创建一个自己的 ChatGPT？ | 京东云技术团队

就在 11.10 号早上，ChatGPT 已经偷摸的把 GPTs 功能，开放给所有尊贵的 Plus 用户了。随着这波的功能开放，界面也是改了不少。点击左侧的 Explore 或者左下角的用户处，就可以直接进入新的 GPTs 功能：这里可以看到我...

大数据 2023-11-27 人工智能

870阅读

Open Vocabulary Detection 开放世界目标检测竞赛 2023获胜团队方案分享

OVD技术简介目标检测是计算机视觉领域中的一项核心任务，其主要目标是让计算机能够自动识别图片中目标的类别，并准确标示每个目标的位置。目前，主流的目标检测方法主要针对闭集目标的开发，即在任务开始之前需要对待检测目标进行类别定义，并进行人工数据标注，通...

大数据 2023-11-27 人工智能

1509阅读

stable-diffusion领域prompt集合

有什么写实的stable diffusion模型？ - 知乎试了试这个模型，感觉勉强，大佬们知道有没有更写实的模型？https://huggingface.co/CompVis/stable-diff…https://www.zhihu.com/quest...

人工智能 2023-11-24 人工智能

1019阅读

研究人员开发自动识别古代楔形文字片的AI软件

一项由马丁·路德大学哈勒-维滕贝格（MLU）、约翰内斯·古腾堡大学迈因茨分校和迈因茨应用科学大学团队开发的新型人工智能软件如今能够解读难以辨认的楔形文字。与以往依赖照片的方法不同，该AI系统利用楔形文字片的3D模型，传递的结果比先前的方法更加可靠。这使得能...

AIGC 2023-11-24 人工智能

824阅读

提前对齐，视频问答新SOTA！北大全新Video-LLaVA视觉语言大模型，秒懂视频笑点

【新智元导读】最近，来自北京大学等机构研究者提出了一种全新视觉语言大模型——Video-LLaVA，使得LLM能够同时接收图片和视频为输入。Video-LlaVA在下游任务中取得了卓越的性能，并在图片、视频的13个基准上达到先进的性能。这个结果表明，统一L...

AIGC 2023-11-23 人工智能

901阅读

谷歌为什么输给了OpenAI？科技公司创始人兼谷歌前员工带你一探究竟

在当今的人工智能浪潮中，OpenAI这样的新兴公司引领了革命。 ——而GPT的一些关键部分：Transformer、强化学习（AlphaGo ）和多模态（Flamingo）却都是由Google发明的。那么为什么，作为科技领域巨无霸的Google，却...

大数据 2023-11-20 人工智能

942阅读