ocr 第2页 - AIGC资讯

GPT-4o成全球网友新玩具，秒秒钟纸质原型转录初始HTML，网友：谷歌你是一点流量摊不上啊

好啊，不愧是OpenAI最新旗舰，打开各个社交软件，GPT-4o的上手测试都唰唰唰往我首页推。请！看！这，就是用上GPT-4o，花不到30s时间，通过单个prompt把一个电子表格中的内容生成了完整的图表和统计分析。在过去，在Excel里做这玩意儿...

大数据 2024-05-15 人工智能

819阅读

苹果深夜扔出M4核弹，iPad Pro碾压所有AI PC！280亿晶体管3nm工艺称霸地表

不出所料，发布会上，苹果又开大了！此次发布会的一系列重磅更新，都是围绕着主角iPad展开。库克直言：这将是iPad诞生以来的一个里程碑。新款iPad Pro，轻薄到不可思议，直接让便携性和性能提升到史诗级水平。用苹果的话说就是——我们在打破iPa...

大数据 2024-05-08 人工智能

806阅读

苹果推出理解、转化模型ReALM，性能超GPT-4

苹果的研究人员推出了一种创新模型ReALM，可将参考解析问题转化为语言建模问题，能极大提升AI助手处理很多描述复杂或模糊不清的内容。例如，我们网购时选好了橘子、鸭梨、苹果、橘子汽水、洗发水、短袖、拖鞋等物品，然后告诉AI助手只结算水果。这时传统的AI助手...

人工智能 2024-04-30 人工智能

884阅读

如何利用AI实现文档处理自动化

译者 | 陈峻审校 | 重楼文件处理在许多企业及员工看来是一项必不可少、却又耗时费力的工作。每天，他们往往需要花费无数个小时去对文件进行分类、归档、以及搜索。不过，如今人工智能（AI）正在以自动化的方式改变着这些琐碎的工作。通过利用人工智能，企业...

人工智能 2024-04-30 人工智能

983阅读

超级智能体生命力觉醒！可自我更新的AI来了，妈妈再也不用担心数据瓶颈难题

哭死啊，全球狂炼大模型，一互联网的数据不够用，根本不够用。训练模型搞得跟《饥饿游戏》似的，全球AI研究者，都在苦恼怎么才能喂饱这群数据大胃王。尤其在多模态任务中，这一问题尤为突出。一筹莫展之际，来自人大系的初创团队，用自家的新模型，率先在国内把“模...

生成式AI 2024-04-29 人工智能

760阅读

挑战拯救痴心“舔狗”，我和大模型都尽力了

天降猛男，大模型化身为 “痴情男大”，等待人类玩家的拯救。一款名为 “拯救舔狗” 的大模型原生小游戏出现了。游戏规则很简单:如果玩家在几轮对话内说服 “他” 放弃追求对他并无青睐的女神，就算挑战成功。听起来并不难，然而游戏源于生活，模型人设是痴情属...

生成式AI 2024-04-24 人工智能

787阅读

谷歌AI提出MathWriting:整合人工书写和合成数据集等改变手写数学表达式识别

近年来，在线文本识别模型取得了显著进展，但数学表达（ME）识别作为更为复杂的任务仍未得到足够关注。谷歌研究团队推出了 MathWriting，一个专注于在线手写数学表达的数据集，包含230k 人工编写和400k 合成样本，超越了类似 IM2LATEX-1...

大数据 2024-04-24 人工智能

902阅读

JS 的 AI 时代来了

近几年，技术飞速发展，AI 正以前所未有的速度改变着我们的生活。而在这一浪潮中，JS 作为前端开发的基石，也正在迎来其 AI 时代的新篇章。本文将分享几个引领 JS 迈向 AI 时代的机器学习库，探索这些库的魅力，携手迎接 JS 的 AI 时代吧！ T...

AIGC 2024-04-12 人工智能

928阅读

若通过验证可颠覆美国后量子密码设计，清华陈一镭预印论文破解格密码

在计算机领域，解决格上的近似最短向量问题（Approximate Shortest Vector Problems in Lattices。Lattice Problems）以及与之等价的容错学习问题（Learning with Errors，LWE）是...

大数据 2024-04-11 人工智能

824阅读

苹果新AI模型研究Ferret-UI：或将提升Siri，读懂屏幕内容

尽管苹果在生成式 AI 热潮开始后并未推出任何 AI 模型，但近期公司正在着手一些 AI 项目。上周，苹果研究人员分享了一篇揭示公司正在研发的新语言模型的论文，内部消息称苹果正在研发两款 AI 驱动的机器人。如今，又一份研究论文的发布显示苹果才刚刚开始。...

人工智能 2024-04-10 人工智能

877阅读

腾讯 2023 年ESG报告出炉：发展负责任的AI，以数字技术推进可持续发展目标

4月8日，腾讯发布2023年ESG（即“环境、社会及管治”）报告。值得关注的是，2023年标普全球可持续发展评估提高了腾讯控股(00700.HK 的ESG评分，使其业内排名超过谷歌、Meta，位列行业全球前五。 “数字科技和人工智能是腾讯实现可持续发展的核...

生成式AI 2024-04-09 人工智能

882阅读

阿里7B多模态文档理解大模型拿下新SOTA

多模态文档理解能力新SOTA！阿里mPLUG团队发布最新开源工作mPLUG-DocOwl 1.5，针对高分辨率图片文字识别、通用文档结构理解、指令遵循、外部知识引入四大挑战，提出了一系列解决方案。话不多说，先来看效果。复杂结构的图表一键识别转换为M...

生成式AI 2024-04-02 人工智能

962阅读

52个AIGC视频生成算法模型介绍

基于Diffusion模型的AIGC生成算法日益火热，其中文生图，图生图等图像生成技术普遍成熟，很多算法从业者开始从事视频生成算法的研究和开发，原因是视频生成领域相对空白。 AIGC视频算法发展现状从2023年开始，AIG...

AIGC 2024-03-30 人工智能

1153阅读

苹果研发多模态AI，这是研究人员迄今发现的结果

译者 | 布加迪审校 | 重楼如果我告诉你，在最近热议的多模态AI背后，苹果正在悄然酝酿一场革命，你会作何感想？苹果的一群研究人员一直在系统地研究如何构建功能最强大的多模态模型，揭露了质疑传统智慧的重要见解。现在他们让我们有机会一窥底层的细节。他...

人工智能 2024-03-28 人工智能

917阅读

继电动汽车之后，下一次汽车转型是否已经发生？

随着从内燃机汽车向电动汽车的转变从未消失，停在街边的汽车连接充电线如何迅速成为一种常见景象。而且似乎一些汽车制造商已经度过了过渡阶段。汽车数字化和计算机化是另一个重大转变，它拥有约1亿行代码和1,000多个半导体芯片，而且这一趋势还在持续增长。据估计，...

人工智能 2024-03-26 人工智能

831阅读

通用文档理解新SOTA，多模态大模型TextMonkey来了

最近，华中科技大学和金山的研究人员在多模态大模型 Monkey [1]（Li et al., CVPR2024）工作的基础上提出 TextMonkey。在多个场景文本和文档的测试基准中，TextMonkey 处于国际领先地位，有潜力带来办公自动化、智慧教...

人工智能 2024-03-25 人工智能

882阅读

Image-Manga Translator官网体验入口 AI漫画图像翻译工具免费在线使用地址

Image-Manga Translator是一款能够将漫画或图片中的文字进行多语言翻译和图像处理的工具。它具有文本检测、光学字符识别(OCR 、机器翻译和图像修补等功能，支持多种语言如日语、中文、英语和韩语等，能够实现近乎完美的翻译效果。主要面向漫画爱好...

AIGC 2024-03-21 人工智能

1521阅读

帝国CMS采集插件的应用与优化探索

在网络信息高度发达的今天，内容管理系统（CMS）已成为众多网站建设的核心基石，其中帝国CMS作为国内一款知名度较高的CMS系统，受到广泛关注与应用。为了让帝国CMS在使用过程中更为高效地进行内容的获取和发布，“帝国CMS采集插件”这一扩展功能，就在用户的需...

生成式AI 2024-03-19 大数据

840阅读

利用Discuz插件实现优酷视频高效采集与管理

随着互联网信息的日益增长和视频内容的广泛应用，如何为社区论坛高效地采集和管理视频内容已成为网站运营者所面临的问题之一。而在国内的视频分享领域中，优酷视频无疑是重要的代表。将优酷视频集成到自己的社区论坛，如基于Discuz建设的网站中，能够有效地提升内容丰富...

AIGC 2024-03-19 大数据

890阅读

基于Discuz论坛的帖子采集与爬虫自创建账号策略

随着网络信息的爆炸式增长，数据采集技术日益受到重视。论坛作为互联网上的重要信息交流平台，蕴含了大量有价值的数据。Discuz作为一款广受欢迎的论坛软件，其数据采集对于研究者、企业乃至个人而言都具有重要意义。然而，在进行数据采集时，往往会遇到反爬虫机制、登录...

大数据 2024-03-18 大数据

893阅读

零一万物大模型开放平台体验入口 01-ai API接口使用地址

零一万物大模型开放平台是一个通过API调用获取高品质Yi系列大模型的平台。Yi系列模型基于零一万物的前沿科研成果和高品质数据训练而成，曾在多个权威榜单中获得SOTA表现。主要产品包括yi-34b-chat-0205、yi-34b-chat-200k和y...

人工智能 2024-03-15 人工智能

1054阅读

ImagenATexto官网体验入口 AI图像转换为可编辑文本工具

ImagenATexto是一个在线工具，可以将图像转换为可编辑的文本。它使用先进的OCR技术，确保准确提取图像中的文本。用户只需上传图像，工具会自动识别并提取文本。适用于转换文件、书籍、引用等。它支持多种图像格式，界面简单易用。点击前往ImagenAT...

生成式AI 2024-03-12 人工智能

924阅读

MIT创世纪核聚变刷新世界记录！高温超导磁体解锁恒星能量，人造太阳即将诞生？

清洁能源的圣杯，被攻下了？「一夜之间，MIT团队将聚变反应堆的每瓦特成本几乎降低到了1/40，让核聚变技术在商用成为了可能」！最近，MIT等离子体科学与核聚变中心以及英联邦聚变系统（CFS）发表了一篇综合报告。这份报告援引在「IEEE应用超导会刊...

人工智能 2024-03-11 人工智能

778阅读

基于Discuz打造高效内容采集站点的全方位解析

在网络信息爆炸的今天，如何从海量数据中获取有价值的信息成为内容创造者的重要任务之一。作为拥有庞大会员基数的知名社区软件平台，Discuz具备着内容聚合、用户交互以及良好的拓展性等多种功能特性。基于Discuz的灵活性与高扩展性，许多站长和网站管理者将视线转...

人工智能 2024-03-11 大数据

798阅读

Magi官网体验入口 AI漫画生成文本处理工具免费使用方法指南教程

Magi是一个用于自动为漫画生成文本记录的模型，它能够检测漫画中的角色、文本块和面板，并将它们按照正确的顺序排列。此外，该模型还能够聚类角色，将文本与其对应的说话者匹配，并执行OCR以提取文本。点击前往Magi官网体验入口谁可以从Magi中受益？ M...

大数据 2024-03-11 人工智能

1122阅读

基于“采集discuz论坛隐藏内容”的技术分析与探讨

随着互联网的深入发展，论坛作为信息交流和共享的平台，承载着大量的知识和数据。Discuz作为一款广泛使用的论坛系统，其灵活性和扩展性受到了众多站长的青睐。然而，在Discuz论坛中，出于保护版权、限制访问或增加用户粘性等目的，部分内容可能被设置为隐藏，仅对...

AIGC 2024-03-07 大数据

1294阅读

谷歌发布最新「读屏」AI！PaLM 2-S自动生成数据，多项理解任务刷新SOTA

【新智元导读】谷歌在语言和声控计算机界面的漫长道路上又迈出了重要一步。最新ScreenAI视觉语言模型，能够完成各种屏幕QA问答、总结摘要等任务。每个人想要的大模型，是真·智能的那种...... 这不，谷歌团队就做出来了一个强大的「读屏」AI。研究人员...

生成式AI 2024-03-05 人工智能

889阅读

给AI Agent完整的一生！港大NYU谢赛宁等最新智能体研究：虚拟即现实

【新智元导读】近日，来自香港大学的Jihan Yang和纽约大学的谢赛宁等人发表了新的成果，将真实世界的地图、街景等各种信息融入Agent所在的虚拟世界，为智能体的未来赋予了无限可能。怎样能构建更强大的AI Agent? 答案是给他们一个完整而真实的世界...

大数据 2024-03-03 人工智能

935阅读

Windows、Office直接上手，大模型智能体操作电脑太6了

当我们谈到 AI 助手的未来，很难不想起《钢铁侠》系列中那个令人炫目的 AI 助手贾维斯。贾维斯不仅是托尼・斯塔克的得力助手，更是他与先进科技的沟通者。如今，大模型的出现颠覆了人类使用工具的方式，我们或许离这样的科幻场景又近了一步。想象一下，如果一个多模...

大数据 2024-02-19 人工智能

1073阅读

AIGC音视频工具分析和未来创新机会思考

编者按：相较于前两年，2023年音视频行业的使用量增长缓慢，整个音视频行业遇到瓶颈。音视频的行业从业者面临着相互竞争、不得不“卷”的状态。我们需要进行怎样的创新，才能从这种“卷”的状态中脱离出来？LiveVideoStack 2023上海站邀请到了P...

人工智能 2024-02-18 人工智能

941阅读

AIGC内容分享(六十五)：AIGC是如何让1688主图焕发新春的 | 更换产品背景

目录前言一、整体方案二、品质主图生产三、品质主图投放四、一些数据和线上case 五、立足当下六、展望未来更换产品背景 Step 01 Step 02 Step 03 Step 04 Step 05 前言本...

人工智能 2024-02-12 人工智能

1097阅读

每周AI新闻（2024年第3周）Meta研发Llama 3 | 苹果Vision Pro预售 | 智谱AI发布GLM-4

我是陌小北，一个正在研究硅基生命的、有趣儿的碳基生命。每周日20:00，准时解读每周AI大事件。大厂动向【1】Meta研发Llama 3，构建开源AGI Meta公司CEO马克·扎克伯格（Mark Zuckerberg）=宣布公司将对两个关键A...

AIGC 2024-02-09 人工智能

968阅读

吉他摇滚、电子音乐都能搞定，Meta开源音频生成新模型MAGNeT，非自回归7倍提速

在文本生成音频（或音乐）这个 AIGC 赛道，Meta 最近又有了新研究成果，而且开源了。前几日，在论文《Masked Audio Generation using a Single Non-Autoregressive Transformer》中，...

人工智能 2024-02-07 人工智能

831阅读

AI破译2000年前「上古卷轴」登Nature头版！21岁计算机天才，谷歌华人工程师共获大奖

2000年前碳化的古卷轴，如今成功被AI破译！背后三人团队还拿下70万美元大奖！ AI在考古领域的重大进步，甚至登上了今天Nature的头版。要说这件事的起源，还得追溯到公元79年一次火山爆发，直接将一座珍藏古老的纸莎草卷轴——Herculaneu...

人工智能 2024-02-06 人工智能

799阅读

机器人和人工智能如何实现供应链的自动化

自动化技术如今正在进入各个行业领域，这在供应链中尤为明显。事实上，正如人们所知，自动化技术的未来进步可能会重塑整个供应链和供应链管理软件。有远见的供应链参与者已经在为新形势做好准备。首席信息官应该带头为他们的组织带来最好的结果，但首先了解供应链中机器...

人工智能 2024-02-05 人工智能

956阅读

【Python爬虫学习】总结了八种学习爬虫的常用技巧

此篇内容小结： 1）基本网页获取 2）爬虫ip被封的6个解决方法 3）爬虫绕过登录 4）Cookies处理 5）应对反爬的小招 6）验证码处理 7）gzip 压缩 8）爬虫中文乱码问题基本网页获取首先向一个 Url 地址发送请求，随后远端...

大数据 2024-02-05 大数据

1030阅读

「我在淘天做技术」2024 年看 AIGC 是如何让 1688 主图焕发新春的

作者：姬无我在这里想向大家介绍 1688 严选和商品品质化之旅。去年，我们推出了 1688 严选，面临的挑战是如何让买家相信我们的商品真的经过了严格的筛选。为了解决这个问题，我们定义了“严选”标准，并运用 AIGC 技术规模化生产和投...

生成式AI 2024-02-04 人工智能

1181阅读

【AIGC-图片生成视频系列-3】AI视频随心而动：MotionCtrl的相机运动控制和物体运动控制

目录一. 项目简介二. 主要贡献三. 摘要四. 实现方法和管线五. 基于 LVDM [1] / VideoCrafter1 [2]的结果 (A 相机运动控制 (B 物体运动控制 (C 相机+物体运动控制 (D 与Vide...

AIGC 2024-02-04 人工智能

942阅读

关于AIGC的学习问题，你想要知道的都在这里

AIGC前沿｜今日推荐 - 关于AIGC学习的16个问题 - 转眼间，2024年第一个月已经快过去了。去年，随着AI的爆发，各行各业纷纷“AI+”。AI绘画也在不断地发展与进步。最近也参加了许多关于AI绘画的讲座/分享会，顺便将一些学习/咨询AI绘...

生成式AI 2024-02-03 人工智能

1033阅读

GPT-4V只能排第二！华科大等发布多模态大模型新基准：五大任务14个模型全面测评

近期，多模态大模型（LMMs）在视觉语言任务方面展示了令人印象深刻的能力。然而，由于多模态大模型的回答具有开放性，如何准确评估多模态大模型各个方面的性能成为一个迫切需要解决的问题。目前，一些方法采用GPT对答案进行评分，但存在着不准确和主观性的问题。另...

大数据 2024-02-02 人工智能

977阅读

华科大发布多模态大模型新基准覆盖五大任务

近期，华中科技大学等机构发布了一项关于多模态大模型（LMMs）的全面评估新基准，旨在解决多模态大模型性能评估的问题。这项研究涉及了14个主流多模态大模型，包括谷歌Gemini、OpenAI GPT-4V等，覆盖了五大任务、27个数据集。然而，由于多模态大模...

生成式AI 2024-02-02 人工智能

991阅读

赶超Gemini Pro，提升推理、OCR能力的LLaVA-1.6太强了

去年 4 月，威斯康星大学麦迪逊分校、微软研究院和哥伦比亚大学研究者共同发布了 LLaVA（Large Language and Vision Assistant）。尽管 LLaVA 是用一个小的多模态指令数据集训练的，却在一些样本上展示了与 GPT-4...

大数据 2024-02-01 人工智能

888阅读

百度交了份“大”作业：文心一言用户破1亿，累计37亿字文本创作，能力再升32%！...

金磊发自凹非寺量子位 | 公众号 QbitAI 今年国产大模型的最后一声枪响，属于百度：发布仅2个月，文心大模型4.0，能力又提升了32%。文心一言用户规模超过1个亿！这便是在深度学习“春晚”——WAV...

生成式AI 2024-01-31 人工智能

940阅读

讯飞推出“智慧黑板”：从板书工具跃迁为教师AI助手

快科技1月30日消息，今天下午讯飞星火大模型3.5正式发布。会上，科大讯飞推出了星火智慧黑板”，号称让黑板从板书工具跃迁为教师AI助手。据了解，星火智慧黑板具备四大特色： 1、多模态理解与推荐，让知识的讲解更直观、更生动 2、全自然交互，让老师授课更便...

人工智能 2024-01-30 人工智能

804阅读

年轻人的第一个多模态大模型：1080Ti轻松运行，已开源在线可玩

一款名为Vary-toy的“年轻人的第一个多模态大模型”来了！模型大小不到2B，消费级显卡可训练，GTX1080ti 8G的老显卡轻松运行。想将一份文档图片转换成Markdown格式？以往需要文本识别、布局检测和排序、公式表格处理、文本清洗等多个步骤...

生成式AI 2024-01-29 人工智能

894阅读

更适合中文LMM体质的基准CMMMU来了：超过30个细分学科，12K专家级题目

近期，随着多模态大模型（LMM）的能力不断进步，评估 LMM 性能的需求也日益增长。与此同时，在中文环境下评估 LMM 的高级知识和推理能力的重要性更加突出。在这一背景下，M-A-P 开源社区、港科大、滑铁卢大学、零一万物等联合推出了面向中文大规模多...

AIGC 2024-01-29 人工智能

880阅读

中文性能反超VLM顶流GPT-4V，阿里Qwen-VL超大杯限免！看图秒写编程视觉难题一眼辨出

【新智元导读】多模态大模型将是AI下一个爆点。最近，通义千问VLM模型换新升级，超大杯性能堪比GPT-4V。最最重要的是，还能限时免费用。最近，通义千问实火。前段时间被网友玩疯的全民舞王，让「AI科目三」频频登上热搜。让甄嬛、慈禧、马斯克、猫主子和兵...

生成式AI 2024-01-26 人工智能

1066阅读

Windows Copilot 功能介绍和使用教程

目录 Windows Copilot 最新更新 Windows Copilot 功能介绍 Windows Copilot 使用教程使用 Windows Copilot Windows Copilot 最新更新 Windows Co...

AIGC 2024-01-24 人工智能

1301阅读

Pika、Gen-2、ModelScope、SEINE……AI视频生成哪家强？这个框架一测便知

AI 视频生成，是最近最热门的领域之一。各个高校实验室、互联网巨头 AI Lab、创业公司纷纷加入了 AI 视频生成的赛道。Pika、Gen-2、Show-1、VideoCrafter、ModelScope、SEINE、LaVie、VideoLDM 等视...

人工智能 2024-01-22 人工智能

995阅读

【AI接口】语音版、文心一言大模型和AI绘图、图片检测API

文章目录一、语音版大模型AI 1、接口 2、请求参数 3、请求参数示例 4、接口返回示例二、AI图片鉴黄合规检测API 1、接口 2、请求参数 3、请求参数示例 4、接口返回示例 5、报错说明 6、代码开源三、人工智能AI绘画AP...

大数据 2024-01-20 人工智能

1067阅读