-
【AI绘画】零基础入门ComfyUI(二)快手可图Kolors大模型
大家好,我是写编程的木木。 7月6日,快手在世界人工智能大会(WAIC)上宣布,快手旗下的文生图大模型可图(Kolors)将全面开源。可图(Kolors)支持中英文双语,生成效果比肩 Midjourney-v6水平,支持长达256字符的文本输入,具备英文...
-
对标GPT 4o!科大讯飞星火极速超拟人交互来了:情绪价值拉满
快科技8月19日消息,据科大讯飞”官微发文,全新的星火极速超拟人交互正式发布,计划8月30日上线讯飞星火APP,全民开放体验。 据介绍,星火极速超拟人交互在响应和打断速度、情绪感知情感共鸣、语音可控表达、人设扮演四个方面实现突破,对标GPT 4o。 此次星...
-
百度文心一言插件商城正式上线!一键安装搞定PPT生成、音视频提取
快科技12月14日消息,日前,百度官方宣布,百度文心一言插件商城正式上线,插件覆盖办公提效、多模态内容理解生成、专业信息查询等实用场景。 用户一键安装插件后,只需通过简单指令,即可实现PPT生成、音视频提取、思维导图制作等多场景多模态下的需求。...
-
【持续更新中!图像-文本对数据集汇总】Stable Diffusion 3 重磅开源,超全图像生成必备训练数据集、教程汇总
Stability AI 已经正式开源 Stable Diffusion 3(简称 SD3)!SD3 是一个图像生成模型,只要给定一段描述性的文字,就能够创造出与之匹配的视觉作品。下图就是由 SD3 生成的图像。 * prompt 史诗...
-
AIGC中多模态Embedding技术的前沿进展与代码实战
AIGC中多模态Embedding技术的前沿进展与代码实战 作者:禅与计算机程序设计艺术 1. 背景介绍 1.1 AIGC的兴起与多模态技术的必要性 近年来,人工智能生成内容(AIGC)技术的飞速发展,掀起了一场内容生产方式的革命。从文本生成、图像...
-
使用文心一言进行图像内容理解
接上篇文章,这期使用文心一言图像识别API,对本地图片以及在线视频图片进行内容理解。 该请求用于图像内容理解,支持输入图片和提问信息,可对输入图片进行理解,输出对图片的一句话描述,同时可针对图片内的主体/文字等进行检测与识别,支持返回图片内多主体/文字的...
-
中山大学“梗王”大模型CLoT 靠讲笑话入选顶会CVPR
中山大学HCP实验室联合Sea AI Lab和哈佛大学等单位开展的一项研究,成功地让大型人工智能模型通过讲笑话的方式,探索多模态大模型的创造力,并因此获得了计算机视觉和模式识别领域的顶级会议CVPR的认可。 这项研究的关键在于使用来自日本的“大喜利”(Oo...
-
Elmo官网体验入口 AI网络副驾驶Chrome插件免费下载地址
Elmo是一款AI网络副驾驶工具,可作为Chrome扩展程序使用。它能立即将网页内容压缩成简洁的摘要,提供特定问题的答案,从网页中搜集相关信息,并与PDF和YouTube视频互动,以提高用户的生产力和理解能力。 点击前往Elmo官网体验入口 谁可以从El...
-
阿里、百度双双出手,大模型长文本时代终于到来?
AGI时代,越来越近了。 全民Long-LLM时代终于到来。 本月,中国初创AGI(通用人工智能)公司月之暗面宣布旗下大模型工具Kimi Chat正式升级到200万字参数量,与五个月前该大模型初次亮相时的20万字相比,提升十倍。Kimi Chat的升级彻底...
-
AIGC时代下阿里云视频云媒体内容生产技术实践
编者按 AIGC时代下,媒体内容生产领域随着AI的出现也涌现出更多的变化与挑战。面对AI的巨大冲击,如何优化或重构媒体内容生产技术架构?在多样的应用场景中媒体内容生产技术又有着怎样的实践效果?LiveVideoStackCon2023...
-
阿里大模型产品 “通义听悟”升级 上线音视频问答助手“小悟”
阿里大模型产品 “通义听悟” 在今日发布了多项新功能。其中,音视频问答助手 “小悟” 是重点新功能之一。用户可以通过 “小悟” 进行自由问答,支持对单个最长6小时、一次性上百条音视频的内容理解问答。 除了音视频问答功能外,通义听悟还提供了一键 AI 改写和...
-
iniucloud采集插件的应用解析
在当前的数据驱动时代,企业和个人对信息的需求越发精细与个性化。“niocloud采集插件”便是在这种背景下诞生的、为用户提供全方位数据抓取服务的重要工具。它不只解放了大量重复劳作的劳动力,同时为用户解决了在众多散乱网页和程序中定位和抓取信息时所遇的问题,特...
-
一键点、万物动! 腾讯混元联合清华、港科大推出图生视频大模型“Follow Your Click”
编辑 | 言征 出品 | 51CTO技术栈(微信号:blog51cto) 3月15日,腾讯混元和清华大学、香港科技大学联合推出全新图生视频模型“Follow-Your-Click“,基于输入模型的图片,只需点击对应区域,加上少量提示词,就可以让图片中原...
-
零一万物发布API开放平台
3月14日,零一万物正式发布 Yi 大模型 API 开放平台,为开发者提供通用 Chat、200k 超长上下文、多模态交互等模型。 同时,零一万物表示,近期零一万物将为开发者提供更多更强模型和 AI 开发框架。主要亮点包括: 推出一系列的模型 API,...
-
AIGC下一步:如何用AI再度重构或优化媒体处理?
让媒资中“沉默的大多数”再次焕发光彩。 邹娟|演讲者 编者按 AIGC时代下,媒体内容生产领域随着AI的出现也涌现出更多的变化与挑战。面对AI的巨大冲击,如何优化或重构媒体内容生产技术架构?在多样的应用场景中媒体内容生产技术又有着怎样的实践效...
-
零一万物发布 Yi 大模型 API 并启动公测:支持上下文 200K
零一万物发布了 Yi 大模型 API,并启动了公测。这次邀测提供了两种模型:Yi-34B-Chat(0205)和 Yi-34B-Chat-200K。 其中,Yi-34B-Chat-200K 支持处理超长上下文,达到了200K 的上下文支持,可以处理约20~...
-
《杭州新闻联播》首推全AI主持播报:表情生动、肢体自然
快科技2月12日消息,据杭州电视台官方公众号杭州综合频道”介绍,《杭州新闻联播》甲辰龙年上新两位新主播小雨、小宇。 这两位主播已经在年初一和年初二的节目中登场,TA们是杭州文广集团短视频AI生产实验车间开发生产的AI数字主播,以两位真人主播雨辰、麒宇为蓝本...
-
通过日月摘星全面使用Midjourney
在这个信息爆炸的时代,我们每天都被无数的图文信息包围。如何在这海量的信息中脱颖而出,成为了每个品牌和个人的挑战。今天,我要为大家介绍的,是通过“日月摘星”快速便捷的使用Midjourney,让您的战斗力可以至少翻一倍! Midjourney是一款强大的图...
-
LLaMA模型指令微调 字节跳动多模态视频大模型 Valley 论文详解
Valley: Video Assistant with Large Language model Enhanced abilitY 大家好,我是卷了又没卷,薛定谔的卷的AI算法工程师「陈城南」~ 担任某大厂的算法工程师,带来最新的前沿AI知识和工具...
-
2024年好用的AI写作软件推荐,5款AI写作工具让你事半功倍!
近期,人工智能技术的飞速发展引起了社会各界的广泛关注,尤其是以ChatGPT为代表的生成式AI写作工具,更是成为了焦点。在众多AI写作工具中,有哪些是真正可靠的呢?为了帮助大家有效地利用AI写作工具提升工作效率,我在亲身体验了市场上大多数AI写作产品后,精...
-
大模型技术实践(三)|用LangChain和Llama 2打造心灵疗愈机器人
上期文章我们实现了Llama 2-chat-7B模型的云端部署和推理,本期文章我们将用“LangChain+Llama 2”的架构打造一个定制化的心灵疗愈机器人。有相关知识背景的读者可以直接阅读「实战」部分。 01 背景...
-
AIGC文生图及工具产品简介
AIGC,全称是人工智能生成内容(Artificial Intelligence Generated Content)是继UGC(用户生成内容),PGC(平台生成内容)后,利用人工智能技术,自动生成内容的生产方式; 目前主要利用&集成自然语言处理、...
-
扩散模型图像理解力刷新SOTA!字节复旦团队提出全新「元提示」策略
Text-to-image(T2I)扩散模型在生成高清晰度图像方面显示出了卓越的能力,这一成就得益于其在大规模图像-文本对上的预训练。 这引发了一个自然的问题:扩散模型是否可以用于解决视觉感知任务? 近期,来自字节跳动和复旦大学的技术团队提出了一种简单...
-
Stable Diffusion五问
一,什么是Stable diffusion? Stable Diffusion" 是一种基于扩散模型的深度学习框架,用于生成高质量的图像。它是一种生成模型,通过模拟物理扩散过程,从随机噪声中逐步生成详细和结构化的图像。Stable Diffusion因其...
-
国内多所高校共建开源社区LAMM,加入多模态语言模型大家庭的时候到了
ChatGPT问世以来,大语言模型(LLM)实现了跳跃式发展,基于自然语言进行人机交互的AI范式得到广泛运用。然而,人类与世界的交互中不仅有文本,其他诸如图片、深度等模态也同样重要。然而,目前的多模态大语言模型(MLLM)研究大多数闭源,对高校和大多数研...
-
AI解读视频张口就来?这种「幻觉」难题Vista-LLaMA给解决了
近年来,大型语言模型如 GPT、GLM 和 LLaMA 等在自然语言处理领域取得了显著进展,基于深度学习技术能够理解和生成复杂的文本内容。然而,将这些能力扩展到视频内容理解领域则是一个全新的挑战 —— 视频不仅包含丰富多变的视觉信息,还涉及时间序列的动态...
-
数据中心:云和人工智能采用的关键推动者
由于数据中心空置率处于前所未有的低点,2023年新建设项目的大幅增长正处于一个关键时刻数据中心的容量和空间定价都很昂贵,我们认为,随着云服务的采用和基于生成人工智能的产品和服务继续获得吸引力,需求只会增加。在我们看来,这些动态可以增加整个数据中心生态系...
-
百度文心一言插件商城正式上线 支持自主设计插件
百度文心一言插件商城正式上线,插件覆盖了办公提效、多模态内容理解生成、专业信息查询等多个实用场景,用户可以通过简单的指令实现 PPT 生成、音视频提取、思维导图制作等需求。 插件商城的上线带来了许多超实用的插件,例如项目管理看板可以帮助用户生成多种项目任...
-
【Video-LLaMA】增强LLM对视频内容的理解
Paper:《Video-LLaMA : An Instruction-tuned Audio-Visual Language Model for Video Understanding》 Authors: Hang Zhang, Xin Li, Lid...
-
AI重塑媒体行业,凤凰卫视重磅入场AI数据赛道
媒体人在2023年或多或少都有点“失业”焦虑——媒体人被认为是最可能被ChatGPT取代的高危职业之一。 面对人工智能的冲击,部分媒体选择以防御之态应对,保护自己的内容不受大语言模型的“侵略”。根据《卫报》的报道,CNN、纽约时报和路透社等多个媒体巨头在...
-
大数据采集与预处理技术
文章目录 第1章 大数据概念 1.1大数据的概念 1.2大数据的关键技术 1.3大数据采集与数据预处理技术 1.3.1大数据采集技术 1.3.2数据预处理技术 第二章 数据采集基础 2.1 传统数据采集技术 2.2大数据采集基础 第...
-
全新视觉提示方法SoM 让GPT-4V看的更准、分的更细
研究人员推出了一种新的视觉提示方法 Set-of-Mark(SoM),它可以让 OpenAI 多模态大模型 GPT-4V 在视觉内容理解方面有了质的提升。GPT-4V 是一种基于 GPT-4的多模态模型,可以同时处理文本和图像,并生成多种类型的输出。 然而...
-
AI视野:WPS AI宣布接入WPS Mac版;爱奇艺推出AI搜索;苹果计划明年推出生成式AI功能;DALL-E3易受越狱攻击
???AI应用 爱奇艺推出AI搜索 将生成式AI技术应用于剧情搜索等场景 爱奇艺升级AI搜索,区别于传统搜索第一步只能搜到片名,升级后的爱奇艺AI搜索主打让观众在搜索环节便能一键直达心仪内容。 WPS AI 宣布接入 WPS Mac 版 提供内容生成等功...