-
揭秘Sora技术路线:核心成员来自伯克利,基础论文曾被CVPR拒稿
最近几天,据说全世界的风投机构开会都在大谈 Sora。自去年初 ChatGPT 引发全科技领域军备竞赛之后,已经没有人愿意在新的 AI 生成视频赛道上落后了。 在这个问题上,人们早有预判,但也始料未及:AI 生成视频,是继文本生成、图像生成以后技术持续发...
-
100万token,一次能分析1小时YouTube视频,「大世界模型」火了
最近几天,我们接连被谷歌的多模态模型 Gemini 1.5 以及 OpenAI 的视频生成模型 Sora 所震撼到,前者可以处理的上下文窗口达百万级别,而后者生成的视频能够理解运动中的物理世界,被很多人称为「世界模型」。然而,这些刷屏无数的模型真的能很好...
-
RNN模型挑战Transformer霸权!1%成本性能比肩Mistral-7B,支持100+种语言全球最多
在大模型内卷的同时,Transformer的地位也接连受到挑战。 近日,RWKV发布了Eagle 7B模型,基于最新的RWKV-v5架构。 Eagle 7B在多语言基准测试中,击败了所有的同级别模型,在单独的英语测试中,也和表现最好的模型基本打平。 同时...
-
Meta发布全新AI自动剪辑视频工具Agents LAVE
Agents LAVE是Meta发布的全新AI自动剪辑视频工具,采用AI技术实现简单短视频和广告视频的自动生成,无需人工干预。工具界面包括输入提示、素材库和视频时间轴,而Agents设计则指导编辑行动计划的执行。 论文地址:https://arxiv.o...
-
从声音到形象,AIGC 赋能的 TT 语音年度盛典有多好玩?
摘要: 23年是 AIGC 暴热的一年,这一年我们既兴奋又彷徨。兴奋之处在于新技术持续突破,业界“百模大战”的白热化,一些创新应用开始崭露头角,例如 ChatGPT 和 DALL·E 3,Midjourney,HeyGen, 星野,Copilot 等。彷...
-
AIGC内容分享(五十五):AIGC周刊
目录 行业资讯 产品推荐 学习资料 拓展阅读 Midjourney生成 the camera focuses on the young woman, her red Hanfu a stark contrast against...
-
【AI绘画】用张图直观理解Stable Diffusion
手把手教你入门绘图超强的AI绘画,用户只需要输入一段图片的文字描述,即可生成精美的绘画。给大家带来了全新保姆级教程资料包 (文末可获取) 作者****|Jay Alammar 翻译|杨婷、徐佳渝 最近,AI图像生成引人注目,它能够根据文字描述生成...
-
只需任意一张人物图片,就可以生成该人物的科目三舞蹈视频 - AIGC 中的 Image-to-Video 技术
这是儿子寒假在家,我和他一起玩阿里通义千问后的一篇笔记。 通义千问有一个全民舞王的功能。选择一个舞蹈模版,然后上传一张人物全身照片,即可生成一段10秒钟左右的视频。 卡通人物的图片也行。 比如我用了弗利萨大王和沙鲁的图片: 点击立即生成按钮,...
-
Stable Diffusion结构解析-以图像生成图像(图生图,img2img)
手把手教你入门绘图超强的AI绘画,用户只需要输入一段图片的文字描述,即可生成精美的绘画。给大家带来了全新保姆级教程资料包 (文末可获取) AIGC专栏3——Stable Diffusion结构解析-以图像生成图像(图生图,img2img)为例 学习...
-
英伟达官宣AI聊天机器人,本地RTX显卡运行,这是要挑战OpenAI?
OpenAI 进军芯片领域,英伟达自己造聊天机器人,这是 Sam vs Jensen 的时代? 下载地址:https://www.nvidia.com/en-us/ai-on-rtx/chat-with-rtx-generative-ai/ 在这波 AI...
-
【AIGC】DreamBooth:微调文本到图像扩散模型用于主题驱动的生成
前言 DreamBooth可以让我们使用一个很小的数据集微调文生图模型,然后基于文本提示词为我们训练的的主体替换不同的场景。 摘要 大型文本转图像模型在人工智能的发展中实现了显著的飞跃,能够从给定的文本提示中高质量和多样化地合成图像。然而,...
-
半年连推7款产品,AI时代字节也能大力出奇迹吗?
在过去一年,字节跳动旗下多个团队接连推出了7款基于 AI 的产品,分布对话、工具、互动剧情等多个类别,字节跳动在 AI 应用赛道再次采多方向试错的策略,积极训练大模型、测试自家模型能力、寻找 AI 应用场景,一次投掷多个靶面。 从体量来看,尽管旗下多个产...
-
GPT-4绝对性能暴涨74.4%!UIUC苹果华人团队提出CodeAct,用Python代码统一LLM智能体行动
一直以来,LLM智能体被众多业界AI大佬看好,甚至有望成为将人类从琐碎工作中解放出来的利器。 但是,它们该如何与世界进行最佳互动? 最近,来自UIUC和苹果的华人研究员,提出了一种全新的智能体框架——CodeAct。 它通过采用可执行的Python代码,来...
-
每日一看大模型新闻(2023.12.13)趣味项目CLoT:训练LLM更幽默地回答问题;用RLHF 2%的算力让LLM停止有害输出,字节提出LLM遗忘学习;2.7B能打Llama 2 70B,微软祭出
1.产品发布 1.1 2.7B能打Llama 2 70B,微软祭出「小语言模型」 发布时间:2023-12-13 2.7B能打Llama 2 70B,微软祭出「小语言模型」!96块A100 14天训出Phi-2,碾压谷歌Gemini na...
-
ChatGPT研究报告:AIGC带来新一轮范式转移
本文约4000字,目标是快速建立AIGC知识体系,含有大量的计算专业名词,建议阅读同时扩展搜索。 一、行业现状 1、概念界定 区别于PGC与UGC不同的,AIGC是利用人工智能技术自动生成内容的新型生产方式。 2、数据模...
-
上海人工智能实验室发布LLaMA-Adapter | 如何1小时训练你的多模态大模型用于下游任务
本文首发于微信公众号 CVHub,未经授权不得以任何形式售卖或私自转载到其它平台,违者必究! Title: LLaMA-Adapter: Efficient Fine-tuning of Language Models with Zero-...
-
AI作画免费api接口
AI作画 提交请求:支持传入文本、分辨率、数量、参考图等参数,创建 AI 作画任务,待图片生成完毕,即可查看生成图片的地址链接。 请求示例 HTTP方法: POST 请求URL: https://aip.baidubce.com/r...
-
Whisper 从0安装教程 windows
这里写自定义目录标题 Whisper 从0安装教程 windows 安装过程 安装python3.11 安装Anaconda 在Anaconda里面安装whisper 安装 ffmpeg 第一次运行whisper 检查GPU 一些弯路...
-
Stable Diffusion结构解析-以图像生成图像!
手把手教你入门绘图超强的AI绘画,用户只需要输入一段图片的文字描述,即可生成精美的绘画。给大家带来了全新保姆级教程资料包 (文末可获取) AIGC专栏3——Stable Diffusion结构解析-以图像生成图像(图生图,img2img)为例 学习...
-
全网最全stable diffusion图生图教程!!!小白必收藏!!!!
手把手教你入门绘图超强的AI绘画程序Stable Diffusion,用户只需要输入一段图片的文字描述,即可生成精美的绘画。给大家带来了全新Stable Diffusion保姆级教程资料包(文末可获取) 图生图功能初识 1.1 传统意义上的喂参考图...
-
中文LLaMa和Alpaca大语言模型开源方案 | 扩充中文词表 & 针对中文语料进行高效编码
欢迎关注『CVHub』官方微信公众号! Title: Efficient and Effective Text Encoding for Chinese Llama and AlpacaPDF: https://arxiv.org/pdf/23...
-
使用 Amazon SageMaker 和 Amazon CodeWhisperer,解锁数据见解
关键字: [Amazon Web Services re:Invent 2023, Amazon Kendra, Generative Ai, Amazon Sagemaker, Amazon Kendra, Amazon Bedrock, Vector...
-
零基础看懂免费开源的Stable Diffusion
文章目录 前言 Diffusion模型 推理过程 训练过程 Stable Diffusion模型 参考 前言 前面一篇文章主要讲了扩散模型的理论基础,还没看过上篇的小伙伴可以点击查看:DDPM理论基础。这篇我们主要讲一下一经推...
-
每周AI新闻(2024年第3周)Meta研发Llama 3 | 苹果Vision Pro预售 | 智谱AI发布GLM-4
我是陌小北,一个正在研究硅基生命的、有趣儿的碳基生命。每周日20:00,准时解读每周AI大事件。 大厂动向 【1】Meta研发Llama 3,构建开源AGI Meta公司CEO马克·扎克伯格(Mark Zuckerberg)=宣布公司将对两个关键A...
-
吉他摇滚、电子音乐都能搞定,Meta开源音频生成新模型MAGNeT,非自回归7倍提速
在文本生成音频(或音乐)这个 AIGC 赛道,Meta 最近又有了新研究成果,而且开源了。 前几日,在论文《Masked Audio Generation using a Single Non-Autoregressive Transformer》中,...
-
【AI绘画】Stable Diffusion 本地部署教程!小白必收藏!!
******手把手教你入门绘图超强的AI绘画,用户只需要输入一段图片的文字描述,即可生成精美的绘画。给大家带来了全新保姆级教程资料包 (文末可获取) ** **** 1.前言: 最近看Stable Diffusion开源了,据说比Disco Diff...
-
OccNeRF:完全无需激光雷达数据监督
本文经自动驾驶之心公众号授权转载,转载请联系出处。 写在前面&笔者的个人总结 近年来,3D 占据预测(3D Occupancy Prediction)任务因其独特的优势获得了学界及业界的广泛关注。3D 占据预测通过重建周围环境的 3D 结构为自...
-
三篇论文解决「语义分割的优化和评估」难题!鲁汶/清华/牛津等联合提出全新方法
优化语义分割模型常用的损失有Soft Jaccard损失,Soft Dice损失和Soft Tversky损失,但它们都和软标签不兼容,所以无法支持一些重要的训练技术(例如标签平滑,知识蒸馏,半监督学习,多标注员等)。 另一方面,语义分割常用的评价指标...
-
从0开始用 PyTorch 构建完整的 NeRF
本文经自动驾驶之心公众号授权转载,转载请联系出处。 在解释代码之前,首先对NeRF(神经辐射场)的原理与含义进行简单回顾。而NeRF论文中是这样解释NeRF算法流程的: “我们提出了一个当前最优的方法,应用于复杂场景下合成新视图的任务,具体的实现原理是...
-
LLaVA:GPT-4V(ision) 的开源替代品
LLaVA(大型语言和视觉助理)(链接::https://llava-vl.github.io/)是一个很有前途的开源生成式人工智能模型,它复制了OpenAI GPT-4在图像转换方面的一些功能。用户可以将图像添加到LLaVA聊天对话中,允许讨论这些图像...
-
面向AI工程的五大JavaScript工具
令许多人惊讶的是,一向在Web开发领域中大放异彩的JavaScript在开发使用大语言模型(LLM 的应用程序方面同样大有价值。我们在本文中将介绍面向AI工程的五大工具,并为希望将LLM纳入其项目中的开发人员介绍一些必要的资源。 AI工程市场在2023...
-
【AIGC-图片生成视频系列-6】SSR-Encoder:用于主题驱动生成的通用编码器
目录 一. 贡献概述 二. 方法详解 a 训练阶段 b 推理生成阶段: 三. 综合结果 四. 注意力可视化 五. 选择性主题驱动图像生成 六. 人体图像生成 七. 可推广到视频生成模型 八. 论文 九. 个人思考 稳定扩散(S...
-
香港最大AI诈骗案:Deepfake换脸「英国CFO」,直接骗走公司2亿港币
【新智元导读】香港一家跨国公司员工,被骗子邀请进了用Deepfake做的「高管视频会议」中,下令让他转了2亿港币到不知名中账户,5天之后才发现被骗了。 这几天,古老的AI应用——「AI换脸」多次破圈,屡屡登上热搜。 先是网上充斥的大量泰勒斯威夫特的「AI艳...
-
美国博士小哥打败女友的AI男友!7页论文让LLM降智,训出「负分男友」成功挽回
女友爱上AI了,怎么破? 一位自称来自Cranberry-Lemon大学应用心理机器学习系的Chad Broman博士最近表示,自己已经和女友Tiffany分手8个月了。 虽然很享受单身的自由,但身边没有女友的日子,连玩快艇都少了很多滋味。 他一直想找机...
-
香港最大AI诈骗案!Deepfake换脸「英国CFO」,直接骗走公司2亿港币
这几天,古老的AI应用——「AI换脸」多次破圈,屡屡登上热搜。 先是网上充斥的大量泰勒斯威夫特的「AI艳照」,逼得X(原推特)只能直接屏蔽了所有有关「Tylor Swift」的搜索。 而今天香港警方向社会公布了一起更离谱的诈骗案件: 一家英国跨国企业的中...
-
大模型系列——解读RAG
RAG 是2023年最流行的基于 LLM 的应用系统架构。有许多产品几乎完全建立在 RAG 之上,覆盖了结合网络搜索引擎和 LLM 的问答服务,到成千上万个数据聊天的应用程序。很多人将RAG和Agent 作为大模型应用的两种主流架构,但什么是RAG呢?R...
-
iPhone动嘴10秒P图!UCSB苹果全华人团队发布多模态MGIE,官宣开源人人可玩
几天前,库克在苹果电话会上证实,「今年晚些时候会发布生成式AI」。 ChatGPT掀起全球热潮之后,苹果也在悄悄发力AI,曾曝出的大模型框架Ajax、AppleGPT等AI工具让业界充满了期待。 6月举办的WWDC上,这家曾霸占全球市值第一公司,将会宣布...
-
CMU&ETH实现突破:机器狗点满敏捷值天赋,超高速穿越障碍,速度与安全兼备!
在高速机器人运动领域,实现同时兼顾速度和安全一直是一大挑战。但现在,卡内基梅隆大学(CMU)和苏黎世联邦理工学院(ETH)的研究团队带来了突破性进展。他们开发的新型四足机器人算法,不仅能在复杂环境中高速行进,还能巧妙避开障碍,真正做到了「敏捷而安全」。...
-
Segment Anything论文翻译,SAM模型,SAM论文,SAM论文翻译;一个用于图像分割的新任务、模型和数据集;SA-1B数据集
【论文翻译】- Segment Anything / Model / SAM论文 论文链接: https://arxiv.org/pdf/2304.02643.pdf https://ai.facebook.com/research/publica...
-
流量工程将代码生成的准确率提高一倍:由19%提高至44%
一篇新论文的作者提出了一种“强化”代码生成的方法。 代码生成是人工智能中一项越来越重要的能力。它指训练机器学习模型,基于对所需程序功能的自然语言描述自动生成计算机代码,并有许多潜在的应用,从将软件规格转换成实用代码、自动化后端开发到协助人类程序员,不一...
-
【Microsoft Copilot】手机端发布 ——GPT-4, DALL-E3 免费用
Microsoft Copilot 关于Microsoft Copilot Microsoft Copilot 的特点 1. 可以在手机端使用: 2. 可以免费使用GPT-4。 3. 可以无限制地使用GPT-4。 4. 可以使用DALL-E3...
-
图感知对比学习提升多变量时间序列分类效果
今天给大家介绍一篇AAAI 2024中,由新加坡科技研究局(A*STAR)和新加坡南洋理工大学联合发表的时间序列分类工作,通过图感知对比学习改善多变量时间序列分类,取得了非常显著的效果提升。 图片 论文标题:Graph-Aware Contrasting...
-
NLP国内外大模型汇总列表[文心一言、智谱、百川、星火、通义千问、盘古等等]
国内外大模型汇总列表 中国大模型列表大全,全面收集有明确来源的大模型情况,包括机构、来源信息和分类等,随时更新。 Awesome family related to LLMS includes: https://github.com/wgwang...
-
不分割成token,直接从字节中高效学习,Mamba原来还能这样用
在定义语言模型时,通常会使用一种基本分词方法,把句子分为词(word)、子词(subword)或字符(character)。其中,子词分词法一直是最受欢迎的选择,因为它在训练效率和处理词汇表外单词的能力之间实现了自然的折中。然而,一些研究指出了子词分词法...
-
中文创意写作能力超GPT-4,「最会写」的中文大模型Weaver来了
ChatGPT 等通用大模型支持的功能成百上千,但是对于普通日常用户来说,智能写作一定是最常见的,也是大模型最能真正帮上忙的使用场景之一。尽管大模型经常能写出看起来像模像样的文字,但是大多数情况下内容的创意程度和文风都经不起深究。尤其是在创作领域,大模型...
-
【AI绘画】stable diffusion原理解读,通俗易懂,直接喂到你嘴里!!!
手把手教你入门绘图超强的AI绘画,用户只需要输入一段图片的文字描述,即可生成精美的绘画。给大家带来了全新保姆级教程资料包 (文末可获取) 文章目录 一、前言(可跳过) 二、stable diffusion 1.clip 2...
-
详解“小而优”的大语言模型Zephyr 7B
Zephyr是Hugging Face发布的一系列大语言模型,使用蒸馏监督微调(dSFT 在更庞大的模型上进行训练,显著提高了任务准确性。 2023年是属于大语言模型(LLM 和开源的一年。许多初创公司和企业开放了模型和权重的源代码,以应对ChatGPT...
-
击败OpenAI,权重、数据、代码全开源,能完美复现的嵌入模型Nomic Embed来了
一周前,OpenAI 给广大用户发放福利,在下场修复 GPT-4 变懒的问题后,还顺道上新了 5 个新模型,其中就包括更小且高效的 text-embedding-3-small 嵌入模型。 我们知道,嵌入是表示自然语言或代码等内容中概念的数字序列。嵌入使...
-
陶哲轩看了都直呼内行!谷歌等用LLM自动证明定理拿顶会杰出论文,上下文越全证得越好
Transformer的技能树是越来越厉害了。 来自马萨诸塞大学、谷歌和伊利诺伊大学厄巴纳-香槟分校(UIUC)的研究人员发表了一篇论文,利用大语言模型自动生成定理的完整证明。 论文地址:https://arxiv.org/pdf/2303.04910...
-
【AIGC-图片生成视频系列-3】AI视频随心而动:MotionCtrl的相机运动控制和物体运动控制
目录 一. 项目简介 二. 主要贡献 三. 摘要 四. 实现方法和管线 五. 基于 LVDM [1] / VideoCrafter1 [2]的结果 (A 相机运动控制 (B 物体运动控制 (C 相机+物体运动控制 (D 与Vide...