-
买个机器人端茶倒水有希望了?Meta、纽约大学造了一个OK-Robot
「xx,去把电视柜上的遥控器帮我拿过来。」在一个家庭环境中,很多家庭成员都不免被支使干这种活儿。甚至有时候,宠物狗也难以幸免。但人总有支使不动的时候,宠物狗也并不一定都能听懂。帮人类干活儿的终极梦想还是寄托在机器人身上。 最近,纽约大学、Meta 研发出...
-
AI视野:谷歌发布视频生成模型Lumiere; AI女友陪聊月入20+万元;谷歌浏览器新增生成式AI;《幻兽帕鲁》疑似用AI卷设计
欢迎来到【AI视野】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。 新鲜AI产品点击了解:https://top.aibase.com/ ???AI应用 谷歌发布视频生成模...
-
GitHub 数据库 15 年进化史:幕后英雄如何成就 Copilot 传奇
自 2008 年成立以来,GitHub 的数据库系统经历了多次重大的演变,以适应不断增长的用户基础和不断变化的技术需求。GitHub 一直使用 MySQL 数据库,其中保存了除了 git 代码仓库以外的其他所有元数据,诸如用户,issue,PR, Gist...
-
首个通用双向Adapter多模态目标追踪方法BAT,入选AAAI 2024
目标跟踪是计算机视觉的一项基础视觉任务,由于计算机视觉的快速发展,单模态 (RGB 目标跟踪近年来取得了重大进展。考虑到单一成像传感器的局限性,我们需要引入多模态图像 (RGB、红外等 来弥补这一缺陷,以实现复杂环境下全天候目标跟踪。 然而,现有的多...
-
画个框、输入文字,面包即刻出现:AI开始在3D场景「无中生有」了
现在,通过文本提示和一个2D 边界框,我们就能在3D 场景中生成对象。 看到下面这张图了没?一开始,盘子里是没有东西的,但当你在托盘上画个框,然后在文本框中输入文本「在托盘上添加意大利面包」,魔法就出现了:一个看起来美味可口的面包就出现在你的眼前。 房间...
-
使用SPIN技术对LLM进行自我博弈微调训练
2024年是大型语言模型(llm 的快速发展的一年,对于大语言模型的训练一个重要的方法是对齐方法,它包括使用人类样本的监督微调(SFT 和依赖人类偏好的人类反馈强化学习(RLHF 。这些方法在llm中发挥了至关重要的作用,但是对齐方法对人工注释数据有的大...
-
扩散模型更懂复杂提示词!Pika北大斯坦福开源新框架,利用LLM提升理解力
Pika北大斯坦福联手,开源最新文本-图像生成/编辑框架! 无需额外训练,即可让扩散模型拥有更强提示词理解能力。 面对超长、超复杂提示词,准确性更高、细节把控更强,而且生成图片更加自然。 效果超越最强图像生成模型Dall·E 3和SDXL。 比如要求图片...
-
[python]基于faster whisper实时语音识别语音转文本
语音识别转文本相信很多人都用过,不管是手机自带,还是腾讯视频都附带有此功能,今天简单说下: faster whisper地址: https://github.com/SYSTRAN/faster-whisperhttps://link.zhihu.co...
-
AI对比:ChatGPT和文心一言的区别和差异
目录 一、ChatGPT和文心一言大模型的对比分析 1.1 二者训练的数据情况分析 1.2 训练大模型数据规模和参数对比 1.3 二者3.5版本大模型对比总结 二、ChatGPT和文心一言功能对比分析 2.1 二者产品提供的功能情况分析...
-
idea配置GitHub Copilot经验
Github Copilot ai插件的idea配置 GitHub Copilot基于 GitHub 及其他网站的源代码,可根据上文提示为程序员自动编写下文代码。 事先说明, Github Copliot 这个插件已经开始收费,但是有一个30天的试用...
-
万字总结 | 2023大模型与自动驾驶论文走马观花
本文经自动驾驶之心公众号授权转载,转载请联系出处。 2023年已经匆匆过去大半,不知各位自动驾驶小伙伴今年的工作生活情况是否顺利呢?高阶ADAS方案量产了吗?新的文章和实验进展又是否顺利呢?今天给大家总结了2023年前后的一些自动驾驶结合大模型的开创性...
-
提高Stable Diffusion十倍计算速度以及解决内存崩溃问题
在启动Stable Diffusion时一直报Torch not compiled with CUDA enabled警告,一开始没在意本着能用就行的态度凑活用,每个图都耗时十多秒,然后本着好奇Torch not compiled with CUDA en...
-
1分钟复刻明星语音,这家AI创企开年跻身独角兽
2024年第一个月,又一AI初创公司跻身独角兽: 专注于AI语音合成的ElevenLabs,刚刚完成8000万美元(约合人民币5.7亿元)B轮融资,估值超过10亿美元。 在语音克隆领域,ElevenLabs(11Labs)是公认的最强工具之一。 因霉霉说中...
-
stable diffusion模型评价框架
GhostReview:全球第一套AI绘画ckpt评测框架代码 - 知乎大家好,我是_GhostInShell_,是全球AI绘画模型网站Civitai的All Time Highest Rated (全球历史最高评价 第二名的GhostMix的作者。在上...
-
copilot插件全解
COPILOT是一个基于AI的编程辅助工具,它可以帮助程序员自动编写代码,提高开发效率。COPILOT的插件主要是为了将其功能集成到不同的编程环境中,方便程序员使用。 目前,COPILOT支持多种编程环境,包括Visual Studio Code、Vis...
-
AI绘画 stable diffusion Midjourney 官方GPT文档 AIGC百科全书资料收集
教学AI绘画 AIGC工具 SD教程 推荐阅读 AI文本 OCR识别最佳实践 AI Gamma一键生成PPT工具直达链接 玩转cloud Studio 在线编码神器 玩转 GPU AI绘画、AI讲话、翻译,GPU点亮AI想象空间...
-
Stable Diffusion 黑白老照片上色修复
在这个时代,我们习惯于拥有高清、色彩丰富的照片,然而,那些古老的黑白色老照片由于年代的久远,往往会出现模糊、破损等现象。 那么今天要给大家介绍的是,用 Stable Diffusion 来修复老照片。 ...
-
Stable Diffusion 云端部署详细教程 (持续更新)
阿里云篇: 一、开通服务 函数计算 FC 点击直接传送 nas 文件存储 点击直接传送 二、创建函数计算应 第七步:角色授权填写如下配置 创建应用部署 等待完成部署(大约5-15分钟)...
-
AI作画的背后是怎么一步步实现的?一文详解AI作画算法原理+性能评测
前言 “AI作画依赖于多模态预训练,实际上各类作画AI模型早已存在,之所以近期作品质量提升很多,可能是因为以前预训练没有受到重视,还达不到媲美人类的程度,但随着数据量、训练量的增多,最终达到了现在呈现的效果。”远在AI作画还没有爆火之前,深度学习就已经...
-
Chinese-llama-2部署踩坑记录
Chinese-llama-2部署踩坑记录 1. Chinese-LLaMA-Alpaca-2 A. 部署 a. inference_with_transformers_zh b. text generation webui_zh c. a...
-
AIGC介绍篇
AIGC介绍篇 AIGC 最近横空出世,对社会产生了多冲击。AIGC 发展到现在,其实也就是最近几个月被 ChatGPT (22年11月推出的)带火的,ChatGPT 你可以理解为是所有 AIGC 的一个大脑,其他各种各样的 model 都是四肢,由 C...
-
Github Copilot最全的安装与使用教程:一款非常好用的AI编程工具
Github Copilot最全的安装与使用教程 第一章 安装 1.安装 GitHub Copilot 2.获取资格 第二章 使用 1.产生建议 1.1 键入你想要完成的操作的注释 1.2 Ctrl+I 2. 接受建议 3.查看下一个建议...
-
提示词(prompt)工程指南(五):ChatGPT 提示工程
在本节中,我们介绍ChatGPT的最新提示工程技术,包括提示、应用、限制、论文和其他阅读资料。 完整的中文版本指南和更丰富的参考资料在 Github 和 Gitee 中,自动持续翻译更新: ? 关于提示词工程(prompt)的指南、论文、讲座、笔记...
-
[论文精读] 自条件图像生成 - 【恺明大神新作,AIGC 新基准】
论文导读: 论文背景: 2023年8月,AI大神何恺明在个人网站宣布,2024年将加入MIT担任教职,回归学术界。这篇论文是其官宣加盟MIT后首度与MIT师生合著的公开论文,论文一作本科毕业于清华姚班,二作为MIT电气工程与计算机科学系教授,今年的斯...
-
基于LLaMA-Factory用deepspeed多GPU训练大模型报错Caught signal 7 (Bus error: nonexistent physical address)
基于LLaMA-Factory,用4个V100的GPU,如下命令训练ChatGLM3: deepspeed --num_gpus 4 --master_port=9901 src/train_bash.py \ --deepspeed ds_co...
-
无需训练实现价值观实时动态对齐:上交开源价值观对齐方法OPO,闭源与开源大模型均适用
随着人工智能技术的发展,以 GPT-4 为代表的大语言模型依靠其强大的能力正在对社会产生深远的影响。与此同时,大模型本身的安全性问题也变得尤为重要。如何确保大语言模型可以和人类的价值、真实的意图相一致,防止模型被滥用、输出有害的信息,这是大模型安全治理的...
-
Stable diffusion中mov2mov
场景: 这段时间成迷于AI绘画,目前已经学会了视频转成二次元风格。这里利用了秋葉aaaki大佬的Stable diffusion WebUI,和mov2mov插件,在controlnet 插件中利用了openpose来约束每张图的动作和手部,减少出现多...
-
LLM会写代码≠推理+规划!AAAI主席揭秘:代码数据质量太高|LeCun力赞
自从ChatGPT发布后,各种基于大模型的产品也快速融入了普通人的生活中,但即便非AI从业者在使用过几次后也可以发现,大模型经常会胡编乱造,生成错误的事实。 不过对于程序员来说,把GPT-4等大模型当作「代码辅助生成工具」来用的效果明显要比「事实检索工具...
-
从0到1,入门到进阶玩转AI——Stable Diffusion超详细教程(一)
前沿 目前市面上的AI主要集中在两方面,一方面是AI 作图(代表产品:Midjourney和Stable-Diffusion),一方面是AI应答(代表产品:ChatGPT),本文主要针对AI作图进行探索。 由于Midjo...
-
迈向端到端自动驾驶,地平线正式开源Sparse4D算法
1月22日,地平线将纯视觉自动驾驶算法——Sparse4D系列算法开源,推动行业更多开发者共同参与到端到端自动驾驶、稀疏感知等前沿技术方向的探索中。目前,Sparse4D算法已在GitHub平台上线,开发者可关注地平线GitHub官方账号“Horizon...
-
傅盛发布猎户星空大模型Orion-14B 拥有140亿参数规模
1月21日,猎户星空在傅盛2024开年 AI 大课暨猎户星空大模型发布会上发布了猎户星空大模型(Orion-14B)。这是一款由猎户星空研发的预训练多语言大语言模型,拥有140亿参数规模,覆盖了常见语言和专业术语,并在多个第三方测试集上取得了同级别模型的最...
-
纪念碑谷式错觉图像都被「看穿」,港大、TikTok的Depth Anything火了
人类有两只眼睛来估计视觉环境的深度信息,但机器人和 VR 头社等设备却往往没有这样的「配置」,往往只能靠单个摄像头或单张图像来估计深度。这个任务也被称为单目深度估计(MDE)。 近日,一种可有效利用大规模无标注图像的新 MDE 模型 Depth Any...
-
OpenAI 竞争对手 Cohere 正在洽谈融资 10 亿美元
据英国《金融时报》报道,OpenAI 的竞争对手 Cohere 正在洽谈筹集最多10亿美元的资金。 随着人工智能竞赛的升温,这将是这家加拿大初创公司有史以来获得的最大一笔资金。Cohere 迄今为止已完成四次融资,最后一次融资是在2023年6月,这家初创公...
-
扩散模型实战(十):Stable Diffusion文本条件生成图像大模型
推荐阅读列表: 扩散模型实战(一):基本原理介绍 扩散模型实战(二):扩散模型的发展 扩散模型实战(三):扩散模型的应用 扩散模型实战(四):从零构建扩散模型 扩散模型实战(五):采样过程 扩散模型实战(六):Diffusers DDPM初探...
-
一个开源的大型语言模型LLaMA论文简单解读,LLaMA: Open and Efficient Foundation Language Models
一个开源的大型语言模型LLaMA论文解读,LLaMA: Open and Efficient Foundation Language Models 返回论文和资料目录 1.导读 LLaMA 是 Meta AI 发布的包含 7...
-
AIGC神器CLIP:技术详解及应用示例
编者按:上一期,我们介绍了Diffusion模型的发展历程、核心原理及其对AIGC发展的推动作用。本期,我们将共同走进另一项AI重要突破——CLIP,著名的DALLE和Stable Diffusion均采用了CLIP哦。 Nikos Kafrit...
-
2024年数据中心发展趋势:更热、更密、更智能
如今的数据中心行业与十年之前颇有不同,这主要是受过去几年间诸多现实因素的影响:AI技术的大规模扩散、摩尔定律有所放缓,以及令人头痛的可持续性问题等。 Uptime Institute预计,随着运营商对于供电、冷却、管理、高密度与监管压力等问题的关注和规划...
-
copilot该服务在您所在的地区不可用,咋办?教你4个方法
微软Copilot是一款由GitHub和OpenAI合作开发的智能编程助手,它利用先进的人工智能技术,能够根据上下文和代码库中的信息,为程序员提供实时的代码建议和自动补全功能。这个程序可以帮助程序员提高编码效率,减少重复性的工作,同时也有助于降低错误率和提...
-
大模型 Dalle2 学习三部曲(一)Latent Diffusion Models学习
引言 Diffusion model大获成功,但是它的短板也很明显,需要大量的计算资源,并且推理速度比较慢。如何才能提升Diffusion model的计算效率。业界有各种各样的改进,无疑Latent Diffusion Models(潜在扩散模...
-
数据分析进阶,Databricks集成GitHub Copilot实用指南
在Databricks中集成AI驱动的数据分析代码编写工具GitHub Copilot,可以优化和简化开发过程。 微信搜索关注《Python学研大本营》,加入读者群,分享更多精彩 一、简介 GitHub Copilot是由GitHub...
-
M1本地部署Stable Diffusion
下载安装 参考博客: 在Mac上部署Stable Diffusion(超详细,AI 绘画入门保姆级教程) 安装需要的依赖库 brew install cmake protobuf rust python@3.10 git wget 可能中途会存在下...
-
爆肝整理全网最全最新AI生成算法【Stable Diffusion|Diffusion Model|DallE2|CLIP|VAE|VQGAN】原理解析
1、生成模型 首先回顾一下生成模型要解决的问题: 如上图所示,给定两组数据z和x,其中z服从已知的简单先验分布π(z (通常是高斯分布),x服从复杂的分布p(x (即训练数据代表的分布),现在我们想要找到一个变换函数f,它能建立一种z到x的映射f:z...
-
人工智能实战:Stable Diffusion技术分享
背景 Stable Diffusion是计算机图形学和可视化领域中的一项重要技术。在这篇分 享中 ,我们将深入探讨稳定扩散的原理、关键要素和实施步骤 ,通过了解Stable Diffusion的流程化 ,我们可以提升自身的设计能力和创造力 ,为公司 和个...
-
GitHub Copilot X:AI 协助编程的软件开发新时代来了!
生成式人工智能代表了软件开发的未来。GitHub 与 OpenAI 合作创建了 GitHub Copilot,这是世界上第一个使用 OpenAI Codex 模型开发的大规模生成式人工智能开发工具。 作为一款 AI 辅助编程工具,GitHub Copil...
-
[AI绘图教程]stable-diffusion webui加载模型与插件. 实战AI绘画
之前讲了stable diffusion webui搭建,这里主要介绍使用方法以及模型,扩展等. 模型下载 主要下载网址 HuggingFace:Stable Diffusion、ControlNet的官方仓库。 Civitai:里面多是Lo...
-
清华、小米、华为、 vivo、理想等多机构联合综述,首提个人LLM智能体、划分5级智能水平
嘿 Siri、你好小娜、小爱同学、小艺小艺、OK Google、小布小布…… 想必这些唤醒词中至少有一个曾被你的嘴发出并成功呼唤出了一个能给你导航、讲笑话、添加日程、设置闹钟、拨打电话的智能个人助理(IPA)。可以说 IPA 已经成了现代智能手机不可或缺...
-
ChatGPT无法胜任的五种编程任务
作者丨Nate Rosidi 译者 | 布加迪 审校 | 重楼 出品 | 51CTO技术栈(微信号:blog51cto) 我喜欢把ChatGPT看作是StackOverflow的智能版,它大有帮助,但短期内不会取代专业人士。作为一名前数据科学家,Cha...
-
Stable Doodle:Stability AI推出的一款零门槛AI绘画神器
Stable Doodle是由Stability AI推出的一款零门槛AI绘画神器,可以将简单的草图转化为精美的图像。它可以将随手的塗鴉草稿转化为高畫質的完成圖,让用户能够以更快的速度将想法转化为精美的艺术作品。Stable Doodle利用最新的Stab...
-
视觉Mamba模型的Swin时刻,中国科学院、华为等推出VMamba
Transformer 在大模型领域的地位可谓是难以撼动。不过,这个AI 大模型的主流架构在模型规模的扩展和需要处理的序列变长后,局限性也愈发凸显了。Mamba的出现,正在强力改变着这一切。它优秀的性能立刻引爆了AI圈。 上周四, Vision Mamb...
-
2024年,开源AI潜力更大?
开源(OS)正在驱动生成式 AI 的创新。得益于像 GitHub 和 Hugging Face 等学术研究平台,我们得以见证 AI 技术的蓬勃发展。但值得注意的是,OpenAI、Anthropic 等越来越多的科技公司选择不公开模型的代码和权重。 指责大...