-
马毅LeCun谢赛宁曝出多模态LLM重大缺陷!开创性研究显著增强视觉理解能力
Sam Altman在各种场合都提到,大语言模型的多模态能力,是未来AI技术能够造福人类的最亟待突破的领域。 那么现在在多模态大模型的视觉功能能否达到与语言功能匹配的水平? 当前多模态模型取得的进步很大程度上归功于大语言模型(LLM)的推理能力。但在视...
-
几何纹理重建新SOTA!浙大提出SIFU:单图即可重建高质量3D人体模型
在AR、VR、3D打印、场景搭建以及电影制作等多个领域中,高质量的穿着衣服的人体3D模型非常重要。 传统的方法创建这些模型不仅需要大量时间,还需要能够捕捉多视角照片的专业设备,此外还依赖于技术熟练的专业人员。 与此相反,在日常生活中,我们最常见...
-
[算法前沿]--005-和chatgpt一样的大模型LLaMA可以运行在pc上?
未来已来,大模型依据压缩模型的方式,可以在普通的PC上运行. LLaMA Facebook的LLaMA 模型和Georgi Gerganov 的llama.cpp的结合。 LLaMA,这是一组包含 7B 到 65B 参数的基础语言模型。我们在数万亿个令...
-
Stable-diffusion-webui 本地部署及使用
Stable-diffusion-webui 本地部署及使用 本地部署stable-diffusion-webui(windows 1.安装conda; 2.创建conda env 和python 3.10.6; 3.更新pip; 4.安装...
-
新一代注意力机制Lightning Attention-2:无限序列长度、恒定算力开销、更高建模精度
大语言模型序列长度的限制,极大地制约了其在人工智能领域的应用,比如多轮对话、长文本理解、多模态数据的处理与生成等。造成这一限制的根本原因在于当前大语言模型均采用的 Transformer 架构有着相对于序列长度的二次计算复杂度。这意味着随着序列长度的增加...
-
AI无代码网页组件开发工具免费下载地址 Compo官网体验入口
Compo Chrome Extension是一个基于AI组件驱动技术的开源工具,旨在通过简单的文本输入帮助用户快速创建、设计和开发网页组件。它通过集成到应用程序中或使用Vallmore的企业AI集成到应用、工具或平台中,提供了多样化的使用场景。Compo...
-
谷歌推几何AI系统AlphaGeometry,实力达奥林匹克金牌得主
Google DeepMind 发布了一个名为AlphaGeometry 的人工智能系统,它可以解决复杂的几何问题,其水平接近人类奥林匹克金牌得主——这是人工智能性能的突破。在对30道奥数几何题的基准测试中,AlphaGeometry 在标准奥数时限内解决...
-
Android Studio安装AI编程助手Github Copilot
csdn原创谢绝转载 简介 文档链接 https://docs.github.com/en/copilot/getting-started-with-github-copilot 它是个很牛B的编程辅助工具,装它,快装它. 支持以下IDE: In...
-
Stability AI发布全新代码模型Stable Code 3B,媲美70亿Code Llama,没GPU也能跑
今天,Stability AI发布了自家在2024年的第一个模型——Stable Code3B。 顾名思义,Stable Code3B专注于代码能力,实际的表现也是非常亮眼。 在仅仅3B参数的规模之下,达到了比肩Code Llama7B的效果。 相...
-
人工智能 | ChatGPT 和文心一言哪个更好用?
===================================================== github:https://github.com/MichaelBeechan CSDN:https://blog.csdn.net/u01134...
-
AIGC内容分享(十二):AIGC探索之旅AIGC探索之旅
目录 前言 引言:AI时代,未来已来 AIGC简介与发展历程 早期萌芽阶段(1950s-1990s) 沉淀积累阶段(1990s-2010s) 快速发展阶段(2010s至今) 大模型与AIGC的关联 大模型概述 大模型的定义和特点 典型大...
-
【Stable diffusion inpaiting】训练自己数据集
https://github.com/advimman/lama/tree/7dee0e4a3cf5f73f86a820674bf471454f52b74f prepare your data: 1 Create masks named as `[...
-
如何一键生成字幕,如何快速处理生肉资源?借助whisper语音识别系统生成.srt字幕文件 手把手教学在Windows、CPU版本下whisper的安装与使用,快速上手!
目录 一.前言 二.本机环境 三.安装步骤: 步骤1:下载Git并添加环境变量 步骤2:下载ffmpeg并添加环境变量 步骤3:安装pytorch 步骤4:安装whisper 四.whisper的应用 应用1:识别mp3歌曲中的歌词 应用...
-
七个值得关注的优秀大语言模型(LLM)
在LLM领域我们了解最多的很可能是OpenAI的ChatGPT,以及最近在多模态表现非常出色的Google Gemini,这些都是AI大模型的领头羊,代表着AI大模型发展的先进成果。然而,在大模型的实际应用中必须要综合考虑成本、信息安全等内容,因此,开源...
-
【Stable Diffusion XL】huggingface diffusers 官方教程解读
文章目录 01 Tutorial Deconstruct a basic pipeline Deconstruct the Stable Diffusion pipeline Autopipeline Train a diffusion mo...
-
VsCode 配置Copilot的详细步骤与示例
目录 一、 GitHub Copilot Chat 账号申请 1.1 前往 GitHub 网站(https://github.com/)并点击 "Sign up" 进行注册。 1.2 申请 GitHub Copilot Chat 二、VsCode...
-
SDXL 1.0出图效果直逼Midjourney!手把手教你快速体验!
介绍 最近,Stability AI正式推出了全新的SDXL 1.0版本。经过我的实际测试,与之前的1.5版本相比,XL的效果有了巨大的提升,可以说是全方位的超越。不仅在理解提示词方面表现出色,而且图片的构图、颜色渲染和画面细腻程度都有了很大的进步,实际...
-
在VS Code中安装Copilot与安装其他扩展的方法一样,只需简单几步
GitHub Copilot是由OpenAI和GitHub开发的人工智能工具。它的目的是通过自动完成代码来帮助开发人员使用集成开发环境(IDE),如Visual Studio Code。它目前仅作为技术预览版提供,因此只有在候补名单上被认可的用户才能访问它...
-
【论文简介】Stable Diffusion的基础论文:2112.High-Resolution Image Synthesis with Latent Diffusion Models
稳定扩散生成模型(Stable Diffusion 是一种潜在的文本到图像扩散模型,能够在给定任何文本输入的情况下生成照片般逼真的图像 Stable Diffusion 是基于latent-diffusion 并与 Stability AI and Run...
-
用大模型帮程序员找Bug,中科院剖析102篇论文总结出这些方案
中科院对“找Bug”下手了,一口气总结了N种方案! 法宝就是大模型。 大模型由于其卓越的自然语言理解、推理等能力,已经被应用于各种场景,取得了前所未有的效果。 类似的,软件测试领域也受益于其强大的能力,能够帮助生成逼真且多样化测试输入,模拟各种异常,加...
-
【AI绘画Stable Diffusion】高清图像放大+面部修复+一键抠图,谈谈你可能不知道的优化技巧!
一提起后期处理,我猜你可能立马想到的就是图像放大。 今天,我要向你展示的后期处理手法,以及优化技巧。 图片放大算法 如果你常用的是秋叶大佬的整合包,那么你对"R-ESRGAN 4x+"和"R-ESRGAN 4x+ Anime6B"应该不会陌生。...
-
Stability AI发布全新代码模型Stable Code 3B!媲美70亿Code Llama,没GPU也能跑
今天,Stability AI发布了自家在2024年的第一个模型——Stable Code 3B。 图片 顾名思义,Stable Code 3B专注于代码能力,实际的表现也是非常亮眼。 在仅仅3B参数的规模之下,达到了比肩Code Llama 7B的效果...
-
获取Github Copilot的Token
可以在线提取出Github Copilot插件的Token,这样的话就可以把Token拿来做别的用处了,比如共享给其他人 Github Copilot是一款由GitHub和OpenAI合作开发的人工智能编程助手。它利用机器学习和自然语言处理技术,能够根据用...
-
200亿「书生·浦语2.0」正式开源!数推性能比肩ChatGPT,200K超长上下文完美召回
就在今天,上海人工智能实验室与商汤科技联合香港中文大学和复旦大学,正式发布新一代大语言模型书⽣·浦语2.0(InternLM2)。 Github:https://github.com/InternLM/InternLM HuggingFace:https...
-
语音识别whisper的介绍、安装、错误记录
介绍 Whisper是OpenAI于2022年9月份开源的通用的语音识别模型。它是在各种音频的大型数据集上训练的模型,也是一个可以执行多语言语音识别、语音翻译和语言识别的多任务模型。 论文链接:https://arxiv.org/abs/2212.04...
-
AI绘画指南:在CentOS7中安装Stable Diffusion WebUI
一、安装GPU驱动 1.1 购买云服务器 在腾讯云选购一台GPU型的服务器(最好的境外的,境外的服务器后面关于镜像加速的步骤都可以跳过) 购买成功之后腾讯的站内信会发送初始的密码给你,登录成功后会自动帮我们安装相关的驱动,提示整个过程大概需要20分...
-
Stability AI发布Stable Code 3B模型,没有GPU也能本地运行
在文生图领域大火的 Stability AI,今天宣布了其 2024 年的第一个新 AI 模型:Stable Code 3B。顾名思义,Stable Code 3B 是一个拥有 30 亿参数的模型,专注于辅助代码任务。 无需专用 GPU 即可在笔记本电...
-
机器人领域首个开源视觉-语言操作大模型,RoboFlamingo框架激发开源VLMs更大潜能
近年来,大模型的研究正在加速推进,它逐渐在各类任务上展现出多模态的理解和时间空间上的推理能力。机器人的各类具身操作任务天然就对语言指令理解、场景感知和时空规划等能力有着很高的要求,这自然引申出一个问题:能不能充分利用大模型能力,将其迁移到机器人领域,直接...
-
基于OpenAI的Whisper构建的高效语音识别模型:faster-whisper
1 faster-whisper介绍 faster-whisper是基于OpenAI的Whisper模型的高效实现,它利用CTranslate2,一个专为Transformer模型设计的快速推理引擎。这种实现不仅提高了语音识别的速度,还优化了内存使用效率...
-
复现问题记录 | Stable Diffusion(LDM) (in python3)(一)
复现 环境 代码 util.py 测试 Text-to-Image 直接使用网页生成 记录复现LDM遇到的问题 环境 conda env create -f environment.yaml 根据environment.ya...
-
Compo官网体验入口 AI生成网页设计开发工具软件在线免费试用地址
Compo是一个革命性的基于AI组件驱动技术的开源工具,能够让用户通过简单的文本指令快速创建、设计和开发网页组件。这个工具的目标用户群体是那些需要快速整合AI功能到他们的网页或应用中的开发者、设计师和企业。 点击前往Compo官网体验入口 为什么选择Co...
-
大型语言模型检索增强生成利器——向量搜索引擎
译者 | 朱先忠 审校 | 重楼 简介 随着大型语言模型(LLM)席卷全球,向量搜索引擎也紧随其后。同时,向量数据库也构成大型语言模型长期记忆系统的基础。 通过有效的算法找到相关信息并使其作为上下文传递给语言模型,向量搜索引擎可以提供超出训练截止值的最...
-
ReSimAD:如何在没有真实数据的情况下,提升感知模型的泛化性能
本文经自动驾驶之心公众号授权转载,转载请联系出处。 写在前面&笔者的个人理解 自动驾驶车辆传感器层面的域变化是很普遍的现象,例如在不同场景和位置的自动驾驶车辆,处在不同光照、天气条件下的自动驾驶车辆,搭载了不同传感器设备的自动驾驶车辆,上述这些...
-
文生图Stable-diffusion-webui环境搭建
想自己生成AI美女吗?跟我一起下来搭建Stable-diffusion-v1-5进行文生图、图生图吧。 该webui支持Mac/Linux/Windows环境,这里以windows环境为例。前提是你已经在本机搭建好了GPU运行环境,建议6G以上GPU,...
-
【AIGC】IP-Adapter:文本兼容图像提示适配器,用于文本到图像扩散模型
前言 IPAdapter能够通过图像给Stable Diffusion模型以内容提示,让其生成参考该图像画风,可以免去Lora的训练,达到参考画风人物的生成效果。 摘要 通过文本提示词生成的图像,往往需要设置复杂的提示...
-
Stable Diffusion生成图片的参数查看与抹除方法
查看图片的生成参数 1、打开Stable Diffusion WebUI,点击Tab菜单中的【图像信息/PNG Info】,不同版本的WebUI可能显示的文字或略有不同。 2、在左侧选择本地的一张图片,如果是Stable Diffusion...
-
Stable Diffusion WebUI Linux系统部署
1.简单说明 因为有AIGC方面的需要,所以研究了一下大火的stable diffusion,我自己之前没有部署这个的经验,所以基本是从0开始研究,在网上搜了各种教程一步一步的终于在服务器上成功运行了Stable Diffusion WebUI ,以此...
-
基于ChatGPT的代码解释神器:GPT Academic、GitHub Copilot
(个人推荐使用第二个GitHub Copilot) 1. GPT 学术优化 (GPT Academic 工具 简介 GPT Academic是什么 为ChatGPT/GLM提供实用化交互界面,特别优化论文阅读/润色/写作体验,模块化设计,支持自定...
-
如何部署一个chat copilot服务
微软提供了前后端代码,允许在本地部署一个chat copilot服务,这样就可以通过用脚本发请求的方式自动去提问和截取回答。 其实部署服务的过程挺简单的,按照这个教程一步一步走就可以,以下以linux为例 首先clone chat copilot的re...
-
stable-diffusion-webui安装教程windows10
stable-diffusion-webui安装教程windows10 安装python 3.10.6 安装cuda 配置环境 修改界面语言 本教程提及的文件都在:https://share.weiyun.com/S9QZe9cb,请自行...
-
Stable Diffusion云服务器部署完整版教程
Stable Diffusion云服务器部署完整版教程 2023年07月04日 22:30 3607浏览 · 18喜欢 · 22评论...
-
Stable Diffusion/Win/本地部署
一、本地部署 Stable Diffusion 前言 目前市面上比较权威,并能用于工作中的AI绘画软件其实就两款。一个叫Midjourney(简称MJ),另一个叫Stable-Diffusion(简称SD)。MJ需要付费使用,而SD开源免费,但是上手难...
-
无需翻墙|Stable Diffusion WebUI 安装|AI绘画
前言 最近终于有机会从围墙里往外看,了解到外面的世界已经有了天翻地覆的变化,感叹万千,笔者在本地mac,windows,linux,docker部署了不下20遍后,整理出来的linux极简避坑安装方案,供大家参考学习。 注 系统:linux 用...
-
Stable Diffusion VAE:改善图像质量的原理、选型与使用指南
VAE Stable Diffusion(稳定扩散)是一种用于生成模型的算法,结合了变分自编码器(Variational Autoencoder,VAE)和扩散生成网络(Diffusion Generative Network)的思想。它通过对变分自编码器...
-
好用且免费的CodeWhisperer,给1024程序员节送礼来了
国庆期间没有胆量去人从众的景点,关在家里刷手机时意外在亚马逊的User Group公众号上发现了CodeWhisperer这么个好东西(bu yao qian),以后撸代码也可以提高生产力(fang yang mo yu)了,这还不赶紧上手试一...
-
腾讯最新AI工具PhotoMaker:上传图片即可生成多样化风格个人照片
腾讯最新推出的AI照片生成工具PhotoMaker引发了不少关注,该应用利用强化学习(RL)技术,只要上传照片就可以生成多种风格的个人照片,无需进行额外的LoRA训练,用户可以迅速进行定制。 PhotoMaker还具有多样的功能,包括混合不同人物特征生成全...
-
用 llama.cpp 跑通 mixtral MoE 模型
这里是 用 llama.cpp 跑通 mixtral MoE 模型 视频的笔记哦。 主要命令 安装 huggingface_hub: pip install huggingface_hub -U 下载模型 huggingface-cli down...
-
GitHub正式发布Copilot Chat,开放给所有用户使用
功能特性 Copilot Chat是一款以编程为中心的聊天机器人,类似于ChatGPT。它由GPT-4提供支持,开发者可以使用自然语言向其提问,获取实时的编程指导,例如解释概念、检测漏洞或编写单元测试。 使用范围 最初,Copilot Chat 为...
-
上下文工程:基于 Github Copilot 的实时能力分析与思考
上个月在计划为 AutoDev 添加多语言支持时候,发现 GitHub Copilot 的插件功能是语言无关的(通过 plugin.xml 分析),便想研究一下它是如何使用 TreeSitter 的。可惜的是,直到最近才有空,研究一下它是如何实现的。...
-
扩散模型图像理解力刷新SOTA!字节复旦团队提出全新「元提示」策略
Text-to-image(T2I)扩散模型在生成高清晰度图像方面显示出了卓越的能力,这一成就得益于其在大规模图像-文本对上的预训练。 这引发了一个自然的问题:扩散模型是否可以用于解决视觉感知任务? 近期,来自字节跳动和复旦大学的技术团队提出了一种简单...