-
【超详细】AIGC生成图片和视频
前沿 准备 接入 源代码 【前沿】 这两天突然看到一个niubility的项目,名叫:stability,这个网站就是大名鼎鼎的stability,网址是:stability.io,感兴趣的朋友可以去访问试试。 今天的主要目的是写一个对接这个项目的一...
-
微软推大模型整合性工具库PromptBench
微软最近推出了一个专门用于评估大语言模型的整合性工具库,名为PromptBench。该工具库提供了一系列工具,包括创建不同类型的提示、进行数据集和模型加载、执行对抗性提示攻击等,以支持研究人员从不同方面对LLMs进行评估和分析。 项目地址:https:/...
-
llama.cpp Mac版本llama
骆驼.cpp 路线图/宣言/ ggml 纯C/C++中LLaMA模型的推理 热点话题: 简单的网络聊天示例:#1998 k-quants 现在支持 64 的超级块大小 super-block size of 64::#2001 新...
-
快手Agents系统、模型、数据全部开源!
7B 大小的模型也能玩转 AI Agents 了?近期,快手开源了「KwaiAgents」,问它周末滑雪问题,它不但帮你找到场地,连当天的天气都帮你考虑周到了。 大家都知道大语言模型(LLM)通过对语言的建模而掌握了大量知识,并具备一定认知和推理能力。...
-
ai绘画,初级召唤师教程
前言 novel ai是最近以世界上最大的二次元D站为数据集训练出来的一个ai,所以生成二次元风格图的效果很不错,其他的就一般般了。 我自己生成的图例 声明: 以下内容仅代表个人观点 如存在一些问题请联系笔者 资源来源于互联网,仅供学习...
-
什么?NeRF还能提升BEV泛化性能!首个BEV跨域开源代码并首次完成Sim2Real!
本文经自动驾驶之心公众号授权转载,转载请联系出处。 写在前面&笔者的个人总结 鸟瞰图(Bird eye's view, BEV 检测是一种通过融合多个环视摄像头来进行检测的方法。目前算法大部分算法都是在相同数据集训练并且评测,这导致了这些算法过...
-
AI 舵手:Copilot 指南!
各位代码行者,握紧你的键盘,戴好你的眼镜,来一场与代码世界的超真实飞行吧!今天的副驾驶,是那个在开发者社区中爆红的飞行员——Copilot。让我们详细了解一下这位AI飞行员,以及如何让它成为你开发旅途中的得力助手。 Copilot,那不是飞机上的副驾驶吗...
-
在Linux(Centos7)上编译whisper.cpp的详细教程
whisper.cpp的简单介绍: Whisper 是 OpenAI 推出的一个自动语音识别(ASR)系统,whisper.cpp 则是 Whisper 模型的 C/C++ 移植。whisper.cpp 具有无依赖项、内存使用量低等特点,支持 Ma...
-
LLaMa、Qwen、ChatGLM、ChatGLM2的区别
LLaMa、Qwen、ChatGLM、ChatGLM2的区别 以下比较的前提是首先和BERT(transfomer 的对比 感谢帮忙给我github repository的star,更多最新模型长期更新:https://github.com/zysN...
-
conda环境下RuntimeError: Couldn‘t determine Stable Diffusion‘s hash问题解决
1 问题描述 在部署stable-diffusion-webui项目时,出现RuntimeError: Couldn't determine Stable Diffusion's hash错误,错误信息如下: [root@localhost stab...
-
全参数finetune Ziya-LLaMA-13B相关模型,目前支持数据并行+张量并行+ZeRO
全参数Finetune 这个示例主要用于全参数finetune Ziya-LLaMA-13B相关模型,目前支持数据并行+张量并行+ZeRO step0 环境安装 git clone git@github.com:IDEA-CCNL/Fengshenb...
-
在 Apple Silicon Mac 上部署 StableDiffusion 的分步指南,释放 Apple Silicon 芯片及其神经引擎的全部潜力
任何使用AI模型生成图像的服务都在涌现。这些服务中的大多数都提供基于积分的定价系统,您可以在其中购买积分以用于服务,并且每项服务都有自己的每张图片积分等级。另一种选择是直接在您自己的机器上部署文本到图像模型,这样可以避免任何使用成本,除了操作机器的成本。事...
-
国内AI大模型的封神榜&死亡笔记;奥特曼首次公开谈宫斗;我有PDF翻译秘诀, 8种!2023年中国AIGC产业全景报告;GitHub Copilot官方入门课 | ShowMeAI日报
?日报&周刊合集 | ?生产力工具与行业应用大全 | ? 点赞关注评论拜托啦! ? Heygen 注销中国公司主体,探索出海新范式 https://www.heygen.com/ HeyGen 是什么? 简单来说,H...
-
打造「专属arXiv」!德国高校顶级视觉团队推出「论文定制化」推荐系统,免费开放
10毫秒生成一张图像,1分钟6000张图像,这是什么概念? 下图中,就可以深刻感受到AI的超能力。 图片 甚至,当你在二次元小姐姐图片生成的提示中,不断加入新的元素,各种风格的图片更迭也是瞬间闪过。 图片 如此惊人的图片实时生成速度,便是来自UC伯克利、...
-
AI视野:Pika1.0正式向所有人开放;阿里开源文生3D模型;Midjourney V6涉嫌侵权;谷歌推出新AI SDK
新鲜AI产品点击了解:https://top.aibase.com/ ???AI应用 Pika1.0正式向所有人开放 Pika1.0官方宣布正式向所有人开放网页版本试用资格,每个用户都可免费体验该创意视频制作平台。该版本以文生成视频为特色,提供3秒视频快速...
-
AI绘画:快速上手stable diffusion
点击↑上方↑蓝色“编了个程”关注我~ 这是Yasin的第 89 篇原创文章 mj vs sd 最近随着Chat GPT的大火,AI绘画也火了起来。尤其是midjourney(以下简称mj),能够通过文本关键词生成AI图片,还能...
-
单张4090,1秒100张二次元小姐姐!UC伯克利等新模型霸榜Github,吞吐量提升近60倍
10毫秒生成一张图像,1分钟6000张图像,这是什么概念? 下图中,就可以深刻感受到AI的超能力。 甚至,当你在二次元小姐姐图片生成的提示中,不断加入新的元素,各种风格的图片更迭也是瞬间闪过。 如此惊人的图片实时生成速度,便是来自UC伯克利、日本筑波大学...
-
AI绘画:SDXL1.0正式版+2款软件+多种在线体验方式!
万众期待的最强开源AI模型SDXL1.0终于开源了! SDXL1.0 是什么? 简单来说,它是目前最强大的开源AI绘画模型,开源当然也意味着免费。单纯从模型的角度来看,肯定比SD1.5,SD2.x这种强很多。 如果你要寻找...
-
DrivingGaussian:逼真环视数据,驾驶场景重建SOTA
本文经自动驾驶之心公众号授权转载,转载请联系出处。 原标题:DrivingGaussian: Composite Gaussian Splatting for Surrounding Dynamic Autonomous Driving Scenes...
-
AI绘画黑科技Stable Diffusion WebUI在线部署使用教程
AI绘画黑科技Stable Diffusion,能够根据文字描述生成精美图像,开源且在消费级GPU上就能运行。 Stable Diffusion WebUI是Stable Diffusion的Web版,提供了便捷的WebUI交互界面,部署使用方便,支持中文...
-
基于Gradio/Stable Diffusion/Midjourney的AIGC自动图像绘画生成软件 - Fooocus
0.参考 本项目:GitHub - lllyasviel/Fooocus: Focus on prompting and generating 作者:Lvmin Zhang 编辑 lllyasviel 另一杰作 ContorlNet https...
-
【人话版】关于“AI替代程序员“的7点碎碎念
都说AI替代这个替代那个,不用浪费时间为这种问题焦虑,因为答案已经越来越明显了... 关键是,什么时候?怎么替?。 1 设想一个场景,有个需求要用某个技术或某个框架实现,有两个程序员对这些都不是很熟。 有一个疯狂谷歌、Stackov...
-
基于whisper模型的在线添加视频字幕网站(持续更新)
1.什么是whisper Whisper 是一个自动语音识别(ASR,Automatic Speech Recognition)系统,OpenAI 通过从网络上收集了 68 万小时的多语言(98 种语言)和多任务(multitask)监督数据对 Whi...
-
InsCode Stable Diffusion使用教程(非常详细)从零基础入门到精通,看完这一篇就够了
记录一下如何使用 InsCode Stable Diffusion 进行 AI 绘图以及使用感受。 一、背景介绍 目前市面上比较权威,并能用于工作中的 AI 绘画软件其实就两款。一个叫 Midjourney(简称 MJ),另一个叫 Stable Di...
-
安装stable-diffusion-webui踩坑经历
软件下载在b站up秋葉aaaki up很贴心有一个整合包可以直接运行。 在github下载的原始版本sd-webui ,下载过程遇到clip包安装失败,参考了这两个文章可以解决 打开stable diffusion webui时,提示缺少cl...
-
谷歌Bard更新中文支持;GPT-4:1.8万亿参数、混合专家模型揭秘; Meta推出商用版本AI模型
? AI新闻 ? 谷歌的AI聊天工具Bard更新,增加中文支持 摘要:谷歌的AI聊天工具Bard新增中文环境,用户可以使用简体和繁体中文进行交流。然而,与竞品相比,Bard的回复略显生硬,语义理解还有待提升。此外,谷歌还更新了Bard的日志页面,新...
-
stable-diffusion画图
1、在python官网 下载python3 安装 2、安装 CUDA 在安装 CUDA 之前查看nvidia版本 我的版本是11.6就在nvidia官网下载对应版本 3、在github中下载stable-diffusion-webui git clon...
-
LLM微调(四)| 微调Llama 2实现Text-to-SQL,并使用LlamaIndex在数据库上进行推理
Llama 2是开源LLM发展的一个巨大里程碑。最大模型及其经过微调的变体位居Hugging Face Open LLM排行榜(https://huggingface.co/spaces/HuggingFaceH4/open_llm_lea...
-
Stable-Diffusion|从图片反推prompt的工具:Tagger(五)
stable-diffusion-webui-wd14-tagger 前面几篇:Stable-Diffusion|window10安装GPU版本的 Stable-Diffusion-WebUI遇到的一些问题(一)【Stable-Diffusion|入门怎...
-
AI视野:必应推出GPT-4Turbo模型;抖音测试“AI搜”功能;小红书内测AI聊天机器人;OpenAI计划新一轮融资
????大模型动态 必应推出GPT-4Turbo模型 微软推出Bing Chat的最新模型,GPT-4Turbo,为用户提供更准确和最新的信息。目前仅限部分用户试用,使用方法需通过检查资格确认。 阿里团队推新AI模型I2VGen-XL 视频合成领域迎来...
-
挑战Transformer的Mamba是什么来头?作者博士论文理清SSM进化路径
在大模型领域,Transformer 凭一己之力撑起了整个江山。但随着模型规模的扩展和需要处理的序列不断变长,Transformer 的局限性也逐渐凸显,比如其自注意力机制的计算量会随着上下文长度的增加呈平方级增长。为了克服这些缺陷,研究者们开发出了很多...
-
AI绘画:Roop插件的特性与安装!
交叉”学科”来了! 我们之前讲过可以实现单图换脸的Roop,也讲过可以通过文字描述画画的项目Stable-Diffusion-WebUI。现在这两者要通过sd-webui-roop产生交汇。 我们先来简单的看一下这个插件可以干什么! 功能特点...
-
Stable Diffusion - Easy Diffusion 图像生成工具的环境配置
欢迎关注我的CSDN:https://spike.blog.csdn.net/ 本文地址:https://blog.csdn.net/caroline_wendy/article/details/131524075 版本v2.5.41 Stab...
-
LLaMA-Adapter: Efficient Fine-tuning of Language Models with Zero-init Attention
Paper name LLaMA-Adapter: Efficient Fine-tuning of Language Models with Zero-init Attention Paper Reading Note Paper URL: htt...
-
发现【Stable-Diffusion WEBUI】的神奇插件:离线自动翻译中文提示词
文章目录 (零)前言 (一)提示词翻译(Prompt Translator) (1.1)尚需改进 (零)前言 本篇主要提到了WEBUI的提示词翻译插件,之前我说不喜欢联网的插件,而它是离线翻译。 更多不断丰富的内容参考:?《...
-
LLama Factory 安装部署实操记录(二)
1. 项目地址 GitHub - hiyouga/LLaMA-Factory: Easy-to-use LLM fine-tuning framework (LLaMA, BLOOM, Mistral, Baichuan, Qwen, ChatGLM E...
-
stable-diffusion-webui服务器centos部署实践(成功)
之前关注stable-diffusion仅仅是因为stable-diffusion模型,但实践证明,stable-diffusion如果么有那么好的提示词功力,恐怕生成的图就是“畸形的,缺胳膊少腿的,多一块,少一块的”,如V1实践,V2实践,纸糊效果。...
-
Tracking Any Object Amodally :让AI像人一样可以追踪任何对象
Tracking Any Object Amodally是由卡内基梅隆大学和丰田研究所开发的项目使得人工智能能够像人一样追踪物体的整体,即使在部分遮挡或不完全可见的情况下也能理解其完整结构。 在这个项目中,计算机被训练成能够“理解”并追踪到部分遮挡物体的完...
-
“私密离线聊天新体验!llama-gpt聊天机器人:极速、安全、搭载Llama 2,尽享Code Llama支持!”
“私密离线聊天新体验!llama-gpt聊天机器人:极速、安全、搭载Llama 2,尽享Code Llama支持!” 一个自托管的、离线的、类似chatgpt的聊天机器人。由美洲驼提供动力。100%私密,没有数据离开您的设备。 Demo http...
-
Point Transformer V3:更简单、更快、更强!
本文经自动驾驶之心公众号授权转载,转载请联系出处。 原标题:Point Transformer V3: Simpler, Faster, Stronger 论文链接:https://arxiv.org/pdf/2312.10035.pdf 代码链接:h...
-
阿里团队推新AI模型I2VGen-XL:单张静止图像就能生成高质量视频
视频合成最近取得了显著的进步,这得益于扩散模型的快速发展。然而,它在语义准确性、清晰度和时空连续性方面仍然存在挑战。它们主要源于文本-视频数据的稀缺性和视频的复杂固有结构,使得模型难以同时确保语义和定性的卓越性。 阿里巴巴、浙江大学和华中科技大学的研究人员...
-
Github Copilot绑定Jetbrains IDE无效的解决方案
在Github中进行教育认证后不会自动开通Copilot功能,因此,在进行了Github教育认证之后,在使用之前要进入Github Copilot官网开通Coplilot,如果忽略了这一点,绑定Jetbrains IDE时就会产生绑定无效并卡在“Waiti...
-
Llama 2 with langchain项目详解(三)
Llama 2 with langchain项目详解(三) 17.3 Llama 2 with langchain基础 本节讲解在LangChain中使用Llama 2模型的基础知识,展示如何运行LangChain的代码,及在云端运行Llama 2的700...
-
紧跟潮流,抓住趋势,跟上全民AI的节奏,开源IM项目OpenIM产品介绍,为AIGC贡献力量
开源价值 高度自主、安全可控、开放自由,私有化部署,一切皆可控 透明度和可信度:开源软件的源代码是公开的,任何人都可以查看和检查代码,从而增强了软件的透明度和可信度。用户可以了解软件的内部结构和运作方式,发现和修复潜在的安全漏洞和错误。 自由度和可定...
-
使用llama.cpp在本地搭建vicuna 13B语言模型
有人做了windows下的脚本放到github上了,直接运行就可以了。我在本机试了一下13B的模型能运行,但生成速度非常慢,回复一个问题基本上要花5分钟以上的时间。我的机器配置 3900X 32G内存。 https://github.com/mps2...
-
文字识别表格识别,这个库直接调用
PaddleOCR是一个基于PaddlePaddle深度学习框架开发的开源OCR(Optical Character Recognition)工具。除了光学字符识别(OCR)功能外,最新版本的PaddleOCR还引入了表格识别功能。 表格识别是一种将图像...
-
midjourney指令笔记+踩坑日记+gpt论文润色指令
跟人拼团入手了midjourney,长期记录更新。 midjourney指令笔记+踩坑日记 指令笔记 踩坑日记 GPT论文润色指令 指令一 指令二 指令三 指令四 指令五 指令笔记 关键词参考网址:prompttool...
-
Novel ai(stable-diffusion-webui)的本地部署经历
整体思路 整体参考的就是下面的网站的内容,采用的里面是Anaconda搭建虚拟环境部署的步骤(网站里面用的Miniconda其实上和Anaconda整体思路是一样的) tip:Anaconda的配置是比较简单的,可以直接在网上搜索,需要注意的是建议先卸...
-
AI绘画中CLIP文本-图像预训练模型
介绍 OpenAI 在 2021 年提出了 CLIP(Contrastive Language–Image Pretraining)算法,这是一个先进的机器学习模型,旨在理解和解释图像和文本之间的关系。CLIP 的核心思想是通过大规模的图像和文本对进行...
-
OpenAI Whisper + FFmpeg + TTS:动态实现跨语言视频音频翻译
本文作者系360奇舞团前端开发工程师 摘要: 本文介绍了如何结合 OpenAI Whisper、FFmpeg 和 TTS(Text-to-Speech)技术,以实现将视频翻译为其他语言并更换声音的过程。我们将探讨如何使用 Ope...