-
使用文心一言进行图像内容理解
接上篇文章,这期使用文心一言图像识别API,对本地图片以及在线视频图片进行内容理解。 该请求用于图像内容理解,支持输入图片和提问信息,可对输入图片进行理解,输出对图片的一句话描述,同时可针对图片内的主体/文字等进行检测与识别,支持返回图片内多主体/文字的...
-
比较AI编程工具Copilot、Tabnine、Codeium和CodeWhisperer
主流的几个AI智能编程代码助手包括Github Copilot、Codeium、Tabnine、Replit Ghostwriter和Amazon CodeWhisperer。 你可能已经尝试过其中的一些,也可能还在不断寻找最适合自己或公司使用的编程助手...
-
探秘Faster Whisper:一款加速 Whisper 模型训练的高效工具
探秘Faster Whisper:一款加速 Whisper 模型训练的高效工具 项目地址:https://gitcode.com/SYSTRAN/faster-whisper 在自然语言处理(NLP)领域,Transformer架构的模型如Whis...
-
图像生成模型浅析(Stable Diffusion、DALL-E、Imagen)
目录 前言 1. 速览图像生成模型 1.1 VAE 1.2 Flow-based Model 1.3 Diffusion Model 1.4 GAN 1.5 对比速览 2. Diffusion Model 3. Stable Diffusi...
-
不影响输出质量还能追踪溯源,「大模型无偏水印」入选ICLR 2024 Spotlight
本文通讯作者为马里兰大学计算机系的博士生胡正冕,其导师为 Heng Huang。他的主要研究方向是采样与机器学习理论,曾在ICML、NeurIPS、ICLR等顶级会议上发表多篇论文。邮箱: huzhengmian@gmail.com 随着大语言模型(LL...
-
国产开源Sora上新:全面支持国产AI算力,可用ReVideo视频编辑,北大-兔展团队出品
北大-兔展联合发起的Sora开源复现计划Open-Sora-Plan,今起可以生成最长约21秒的视频了! 生成的视频水平,如下展示。先看这个长一点的,9.2s: 当然了,老规矩,这一次的所有数据、代码和模型,继续开源。 目前,Open-Sora-Plan在...
-
Llama 3 五一超级课堂中实践llama3的部署,微调,量化优化部署学习总结:第一部分llama3部署
本次学习分享基于Llama3-Tutorial(Llama 3 超级课堂)分享,git地址如下 GitHub - SmartFlowAI/Llama3-Tutorial: Llama3-Tutorial(XTuner、LMDeploy、OpenCompa...
-
Llama 3 模型家族构建安全可信赖企业级AI应用之使用 Llama Guard 保护大模型对话 (八)
LlaMA 3 系列博客 基于 LlaMA 3 + LangGraph 在windows本地部署大模型 (一) 基于 LlaMA 3 + LangGraph 在windows本地部署大模型 (二) 基于 LlaMA 3 + LangGraph 在w...
-
一文读懂本地运行 LLM 的优秀实践方法
Hello folks,我是 Luga,今天我们来聊一下人工智能(AI 生态领域相关的技术 - LLM -常见的本地运行 LLM 方法。 众所周知,如今使用 ChatGPT 等大型模型工具变得异常简单,只需通过浏览器在线访问即可。然而,需要注意的是,...
-
苹果的“Greymatter 项目”将是普通用户在日常中可使用的AI工具
在即将到来的苹果全球开发者大会(WWDC)上,苹果公司将重点展示其在人工智能(AI 领域的最新进展。知情人透露,苹果的焦点将是普通用户在日常生活中可以使用的AI工具。 苹果的新计划被称为“Project Greymatter”,旨在将一系列AI工具整...
-
Llama 3 实践教程(InternStudio 版)
文章目录 Llama3本地 Web Demo部署 初始环境配置 下载模型 Web Demo 部署 XTuner 微调 Llama3 个人小助手 自我认知训练数据集准备 XTuner配置文件准备 训练模型 推理验证 XTuner微调Lla...
-
AIGC系列之:DDPM原理解读(简单易懂版)
目录 DDPM基本原理 DDPM中的Unet模块 Unet模块介绍 Unet流程示意图 DownBlock和UpBlock MiddleBlock 文生图模型的一般公式 总结 本文部分内容参考文章:https://ju...
-
LLaMA-Factory+qwen多轮对话微调测评
目录 训练的时间和效果 数据准备 数据样例 数据配置 环境搭建 模型微调训练 模型预测 运行成功的web UI LLaMA-Factory地址:https://github.com/hiyouga/LLaMA-Factory/blo...
-
Stable Diffusion XL优化终极指南
如何在自己的显卡上获得SDXL的最佳质量和性能,以及如何选择适当的优化方法和工具,这一让GenAI用户倍感困惑的问题,业内一直没有一份清晰而详尽的评测报告可供参考。直到全栈开发者Félix San出手。 在本文中,Félix介绍了相关...
-
手把手教你如何开通GitHub Copilot并且在vscode中使用
很多小伙伴应该已经知道Copilot的鼎鼎大名了,也有一些白嫖怪白嫖了3个月免费试用期后找不到续费的渠道,今天就给大家献上一篇续费/开通Copilot的文章; 1.首先登录git: git; 以及fomepay 2.点击头像->Copil...
-
Hinton揭秘Ilya成长历程:Scaling Law是他学生时代就有的直觉
2003年夏天的一个周日,AI教父Hinton在多伦多大学的办公室里敲代码,突然响起略显莽撞的敲门声。 门外站着一位年轻的学生,说自己整个夏天都在打工炸薯条,但更希望能加入Hinton的实验室工作。 Hinton问,你咋不预约呢?预约了我们才能好好谈谈。...
-
多模态预训练模型在 OPPO 端云场景的落地实践
一、端侧图文检索技术研究 1. 解决了什么问题? 首先来介绍图文检索技术。以前在手机端相册搜索照片,都是基于标签来搜索。从 CLIP 模型出现后开始做自然语言搜索。目前正在解决端侧性能、搜索效果、安全等问题。技术难度并不大,重点在于提高搜索速度。并...
-
普通人如何通过AIGC逆风翻盘?
终身学习: 利用AI辅助的在线教育平台,如Coursera、edX、Khan Academy等,学习新技能或提升现有技能。 尝试使用AI驱动的语言学习应用,如Duolingo、Rosetta Stone等,提高语言能力。 探索AI辅助的编程学习平台...
-
【带文字的图像生成-附开源代码】AIGC 如何在图像中准确生成文字?字体篇(上)
文字图像生成是什么? “文字图像生成(Text-image generation)”即生成带有指定文字的图像。如下图所示,市面常见的通用文生图很难准确地生成带有指定文字的图像。文字图像生成也被称为文本渲染(Text rendering)。 为什么重要?...
-
港大字节提出多模态大模型新范式,模拟人类先感知后认知,精确定位图中物体
当前,多模态大模型 (MLLM)在多项视觉任务上展现出了强大的认知理解能力。 然而大部分多模态大模型局限于单向的图像理解,难以将理解的内容映射回图像上。 比如,模型能轻易说出图中有哪些物体,但无法将物体在图中准确标识出来。 定位能力的缺失直接限制了多模态...
-
CoT提出者Jason Wei:大模型评估基准的「七宗罪」
在 CV 领域,研究者一直把李飞飞等人创建的 ImageNet 奉为模型在下游视觉任务中能力的试金石。 在大模型时代,我们该如何评估 LLM 性能?现阶段,研究者已经提出了诸如 MMLU、GSM8K 等一些评估基准,不断有 LLM 在其上刷新得分。 但这...
-
LLaMA-Factory微调LLama2
LLaMA-Factory(0.6.2版本 微调LLama2 1.下载安装 git clone https://github.com/hiyouga/LLaMA-Factory.git cd LLaMA-Factory pip install -e...
-
百度文心一言(ERNIE bot)API接入Android应用
百度文心一言(ERNIE bot)API接入Android应用实践 - 拾一贰叁 - 博客园 (cnblogs.com 需要完整代码的话:https://gitee.com/liyizhe2002/we-are-speakers Preface:...
-
一文深度剖析 ColBERT
近年来,向量搜索领域经历了爆炸性增长,尤其是在大型语言模型(LLMs)问世后。学术界开始重点关注如何通过扩展训练数据、采用先进的训练方法和新的架构等方法来增强 embedding 向量模型。 在之前的文章中,我们已经深入探讨了各种类型的 embeddin...
-
AI智能体|使用扣子Coze创建AI绘画工作流
大家好,我是无界生长。 关注微信公众号:无界生长,后台发送暗号“C001”加入组织 今天分享下如何使用Coze(扣子)创建AI绘画工作流,为后续通过Coze创建AI绘画助手做铺垫,学会了的话,欢迎分享转发! 插件介绍 扣子Coze平台集成...
-
手撕Llama3第1层: 从零开始实现llama3
一、Llama3的架构在本系列文章中,我们从头开始实现llama3。 Llama3的整体架构: 图片 Llama3的模型参数: 让我们来看看这些参数在LlaMa 3模型中的实际数值。 图片 [1] 上下文窗口(context-window)在实例化Lla...
-
为何说小语言模型是AI界的下一大热门?
译者 | 布加迪 审校 | 重楼 在AI领域,科技巨头们一直在竞相构建越来越庞大的语言模型,如今出现了一个令人惊讶的新趋势:小就是大。随着大语言模型(LLM)方面的进展出现了停滞的迹象,研究人员和开发人员日益开始将注意力转向小语言模型(SLM)。这种紧凑...
-
本地环境运行Llama 3大型模型:可行性与实践指南
简介: Llama 是由 Meta(前身为 Facebook)的人工智能研究团队开发并开源的大型语言模型(LLM),它对商业用途开放,对整个人工智能领域产生了深远的影响。继之前发布的、支持4096个上下文的Llama 2模型之后,Meta 进一步推出了性...
-
AI绘画之网上大火的 “隐藏字” 效果怎么制作?只需 5 步教会你!
大家好,我是灵魂画师向阳 一、什么是“隐藏字”? 废话不多说,上图! 我不说,你能看出来这张图片有字吗? 很多人可能觉得不可思议,这张图哪来的字啊?就一张正常的图而已。而有些人可能依稀觉得是有文字的,但是又说不出来到底是什么。 让我们换种...
-
MacOS使用ollama部署codellama+openui以及llama.cpp部署
现在AI这么火,你是不是也渴望能够在本地部署并运行属于自己的大模型,然而,高昂的硬件成本又往往成了一大障碍,限制了你继续在AI领域去探索和创新。如果告诉你,无需换电脑,无需额外花钱买GPU或换显卡,你现在的电脑就可以本地跑一些大模型,那将是多么酷的一...
-
2023 re:Invent | Amazon Q 与 Amazon CodeWhisperer 面向企业开发者提效利器
2023 年,以 GPT 为代表的生成式 AI 引爆了新一轮技术热潮,短短一年的时间内,生成式 AI 已经成为科技世界发展的核心。作为云计算的行业风向标盛会 re ,本届: Invent 全球大会紧跟生成式 AI 浪潮,推出名为“ Amazon Q ”的生...
-
Copilot Workspace是GitHub对人工智能驱动的软件工程的诠释
软件开发的未来是人工智能驱动的集成开发环境吗?至少GitHub 是这样想的。 在今年初秋于旧金山举行的 GitHub Universe 年度大会之前,GitHub 发布了 Copilot Workspace,这是一种开发环境,利用 GitHub 所称的...
-
AI大模型日报#0418:Stable Diffusion 3开放API、Meta新研究让AI Agent理解物理世界
导读: 欢迎阅读《AI大模型日报》,内容基于Python爬虫和LLM自动生成。目前采用“文心一言”生成了每条资讯的摘要。标题: 微软刚发布了VASA-1 这个人工智能可以让单张图像具有生动的说话和歌唱能力 摘要: 微软发布了VASA-1人工智能,...
-
探索 Obsidian Copilot:智能笔记的新里程碑
探索 Obsidian Copilot:智能笔记的新里程碑 项目地址:https://gitcode.com/logancyang/obsidian-copilot 项目简介 Obsidian Copilot 是一个创新的插件,为流行的 markdo...
-
AI绘图Stable Diffusion中关键技术:U-Net的应用
你好,我是郭震 引言 在人工智能和深度学习的迅猛发展下,图像生成技术已经取得了令人瞩目的进展。特别是,Stable Diffusion模型以其文本到图像的生成能力吸引了广泛关注。本文将深入探讨Stable Diffusion中一个关键技术——...
-
深入探索:基于CodeIgniter框架的爬虫应用开发
在当今数据驱动的时代,网络爬虫作为一种高效的数据采集工具,正日益受到开发者们的青睐。而在众多开发框架中,CodeIgniter以其简洁、轻量且易于上手的特点脱颖而出,成为不少开发者构建爬虫应用的首选。本文将详细探讨基于CodeIgniter框架的爬虫应用开...
-
Llama 3大模型发布!快速体验推理及微调
Meta,一家全球知名的科技和社交媒体巨头,在其官方网站上正式宣布了一款开源的大型预训练语言模型——Llama-3。 据了解,Llama-3模型提供了两种不同参数规模的版本,分别是80亿参数和700亿参数。这两种版本分别针...
-
微调llama 3 — PEFT微调和全量微调
1. llama 3 微调基础 1.1 llama 3 简介 官方blog llama 3 目前有两个版本:8B版和70B版。8B版本拥有8.03B参数,其尺寸较小,可以在消费者硬件上本地运行。 meta-llama/Meta-Llama-3-...
-
AIGC——ComfyUI工作流搭建、导入与常用工作流下载
工作流 ComfyUI工作流是一个基于图形节点编辑器的工作流程,通过拖拽各种节点到画布上,连接节点之间的关系,构建从加载模型到生成图像的流程。每个节点代表一个与Stable Diffusion相关的模型或功能,节点之间通过连线传递图片信息。工作流程始于...
-
使用Flask实现:基于midjourney-proxy的MJ绘画实现(开源)
文章目录 实现效果 实现步骤 完整源码 实现效果 运行mj.py,如下所示。输入中文,自动生成提示词,自动开始下载。用户选择是否需要变换图片,选择需要对哪个图片变换,自动保存。 之前想做一个网页版,只实现了demo效果不好看,就不...
-
【LLama】Llama3 的本地部署与lora微调(基于xturn)
系列课程代码+文档(前2节课可跳过):https://github.com/SmartFlowAI/Llama3-Tutorial 课程视频:https://space.bilibili.com/3546636263360696/channel/serie...
-
Llama 3开源!手把手带你推理,部署,微调
节前,我们星球组织了一场算法岗技术&面试讨论会,邀请了一些互联网大厂朋友、参加社招和校招面试的同学,针对算法岗技术趋势、大模型落地项目经验分享、新手如何入门算法岗、该如何准备、面试常考点分享等热门话题进行了深入的讨论。 汇总合集 《大模型面试...
-
【AIGC】本地部署通义千问 1.5 (PyTorch)
今天想分享一下 Qwen 1.5 官方用例的二次封装( huggingface 说明页也有提供源码),其实没有太多的技术含量。主要是想记录一下如何从零开始在不使用第三方工具的前提下,以纯代码的方式本地部署一套大模型,相信这对于技术人员来说还是非常有用的。...
-
[AIGC ]详解MinIO:特性,Docker部署和Spring Boot集成
MinIO是一个基于Apache License v2.0开源协议的对象存储服务。它兼容亚马逊S3云存储服务接口,非常适合存储大容量非结构化的数据,如图片、视频、日志文件、备份数据、容器/虚机镜像等,而且MinIO非常轻量,只有一个单独的二进制文件。它的设...
-
GitHub Copilot 登录失败问题
本人最近常用的开发软件是PyCharm和Visual Studio,最近临近期末,代码最强辅助GitHub Copilot却出现了登录失败的问题,让人非常头疼 1. 我遇到的登录失败长什么样 据说GitHub Copilot的登录失败千奇百怪,这次我...
-
实战whisper第二天:直播语音转字幕(全部代码和详细部署步骤)
直播语音实时转字幕: 基于Whisper的实时直播语音转录或翻译是一项使用OpenAI的Whisper模型实现的技术,它能够实时将直播中的语音内容转录成文本,甚至翻译成另一种语言。这一过程大致分为三个步骤:捕获直播音频流、语音识别(转录)以及翻译(如...
-
Llama 3 开源!手把手带你进行大模型推理,部署,微调和评估
节前,我们组织了一场算法岗技术&面试讨论会,邀请了一些互联网大厂朋友、参加社招和校招面试的同学,针对算法岗技术趋势、大模型落地项目经验分享、新手如何入门算法岗、该如何准备、面试常考点分享等热门话题进行了深入的讨论。 基于大模型实践和技术交流,我...
-
使用 ollama 部署最新的Llama 3 70B本地模型
一、ollama是什么? 在本地启动并运行大型语言模型。运行Llama 3,Mistral, Gemma, Code Llama和其他模型。自定义并创建您自己的。 综合优点: 快速下载+容器自动运行大模型,现在下载,马上上手。...
-
AIGC,全能摧毁
目录 1 AIGC能干什么? 2 说的再直白一些 3 这可不是一个好事 4 AIGC正在让你变得弱智 5 大家需要的是什么? 1 AIGC能干什么? AIGC最近火起来了,当然,他并不是第一天火起来,他从上个世纪就开始...
-
AIGC实战——VQ-GAN(Vector Quantized Generative Adversarial Network)
AIGC实战——VQ-GAN 0. 前言 1. VQ-GAN 2. ViT VQ-GAN 小结 系列链接 0. 前言 本节中,我们将介绍 VQ-GAN (Vector Quan...