-
Stable Diffusion XL优化终极指南
如何在自己的显卡上获得SDXL的最佳质量和性能,以及如何选择适当的优化方法和工具,这一让GenAI用户倍感困惑的问题,业内一直没有一份清晰而详尽的评测报告可供参考。直到全栈开发者Félix San出手。 在本文中,Félix介绍了相关...
-
一文搞懂Midjourney的所有指令
大家好 我是野生的树下老师,今天分享midjourney有哪些指令,都是怎么用的呢? 跟着我的脚步走起~ 指令 释义 /imagine 通过提示词生成图片 /settings 查看当前MJ机器人默认设置 /ask 获取问题答案 /r...
-
多模态预训练模型在 OPPO 端云场景的落地实践
一、端侧图文检索技术研究 1. 解决了什么问题? 首先来介绍图文检索技术。以前在手机端相册搜索照片,都是基于标签来搜索。从 CLIP 模型出现后开始做自然语言搜索。目前正在解决端侧性能、搜索效果、安全等问题。技术难度并不大,重点在于提高搜索速度。并...
-
免费AI出图神器:StableStudio——定义AI作画新前景
StableStudio:探索艺术与科技的无限交界,StableStudio引领AI智能创作新浪潮! - 精选真开源,释放新价值。 概览 ChatGPT大语言模型AI的诞生引爆了对AIGC的讨论。AIGC 又称生成式 AI (Generat...
-
模块化重构LLaVA,替换组件只需添加1-2个文件,开源TinyLLaVA Factory来了
TinyLLaVA 项目由清华大学电子系多媒体信号与智能信息处理实验室 (MSIIP 吴及教授团队和北京航空航天大学人工智能学院黄雷老师团队联袂打造。清华大学 MSIIP 实验室长期致力于智慧医疗、自然语言处理与知识发现、多模态等研究领域。北航团队长期...
-
Spring AI项目Open AI绘画开发指导
Spring AI项目创建 Spring AI简介 创建Spring AI项目 配置项目pom和application文件 controller接口开发 运行测试 Spring AI简介 Spring AI 是 AI 工程的应用...
-
CoT提出者Jason Wei:大模型评估基准的「七宗罪」
在 CV 领域,研究者一直把李飞飞等人创建的 ImageNet 奉为模型在下游视觉任务中能力的试金石。 在大模型时代,我们该如何评估 LLM 性能?现阶段,研究者已经提出了诸如 MMLU、GSM8K 等一些评估基准,不断有 LLM 在其上刷新得分。 但这...
-
AI绘画Midjourney 和 Stable Diffusion的区别是什么?如何使用和安装?超详细AI绘画小白零基础入门教程建议收藏!(附资料)
大家好,我是画画的小强 关于AI绘画,大家多多少少都听过Midjourney 和 Stable Diffusion的大名,号称目前市面上最强的两款AI绘画软件。那么今天我们就来分析一下这两款软件的区别在哪里。 Midjourney是一个在线网站,使用它...
-
NL2SQL进阶系列(3):Data-Copilot、Chat2DB、Vanna Text2SQL优化框架开源应用实践详解[Text2SQL]
NL2SQL进阶系列(3 :Data-Copilot、Chat2DB、Vanna Text2SQL优化框架开源应用实践详解[Text2SQL] NL2SQL基础系列(1 :业界顶尖排行榜、权威测评数据集及LLM大模型(Spider vs BIRD)全面...
-
AI智能体|使用扣子Coze创建AI绘画工作流
大家好,我是无界生长。 关注微信公众号:无界生长,后台发送暗号“C001”加入组织 今天分享下如何使用Coze(扣子)创建AI绘画工作流,为后续通过Coze创建AI绘画助手做铺垫,学会了的话,欢迎分享转发! 插件介绍 扣子Coze平台集成...
-
手撕Llama3第1层: 从零开始实现llama3
一、Llama3的架构在本系列文章中,我们从头开始实现llama3。 Llama3的整体架构: 图片 Llama3的模型参数: 让我们来看看这些参数在LlaMa 3模型中的实际数值。 图片 [1] 上下文窗口(context-window)在实例化Lla...
-
浅谈AIGC:人工智能的iPhone时刻,还是普通人至暗时刻?
2022年,当AI开始绘画的时候,很多设计师们觉得没什么。当AI开始生成代码的时候,很多程序员也觉得没什么。当ChatGPT出现的时候,才将AIGC这一领域彻底引爆。被称为AI届的『iPhone时刻』。 ChatGPT对搜索引擎领域冲击巨大,百度仓皇...
-
Llama 3大模型发布!快速体验推理及微调
Meta,一家全球知名的科技和社交媒体巨头,在其官方网站上正式宣布了一款开源的大型预训练语言模型——Llama-3。 据了解,Llama-3模型提供了两种不同参数规模的版本,分别是80亿参数和700亿参数。这两种版本分别针...
-
你想要的照片,AI都能帮你画出来:记录Stable Diffusion的力量
目录 前言 一、配置软件环境(可以跳过直接看第二部分效果图) 1.启动界面 二、解锁新功能 2.1 开源模型的获取 三、如何生成细节更加可控的内容呢? 3.1 充分利用prompt: 3.2 词不达意时,充分使用lora 3.2 使用多个lo...
-
使用Flask实现:基于midjourney-proxy的MJ绘画实现(开源)
文章目录 实现效果 实现步骤 完整源码 实现效果 运行mj.py,如下所示。输入中文,自动生成提示词,自动开始下载。用户选择是否需要变换图片,选择需要对哪个图片变换,自动保存。 之前想做一个网页版,只实现了demo效果不好看,就不...
-
llama-factory/peft微调千问1.5-7b-chat
目标 使用COIG-CQIA数据集和通用sft数据集对qwen1.5-7b-chat进行sft微调,使用公开dpo数据集进行dpo对齐。学习千问的长度外推方法。 一、训练配置 使用Lora方式, 将lora改为full即可使用全量微调。具体的参数...
-
Llama 3开源!手把手带你推理,部署,微调
节前,我们星球组织了一场算法岗技术&面试讨论会,邀请了一些互联网大厂朋友、参加社招和校招面试的同学,针对算法岗技术趋势、大模型落地项目经验分享、新手如何入门算法岗、该如何准备、面试常考点分享等热门话题进行了深入的讨论。 汇总合集 《大模型面试...
-
【AIGC】本地部署通义千问 1.5 (PyTorch)
今天想分享一下 Qwen 1.5 官方用例的二次封装( huggingface 说明页也有提供源码),其实没有太多的技术含量。主要是想记录一下如何从零开始在不使用第三方工具的前提下,以纯代码的方式本地部署一套大模型,相信这对于技术人员来说还是非常有用的。...
-
AIGC提示(prompt)飞升方法:走向专家之路
大家好,我是herosunly。985院校硕士毕业,现担任算法研究员一职,热衷于机器学习算法研究与应用。曾获得阿里云天池比赛第一名,CCF比赛第二名,科大讯飞比赛第三名。拥有多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机...
-
文心一言4.0 VS ChatGPT4.0 图片生成能力大比拼!
大家好,我是木易,一个持续关注AI领域的互联网技术产品经理,国内Top2本科,美国Top10 CS研究生,MBA。我坚信AI是普通人变强的“外挂”,所以创建了“AI信息Gap”这个公众号,专注于分享AI全维度知识,包括但不限于AI科普,AI工具测评,AI效...
-
Llama-Factory + Ollama 打造属于自己的中文版 Llama3
Meta 推出 Llama3 也有一小段时间了。Llama3 包含 8B 和 70B 两种参数规模,涵盖预训练和指令调优的变体。Llama 3 支持多种商业和研究用途,并已在多个行业标准测试中展示了其卓越的性能(关于Llama3的具体介绍可以参考本站另外一...
-
Stable Diffusion介绍
Stable Diffusion是一种前沿的开源深度学习模型框架,专门设计用于从文本描述生成高质量的图像。这种称为文本到图像生成的技术,利用了大规模变换器(transformers)和生成对抗网络(GANs)的力量,以创建与给定文本提示相一致的图像。...
-
Midjourney国际版教程(保姆级教程)
1.登录Discord Midjourney国际版架设在Discord上,因此使用Midjourney前需要先创建并验证Discord帐户,然后通过浏览器Discord访问Midjourney Bot。 2.订阅Midjourney Midjou...
-
LLaMA Factory在预测阶段时添加原有问题的实战代码
大家好,我是herosunly。985院校硕士毕业,现担任算法研究员一职,热衷于机器学习算法研究与应用。曾获得阿里云天池比赛第一名,CCF比赛第二名,科大讯飞比赛第三名。拥有多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机...
-
Llama 3 开源!手把手带你进行大模型推理,部署,微调和评估
节前,我们组织了一场算法岗技术&面试讨论会,邀请了一些互联网大厂朋友、参加社招和校招面试的同学,针对算法岗技术趋势、大模型落地项目经验分享、新手如何入门算法岗、该如何准备、面试常考点分享等热门话题进行了深入的讨论。 基于大模型实践和技术交流,我...
-
长文干货!老程序员测评文心一言4.0模型代码能力!
目录 前言:老程序员聊聊AI和国产大模型 第一关:代码质量和可用性——写个可运行的游戏代码 第二关:需求理解和记忆能力——多轮对话下的任务能力 总结 前言:老程序员聊聊AI和国产大模型 大家好,我是一名老程序员了,大模型出来后我算是一...
-
全网最全stable diffusion webui API调用示例,包含controlneth和segment anything的API(附json示例)
全网最全stable diffusion webui API调用示例,包含controlneth和segment anything的API(附json示例) 交流群 100419879 欢迎合作👏🏻 V : 864399407 GitHub:https...
-
LLMs之Llama3:Llama-3的简介、安装和使用方法、案例应用之详细攻略
LLMs之Llama3:Llama-3的简介、安装和使用方法、案例应用之详细攻略 导读:2024年4月18日,Meta 重磅推出了Meta Llama 3,本文章主要介绍了Meta推出的新的开源大语言模型Meta Llama 3。模型架构 Llam...
-
利用大语言模型增强网络抓取:一种现代化的方法
想了解更多AIGC的内容,请访问: 51CTO AI.x社区 https://www.51cto.com/aigc/ 本文将探讨大语言模型(LLMs 与网络抓取的集成,以及如何利用LLMs高效地将复杂的HTML转换为结构化的JSON。 作为一名数据工程...
-
AIGC-controlnet代码详细解读
hugging face 社区diffusers官方代码:stable_diffusion/controlnetcontrolnet.ipynb 原始代码的解读可以看看这个博主的:万字长文解读Stable Diffusion的核心插件—ControlNet...
-
Stable Diffusion最美亚洲女性真人大模型之一【XXMix_9realistic】已升级SDXL版~
大家好,我是程序员晓晓 如果你用过XXMix_9realistic4.0的模型你就会觉得他确实是个不错的大模型,虽然是基于SD1.5的,但效果很不错。 进入SDXL时代,经过作者不断地迭代更新,也已经正式向大家推出了SDXL版本。 XMix_9r...
-
除了RAG,还有这五种方法消除大模型幻觉
出品 | 51CTO技术栈(微信号:blog51cto) 众所周知,LLM会产生幻觉——即生成不正确、误导性或无意义的信息。 有意思的是,一些人,如OpenAI的CEO Sam Altman,将AI的幻觉视为创造力,而另一些人则认为幻觉可能有助于做出新...
-
基于LangChain自查询检索器的RAG系统开发实战
想了解更多AIGC的内容,请访问: 51CTO AI.x社区 https://www.51cto.com/aigc/ 最近,我在浏览Max.com网站时想找一部电影看。通常,这个过程包括浏览系统呈现给我的各种列表,阅读一些相关描述,然后挑选一些看起来有...
-
250行代码从头搭建Llama 3,GitHub一天4.6k星!Karpathy大赞
Llama系列作为为数不多的优质开源LLM,一直受到开发者们的追捧。在Hugging Face社区的文本生成模型中,几乎是「霸榜」的存在。 就在520这天,一位名叫Nishant Aklecha的开发者在推特上宣布了自己的一个开源项目,名为「从头开始实...
-
通过检索增强生成(RAG) 增强LLM的实战演练
想了解更多AIGC的内容,请访问: 51CTO AI.x社区 https://www.51cto.com/aigc/ 拥有正确的数据来支持用例对于在任何业务中成功采用大型语言模型(LLM 都是至关重要的。虽然大多数现成的LLM在完成一般任务上表现出色,...
-
Karpathy称赞,从零实现LLaMa3项目爆火,半天1.5k star
一个月前,Meta 发布了开源大模型 llama3 系列,在多个关键基准测试中优于业界 SOTA 模型,并在代码生成任务上全面领先。 此后,开发者们便开始了本地部署和实现,比如 llama3 的中文实现、llama3 的纯 NumPy 实现等。 十几个小...
-
GPT-4o成为全领域SOTA!基准测试远超Gemini和Claude,多模态功能远超GPT-4
OpenAI在发布会上官宣GPT-4o之后,各路大神也开始了对这个新模型的测评,结果就是,GPT-4o在多项基准测试上都展现了SOTA的实力。 别家发布会都在画饼,OpanAI却总能开出一种「欲扬先抑」的效果,惊喜全在发布会之后。 基准测试结果 首先...
-
多模态GPT-4o来了,最先嗨起来的是一波女性用户
整场发布会最为重磅的发布之一,莫过于 OpenAI 团队成员对于新模型语音能力的演示,搭载了 GPT-4o 的 ChatGPT,不仅真正实现了实时响应,可以任意打断,更重要的是,ChatGPT 第一次拥有了“察言观色”的能力,它能看到用户表情,理解用户语气...
-
GPT-4o:实现跨越文本与视觉的智能交互 原创
想了解更多AIGC的内容,请访问: 51CTO AI.x社区 https://www.51cto.com/aigc/ 摘要 OpenAI最新发布的GPT-4o模型及其在多模态处理上的卓越能力,标志着人机交互迈向新的高度。GPT-4o能够处理文本、音频、...
-
一些 Llama3 微调工具以及如何在 Ollama 中运行
Llama3是Meta提供的一个开源大模型,包含8B和 70B两种参数规模,涵盖预训练和指令调优的变体。这个开源模型推出已经有一段时间,并且在许多标准测试中展示了其卓越的性能。特别是Llama3 8B,其具备小尺寸和高质量的输出使其成为边缘设备或者移动设...
-
与机器对话:揭示提示工程的十个秘密
想了解更多AIGC的内容,请访问: 51CTO AI.x社区 https://www.51cto.com/aigc/ 提示的力量十分神奇,我们只需抛出几个近似人类语言的单词,就能得到一个格式和结构都良好的答案。没有什么话题是晦涩难懂的,没有什么事实是触...
-
Ollama如何构建自己的Llama3中文模型
Ollama Ollama 是一个开源的大型语言模型(LLM)服务工具,它允许用户在本地机器上运行和部署大型语言模型。Ollama 设计为一个框架,旨在简化在 Docker 容器中部署和管理大型语言模型的过程,使得这一过程变得简单快捷。用户可以通过简单的...
-
GPT-4o成全球网友新玩具,秒秒钟纸质原型转录初始HTML,网友:谷歌你是一点流量摊不上啊
好啊,不愧是OpenAI最新旗舰,打开各个社交软件,GPT-4o的上手测试都唰唰唰往我首页推。 请!看! 这,就是用上GPT-4o,花不到30s时间,通过单个prompt把一个电子表格中的内容生成了完整的图表和统计分析。 在过去,在Excel里做这玩意儿...
-
谷歌反击:Project Astra正面硬刚GPT-4o、Veo对抗Sora、新版Gemini变革搜索
通用的 AI,能够真正日常用的 AI,不做成这样现在都不好意思开发布会了。 5 月 15 日凌晨,一年一度的「科技界春晚」Google I/O 开发者大会正式开幕。长达 110 分钟的主 Keynote 提到了几次人工智能?谷歌自己统计了一下: 是的,...
-
OPPO 下一代大数据 AI 一体架构实践
一、技术架构 OPPO 大数据场景丰富,拥有海外的 AWS 功能云,国内自建机房,机器规模超过万台,在印度则是使用混合云模式。 首先来介绍一下 AWS 上功能云 EMR 的实践。 1. 云原生计算架构 OPPO 早期全部采用 EMR,其存在以下一些问题...
-
AI作品会侵权吗?我花了一个月时间,调研了你想知道的一切。
在AI越来越被普及之后,有越来越多的创作者下场,开始使用AI,来创作自己的一些作品。 但是在这个时间点,很多的创作者,都非常关心一个问题:AI版权。 特别是最近的有两个月,在聊天中有密集想了解的,比如影视飓风,比如某国企,比如港中大等等。 大家的问题几乎都...
-
大神Karpathy强推,分词领域必读:自动钓鱼让大模型“发疯”的token,来自Transformer作者创业公司
关于大模型分词(tokenization),大神Karpathy刚刚推荐了一篇必读新论文。 主题是:自动检测大模型中那些会导致“故障”的token。 图片 简单来说,由于大模型tokenizer的创建和模型训练是分开的,可能导致某些token在训练中很少...
-
优秀Agent智能体必学的几种设计模式,一学就会
大家好,我是老渡。 昨天在公司听了清华大学智能产业研究院现场分享的AI医院小镇。 图片 这是一个虚拟世界,所有的医生、护士、患者都是由LLM驱动的Agent智能体,可以自主交互。它们模拟了整个诊病看病的过程,在涵盖主要呼吸道疾病的MedQA数据集子集上,...
-
14 项任务测下来,GPT4V、Gemini等多模态大模型竟都没什么视觉感知能力?
2023-2024年,以 GPT-4V、Gemini、Claude、LLaVA 为代表的多模态大模型(Multimodal LLMs)已经在文本和图像等多模态内容处理方面表现出了空前的能力,成为技术新浪潮。 然而,对于这些模型的评测多集中于语言上的任务,...
-
多模态大模型在前端开发领域的应用探索
一、大模型生成前端代码 1.GPT4自动生成前端网页 GPT4展示了一个功能,画一张草图,并把它拍照发给GPT-4,GPT-4可以从图片中提取文字信息并输出HTML,自动生成网站的原型图。 输入草图: 图片 输出页面代码: 图片 2.微调的必要性 一些开...