-
罕见!苹果开源图片编辑神器MGIE,要上iPhone?
拍张照片,输入文字指令,手机就开始自动修图? 这一神奇功能,来自苹果刚刚开源的图片编辑神器「MGIE」。 把背景中的人移除 在桌子上添加披萨 最近一段时间,AI 在图片编辑这一应用上取得了不小的进展。一方面,在 LLM 的基础上,多模态大模型(MLL...
-
两亿参数时序模型替代LLM?谷歌突破性研究被批「犯新手错误」
最近,谷歌的一篇论文在 X 等社交媒体平台上引发了一些争议。 这篇论文的标题是「A decoder-only foundation model for time-series forecasting(用于时间序列预测的仅解码器基础模型)」。 简而言之,...
-
无需GPU,手机芯片也能运行多模态模型!面壁智能发布MiniCPM,性能超过Mistral-7B!
2月1日,面壁智能发布了旗舰端侧模型 MiniCPM,它以小博大的性能超越了 Mistral-7B,并在 MT-Bench 等榜单上表现出色。 MiniCPM 是一款能说会看、具备编程能力、拥有多模态能力的端侧模型。它不仅在性能上优秀,而且具有极低的成本...
-
最新AI创作系统ChatGPT系统源码+DALL-E3文生图+AI绘画+GPT语音对话功能
一、前言 SparkAi创作系统是基于ChatGPT进行开发的Ai智能问答系统和Midjourney绘画系统,支持OpenAI-GPT全模型+国内AI全模型。本期针对源码系统整体测试下来非常完美,可以说SparkAi是目前国内一款的ChatGPT对接Op...
-
美国博士小哥打败女友的AI男友!7页论文让LLM降智,训出「负分男友」成功挽回
女友爱上AI了,怎么破? 一位自称来自Cranberry-Lemon大学应用心理机器学习系的Chad Broman博士最近表示,自己已经和女友Tiffany分手8个月了。 虽然很享受单身的自由,但身边没有女友的日子,连玩快艇都少了很多滋味。 他一直想找机...
-
大模型系列——解读RAG
RAG 是2023年最流行的基于 LLM 的应用系统架构。有许多产品几乎完全建立在 RAG 之上,覆盖了结合网络搜索引擎和 LLM 的问答服务,到成千上万个数据聊天的应用程序。很多人将RAG和Agent 作为大模型应用的两种主流架构,但什么是RAG呢?R...
-
iPhone动嘴10秒P图!UCSB苹果全华人团队发布多模态MGIE,官宣开源人人可玩
几天前,库克在苹果电话会上证实,「今年晚些时候会发布生成式AI」。 ChatGPT掀起全球热潮之后,苹果也在悄悄发力AI,曾曝出的大模型框架Ajax、AppleGPT等AI工具让业界充满了期待。 6月举办的WWDC上,这家曾霸占全球市值第一公司,将会宣布...
-
大模型真能解决一切吗?关于知识驱动自动驾驶的一些思考
本文经自动驾驶之心公众号授权转载,转载请联系出处。 上个星期受邀在外面做了一次关于「知识驱动自动驾驶」的讲座,刚好借这个机会把之前我和团队的一些学术上的思考整理凝练了一下。感觉里面一些内容还是挺值得拿出来分享&讨论的,所以开这么个帖子把其中一些关...
-
首个环视世界模型DrivingDiffusion: BEV数据和仿真新思路!
本文经自动驾驶之心公众号授权转载,转载请联系出处。 笔者的一些个人思考 在自动驾驶领域,随着BEV-based子任务/端到端方案的发展,高质量的多视图训练数据和相应的仿真场景构建愈发重要。针对当下任务的痛点,“高质量”可以解耦成三个方面: 不同维度...
-
【多模态】13、Vision-Language 模型在视觉任务中的调研
文章目录 一、简介 二、基础知识 2.1 视觉任务的训练策略 2.2 VLM 基础 2.2.1 网络结构 2.2.2 预训练目标函数 2.2.3 评估和下游任务 2.3 数据集 三、迁移学习 3.1 使用 prompt tunin...
-
【部署LLaMa到自己的Linux服务器】
部署LLaMa到自己的Linux服务器 一、官方方法(知道就好,具体操作用不上这个) 1、Llama2 项目获取 方法1:有git可以直接克隆到本地 方法2:直接下载 2、LLama2 项目部署 3、申请Llama2许可 4、下载模型权重...
-
CES 2024的亮点仅仅聚焦AI深度赋能和产业创新吗?| DALL-E 3、Stable Diffusion等20+ 图像生成模型综述
随着科技飞速发展,CES(国际消费电子展)已然成为全球科技产业的风向标,每年的CES大会都是业界瞩目的盛事。回顾2024年CES大会,不难发现其亮点纷呈,其中以人工智能的深度赋能为最引人注目之处。AI技术的深入应用成为CES大会上的一大亮点,各大厂商纷纷展...
-
不分割成token,直接从字节中高效学习,Mamba原来还能这样用
在定义语言模型时,通常会使用一种基本分词方法,把句子分为词(word)、子词(subword)或字符(character)。其中,子词分词法一直是最受欢迎的选择,因为它在训练效率和处理词汇表外单词的能力之间实现了自然的折中。然而,一些研究指出了子词分词法...
-
打破MoE训练效率与性能瓶颈,华为盘古稀疏大模型全新架构LocMoE出炉
2023 年 12 月,首个开源 MoE 大模型 Mixtral 8×7B 发布,在多种基准测试中,其表现近乎超越了 GPT-3.5 和 LLaMA 2 70B,而推理开销仅相当于 12B 左右的稠密模型。为进一步提升模型性能,稠密 LLM 常由于其参数...
-
大模型没有护城河?OpenAI的“LLM城池”如何攻破,如何防守
作者 | Ben Dickson 译者 | 李睿 审校 | 重楼 出品 | 51CTO技术栈(微信号:blog51cto) 小模型、开源模型正在猛攻GPT-4,OpenAI需要更完善的措施来构建技术方面的护城河,以保护其LLM业务。 2023年5月,...
-
Java 接入文心一格(Ai绘画)
JAVA接入文心一格 环境准备 首先进入百度云的智能创作平台百度云创作平台 先购买对应的版本,各版本的价格为: 在购买完成后,点击创建应用 创建完成后,就可以开始进行代码编写了 代码部分 鉴权 首先需要鉴权,需要通过传入上面的apik...
-
Agent像人一样分工协作,还能“群聊”交换信息
智能体也要有“规范手册”! 一项名为MetaGPT的研究,通过对智能体角色进行明确分工,并要求多个智能体在协作中采用统一规范的“交流格式”等方法,让智能体性能大增。 目前,这项研究在GitHub上已狂揽33.6k星,并在深度学习顶会ICLR 2024上被...
-
【AI绘画】stable diffusion原理解读,通俗易懂,直接喂到你嘴里!!!
手把手教你入门绘图超强的AI绘画,用户只需要输入一段图片的文字描述,即可生成精美的绘画。给大家带来了全新保姆级教程资料包 (文末可获取) 文章目录 一、前言(可跳过) 二、stable diffusion 1.clip 2...
-
人工智能大时代——AIGC综述
生成式AI分类 模型按照输入输出的数据类型分类,目前主要包括9类。 有趣的是,在这些已发布大模型的背后,只有六个组织(OpenAI, Google, DeepMind, Meta, runway, Nvidia)参与部署了这些最先进的模型。...
-
[AI]文心一言爆火的同时,ChatGPT带来了这么多的开源项目你了解吗
前言 前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家:https://www.captainbed.cn/z ChatGPT体验地址 文章目录 前言 4.5key价格泄漏 ChatGPT4.0使...
-
史上首个100%开源大模型重磅登场!破纪录公开代码/权重/数据集/训练全过程,AMD都能训
多年来,语言模型一直是自然语言处理(NLP)技术的核心,考虑到模型背后的巨大商业价值,最大最先进的模型的技术细节都是不公开的。 现在,真·完全开源的大模型来了! 来自艾伦人工智能研究所、华盛顿大学、耶鲁大学、纽约大学和卡内基梅隆大学的研究人员,联合发表了...
-
决战拜年之巅!你能经受住AI七大姑八大姨的灵魂拷问吗?
快过年了,准备好面对亲戚的“灵魂拷问”了吗? 就在不少人都为此犯愁之时,一款非常应景的大模型游戏突然蹿红,各种群里玩疯了。 《决战·拜年之巅》,给你一个提前和AI七大姑八大姨们演练的宝贵机会。 还没进门,就发现全家族亲戚已经围坐在一起聊的火热,话题的中心...
-
匿名论文提出奇招,增强大模型长文本能力居然还能这么做
一提到提高大模型长文本能力,就想到长度外推或者上下文窗口扩展? 不行,这些都太费硬件资源了。 来看一个奇妙新解: 和长度外推等方法使用KV缓存的本质不同,它用模型的参数来存储大量上下文信息。 具体办法就是建一个临时Lora模块,让它仅在长文本生成过程中“流...
-
详解“小而优”的大语言模型Zephyr 7B
Zephyr是Hugging Face发布的一系列大语言模型,使用蒸馏监督微调(dSFT 在更庞大的模型上进行训练,显著提高了任务准确性。 2023年是属于大语言模型(LLM 和开源的一年。许多初创公司和企业开放了模型和权重的源代码,以应对ChatGPT...
-
击败OpenAI,权重、数据、代码全开源,能完美复现的嵌入模型Nomic Embed来了
一周前,OpenAI 给广大用户发放福利,在下场修复 GPT-4 变懒的问题后,还顺道上新了 5 个新模型,其中就包括更小且高效的 text-embedding-3-small 嵌入模型。 我们知道,嵌入是表示自然语言或代码等内容中概念的数字序列。嵌入使...
-
AIGC面经大全(持续更新)
目录 DDPM算法原理部分: DDIM算法原理部分: ⾼阶采样⽅案: 特征编码篇: Stable Diffusion篇: SDXL篇: ⼤模型微调篇: 控制模型篇: 适配器篇: DDPM算法原理部分: 简述DDP...
-
Single-Head ViT;Faster Whisper;Transformer KF;Pick-and-Draw
本文首发于公众号:机器感知 Single-Head ViT;Faster Whisper;Transformer KF;Pick-and-Draw SHViT: Single-Head Vision Transformer with Memory Ef...
-
【CV】稳定扩散模型(Stable Diffusion)
?大家好,我是Sonhhxg_柒,希望你看完之后,能对你有所帮助,不足请指正!共同学习交流? ?个人主页-Sonhhxg_柒的博客_CSDN博客 ? ?欢迎各位→点赞? + 收藏⭐️ + 留言? ?系列专栏 - 机器学习【ML】 自...
-
LLaMA、Baichuan、ChatGLM、Qwen、天工等大模型对比
12.10更新:Qwen技术报告核心解读 Baichuan Baichuan 2: Open Large-scale Language Models 数据处理:数据频率和质量,使用聚类和去重方法,基于LSH和dense embedding方...
-
解决copilot报错:Your current Copilot license doesn‘t support proxy connections with custom certificates
问题描述 如题,github copilot在安装插件并且成功登录github的情况下尝试使用时报: Your current Copilot license doesn't support proxy connections with custom...
-
LLaMA模型指令微调 字节跳动多模态视频大模型 Valley 论文详解
Valley: Video Assistant with Large Language model Enhanced abilitY 大家好,我是卷了又没卷,薛定谔的卷的AI算法工程师「陈城南」~ 担任某大厂的算法工程师,带来最新的前沿AI知识和工具...
-
.Net接入AzureOpenAI、OpenAI、通义千问、智谱AI、讯飞星火、文心一言大语言模型。
前言 现在在网上搜索.NET接入大模型的帖子很少,有些官方案例只提供java和python的SDK,所以有了这篇.Net的接入大模型文章,目前仅实现对话模型的调用。 这里仅举例通义千问,其他模型实现可以参考Gi他Hub 对您有帮助的话帮忙点个star...
-
基于医疗领域数据微调LLaMA——ChatDoctor模型
文章目录 ChatDoctor简介 数据构建和训练过程 建立外部知识库 ChatDoctor相比ChatGPT有什么优势? ChatDoctor的效果 代码解读 train_lora.py文件解读 微调实战 下载仓库并进入目录 创建con...
-
从零开始:了解ChatGPT和AIGC基础
1.背景介绍 1. 背景介绍 自2012年的AlexNet在ImageNet大赛中取得卓越成绩以来,深度学习技术已经成为人工智能领域的重要技术。随着算力的提升和模型的优化,深度学习技术已经取得了巨大的成功,应用于图像识别、自然语言处理、语音识...
-
文心一言 规章制度插件 小白必看
文心一言规章制度插件regulation - 飞桨AI Studio星河社区 (baidu.com 文心一言插件工具类插件示例Demo 1 功能介绍 1.1本插件demo可以支持 支持用户在星河社区将wordCloud部分服务化部署为API...
-
匿名论文提出奇招!增强大模型长文本能力居然还能这么做
一提到提高大模型长文本能力,就想到长度外推或者上下文窗口扩展? 不行,这些都太费硬件资源了。 来看一个奇妙新解: 和长度外推等方法使用KV缓存的本质不同,它用模型的参数来存储大量上下文信息。 具体办法就是建一个临时Lora模块,让它仅在长文本生成过程中“...
-
DALL-E 系列:AI绘画背后的惊人真相!!【1个离奇内幕、3个意想不到、5大秘密揭示】
DALL-E 系列:AI绘图原理,根据用户给出的描述,生成与描述相匹配的图像 DALL-E 1 dVAE Transformer DALL-E 2 CLIP 先验 prior decoder(image) DALL-E 3...
-
深度学习(生成式模型)—— stable diffusion:High-Resolution Image Synthesis with Latent Diffusion Models
文章目录 前言 motivation Conditioning Mechanisms 实验结果 如何训练autoencoder LDM性能与autoencoder深度的联系 LDM带来的图像生成速率提升 LDM在图像生成任务上与sota方法比...
-
【扩散模型】万字长文全面理解与应用Stable Diffusion
万字长文全面理解与应用Stable Diffusion 1. Stable Diffusion简介 1.1 基本概念 1.2 主体结构 1.3 训练细节 1.4 模型评测 1.5 模型应用 1.6 模型版本 1.7 其他类型的条件生成模型 1...
-
教你如何实现api形式调用MidJourney的AI绘画接口
进discord新建服务器 选择亲自创建 点击创建 进入服务器 点击右下角探索可发现的服务器 选择midjourney 选择一个群组,点击机器人头像,选择添加至服务器 添加至刚刚创建的服务器 授权 成功,点击前往...
-
最新AI系统ChatGPT网站系统源码,支持Midjourney绘画V6 ALPHA绘画模型,GPT语音对话+ChatFile文档对话总结+DALL-E3文生图
一、前言 SparkAi创作系统是基于ChatGPT进行开发的Ai智能问答系统和Midjourney绘画系统,支持OpenAI-GPT全模型+国内AI全模型。本期针对源码系统整体测试下来非常完美,那么如何搭建部署AI创作ChatGPT?小编这里写一个详细...
-
AI绘画:Stable Diffusion 提示词从入门到精通(一)
随着AI技术的日新月异,AI绘画对各个行业的冲击和影响也越来越大。很多人都对如何进行高效的AI绘画并不很了解。作者将通过一个系列对AI绘画「Stable diffusion WebUI 」进行全面分享,希望可以帮助你更高效的进行AI绘画创作。 使用过...
-
Stable Diffusion XL Turbo 文生图和图生图实践
本篇文章聊聊,如何快速上手 Stable Diffusion XL Turbo 模型的文生图和图生图实战。 写在前面 分享一篇去年 11 月测试过模型,为月末分享的文章做一些技术铺垫,以及使用新的环境进行完整复现。 本篇文章相关的代码保存在 sou...
-
大模型技术实践(三)|用LangChain和Llama 2打造心灵疗愈机器人
上期文章我们实现了Llama 2-chat-7B模型的云端部署和推理,本期文章我们将用“LangChain+Llama 2”的架构打造一个定制化的心灵疗愈机器人。有相关知识背景的读者可以直接阅读「实战」部分。 01 背景...
-
给ChatGPT小费真的好使!10块或10万效果拔群,但给1毛不升反降
还有谁不知道“假装”给ChatGPT小费可以让它服务更卖力? 但你知道给多少最合适吗? 笑不活了,还真有人专门研究了一番。 方法简单粗暴,从0.1美元到100美元,不同额度用同样的prompt去尝试,每个额度试5次。 你别说,结果还真有讲究: 首先,给...
-
无注意力大模型Eagle7B:基于RWKV,推理成本降低10-100 倍
无注意力大模型Eagle7B:基于RWKV,推理成本降低10-100 倍 在 AI 赛道中,与动辄上千亿参数的模型相比,最近,小模型开始受到大家的青睐。比如法国 AI 初创公司发布的 Mistral-7B 模型,其在每个基准测试中,都优于 Llama 2...
-
最强开源多模态生成模型MM-Interleaved:首创特征同步器
想象一下,AI 不仅会聊天,还长了「眼睛」,能看懂图片,甚至还会通过画画来表达自己!这意味着,你可以和它们谈天说地,分享图片或视频,它们也同样能用图文并茂的方式回应你。 最近,上海人工智能实验室联合香港中文大学多媒体实验室(MMLab)、清华大学、商汤科...
-
Whisper——部署fast-whisper中文语音识别模型
whisper:https://github.com/openai/whisper/tree/main 参考文章:Whisper OpenAI开源语音识别模型 环境配置 pip install faster-whisper transformer...
-
AI浪潮下程序员的提效神器-Athena编程助手(国产Copilot)
AI时代普通程序员的危机与机遇 作为一个十年开发经验的老兵,在初次接触ChatGPT时,主要感受就是:兴奋、震惊、担忧、恐惧。兴奋的是一个全新的AI时代即将来临;震惊的是它的推理及编码能力如此逆天;震惊之余就是担忧和恐惧,在这场AI革命中效率第一,低效就...
-
揭秘NVIDIA大模型推理框架:TensorRT-LLM
一、TensorRT-LLM 的产品定位 TensorRT-LLM 是 NVIDIA 用于做 LLM(Large Language Model)的可扩展推理方案。该方案是基于 TensorRT 深度学习编译框架来构建、编译并执行计算图,并借鉴了许多 Fa...