-
如何利用 Whisper 模型进行多语言语音识别的优化和定制?
关注我,持续分享逻辑思维&管理思维&面试题; 可提供大厂面试辅导、及定制化求职/在职/管理/架构辅导; 推荐专栏《10天学会使用asp.net编程AI大模型》,目前已完成所有内容。一顿烧烤不到的费用,让人能紧跟时代的浪潮。从普通网站,到公...
-
AIGC生成图像检测
AI生成图像技术的进展与影响 技术进步: 视觉质量与效率提升:近年来,AI生成图像在视觉质量、语义复杂度及运行时间效率上均实现了显著飞跃。 成本降低与普及:生成虚假图像所需的专业知识和成本大幅下降,促使在线图像生成平台(如Midjourney、DAL...
-
Datawhale X 魔搭 AI0夏令营 魔搭-AIGC文生图方向 Tsak 3 就要完成了...
本文为AI方向小白记录暑期参加魔搭夏令营-AIGC文生图方向的Task 01 报名赛事链接:可图Kolors-LoRA风格故事挑战赛_创新应用大赛_天池大赛-阿里云天池的赛制 欢迎所有小白,大神前来交流学习。 一. 初识C...
-
Datawhale X 魔搭 AI夏令营-AIGC文生图方向Task3笔记
#目录# 一、ComfyUI安装及实践 (一)什么是ComfyUI (二)ComfyUI核心模块 (三)ComfyUI图片生成流程 ...
-
Datawhale X 魔搭 第四期AI夏令营-AIGC方向 task3笔记
最后一个阶段——task3,本次AI夏令营终于也是要完结了,那么话不多说让我们直接进入笔记部分吧。本次的学习内容是:ComfyUI和Lora微调的讲解 Part 1:Hello ComfyUI 什么是ComfyUI呢?根据学习手册的介绍,它是主...
-
Datewhale×魔搭 AI夏令营第四期 AIGC方向Task3笔记
·Part1 ComfyUI 1.ComfyUI简介: GUI 是 "Graphical User Interface"(图形用户界面)的缩写。简单来说,GUI 就是你在电脑屏幕上看到的那种有图标、按钮和菜单的交互方式。 ComfyUI 是GUI的一...
-
ComfyUI系列教程(4)--ComfyUI基础节点LoRA
ComfyUI基础节点LoRA 2. ComfyUI基础节点 2.1. LoRA 2.1.1.LoRA原理 2.1.2.LCM-LoRA 2.1.3.ComfyUI示例 2. ComfyUI基础节点 本文主要介绍LoRA模...
-
火山引擎发布豆包视频生成PixelDance与Seaweed大模型功能介绍及免费使用指南 体验地址入口
豆包视频生成-PixelDance与Seaweed简介 豆包视频生成-PixelDance与Seaweed是火山引擎发布的两款大模型,专注于AI视频生成领域。该产品为企业市场提供了创新的视频生成解决方案,具有高度泛化能力和多镜头生成能力。 豆包视频生成...
-
“Datawhale X 魔搭 AI夏令营”-AIGC文生图方向Task3跑通指南
前言 从零入门AI生图原理&实践 是 Datawhale 2024 年 AI 夏令营第四期的学习活动(“AIGC”方向),基于魔搭社区“可图Kolors-LoRA风格故事挑战赛”开展的实践学习。 第四期学习接近尾声很感谢Datawhale给我提...
-
Datawhale X 魔搭 AI夏令营 - AIGC文生图方向 task03笔记
系列文章目录 Datawhale AI夏令营第四期魔搭- AIGC文生图方向 task01笔记-CSDN博客 Datawhale X 魔搭 AI夏令营 - AIGC文生图方向 task02笔记-CSDN博客 目录 前言 一、comf...
-
本地搭建 Whisper 语音识别模型实现实时语音识别研究
目录 摘要 关键词 1. 引言 2. Whisper 模型简介 3. 环境准备 4. 系统架构与实现 4.1 模型加载 4.2 实时音频输入处理 4.3 实时转录处理 4.4 程序实现的框架 4.5 代码实现 5. 实验与结果 6...
-
新范式:AIGC推动的数据要素产业价值促进创新
引言 大模型的发展与数据要素的价值创造互为因果,LLM正推动着数据要素以“激发AGI”的全新范式创造价值。如何有效地整合规模化、高质量的数据以用于大型模型的训练,不仅是推进大模型发展的窗口,也将成为进一步发掘数据要素潜在价值的关键动力。遵循技术发展的...
-
揭秘AI世界:一网打尽大模型、AIGC等热门概念,快速提升你的学习力!
AI(人工智能) 人工智能 (AI 是对人类智慧行为的仿真。它涵盖了各种技术和领域,目的是让计算机模仿、延伸甚至超越人类智能。 本质就是帮人工作做事的工具。 AGI(通用人工智能) AGI,全称为Artificial General Inte...
-
AIGC文生图 ComfyUI介绍与实践+Lora微调-Task3 Datawhale X 魔搭 AI夏令营第四期
目录 概要 ComfyUI介绍 ComfyUI实践 ComfyUI学习资源推荐 Lora微调 Lora数据库推荐 问题解决 说在最后 概要 今天的任务是了解微调的基本原理,然后会对微调的各种参数有一个更加清楚的阐释,来实现...
-
#Datawhale X 魔搭 AI 夏令营# AIGC文生图 Task2
1. 什么是AI生图 一般来说,AI生图模型属于多模态机器学习模型,通过海量的图库和文本描述的深度神经网络学习,最终的目标是可以根据输入的指示(不管是文本还是图片还是任何 生成符合语义的图片。 通俗来说,AI生图模型获得图片生成能力主要是通过 学习 图...
-
一文彻底搞懂 Fine-tuning - 超参数(Hyperparameter)
最近这一两周看到不少互联网公司都已经开始秋招提前批了。不同以往的是,当前职场环境已不再是那个双向奔赴时代了。求职者在变多,HC 在变少,岗位要求还更高了。 最近,我们又陆续整理了很多大厂的面试题,帮助一些球友解惑答疑,分享技术面试中的那些弯弯绕绕。 《...
-
Datawhale X 魔搭 第四期 AIGC文生图方向-Task03笔记
Hello,各位小伙伴们,继上一次我们精读并跑通了baseline2后,我们对AIGC文生图方向又有了更进一步的了解。今天呢我们实现AIGC方向的进阶上分,还在犹豫什么,还不快快行动起来~ 好,话不多说,今天我们就来聊聊ComfyUI和Lora微调吧~...
-
Datawhale AI夏令营第四期 AIGC文生图方向 Task3学习笔记
经过前两个task的学习,对于文生图的基本原理,技术支持,模型微调,工作流程等有了一定的了解,尤其是在prompt工程上面,提示词的质量决定着生成图像的流畅性和观赏性,AI大模型在这一方面为学习者们提供了非常大的帮助,通过大模型生成和优化提示词,能实现学习...
-
再融近5亿!清华系AI创业新势力,成最吸金“算力运营商”
一笔近5个亿新融资,投向AI大模型领域。 量子位独家获悉,清华系AI创业公司无问芯穹完成了近5亿元A轮融资。加码的股东阵容很全、很豪华: 一口气新增15家股东,涵盖北京上海等地的国资/地方基金,顺为资本/达晨财智等市场化头部VC,还有券商直投和产业CVC。...
-
Datawhale X 魔搭 AI夏令营第四期AIGC方向笔记task3
part1:工具初探一ComfyUI应用场景探索 初识ComfyUI 什么是ComfyUI GUI 是 "Graphical User Interface"(图形用户界面)的缩写。简单来说,GUI 就是你在电脑屏幕上看到的那种有图标、按钮和菜单的...
-
让AI更懂物理世界,人大北邮上海AI Lab等提出多模态分割新方法
让AI像人类一样借助多模态线索定位感兴趣的物体,有新招了! 来自人大高瓴GeWu-Lab、北邮、上海AI Lab等机构的研究人员提出Ref-AVS(Refer and Segment Objects in Audio-Visual Scenes,视听场景下...
-
AIGC大模型产品经理高频面试大揭秘‼️
近期有十几个学生在面试大模型产品经理(薪资还可以,详情见下图),根据他们面试(包括1-4面)中出现高频大于3次的问题汇总如下,一共32道题目(有答案)。 29.讲讲T5和Bart的区别,讲讲Bart的DAE任务 T5(Text-to-Text Tr...
-
精通 Stable Diffusion 调优秘籍
一、Stable Diffusion 调优概览 Stable Diffusion 作为一款强大的 AI 绘画工具,其调优具有至关重要的意义。通过合理的调优,可以显著提升图像生成的质量、速度和准确性,满足用户更加多样化和精细化的需求。 调优主要涵盖了...
-
Datawhale AI夏令营第四期魔塔-AIGC文生图方向 task03笔记
目录 一、工具初探一ComfyUI应用场景探索 1.初识ComfyUI 2.20分钟速通安装ComfyUI 3.浅尝ComfyUI工作流 二、Lora微调 1.Lora简介 2.Lora详解 一、工具初探一ComfyUI应用场景...
-
LORA模型在Stable Diffusion中的注意力机制优化
LORA模型在Stable Diffusion中的注意力机制优化 引言 1.1 Stable Diffusion在生成模型领域的地位和作用 1.2 介绍LORA模型及其在微调预训练模型时的效率和灵活性 1.3 强调注意力机制在LORA模型优化...
-
Datawhale X 魔搭 AI夏令营 AIGC人物风格赛
工具初探一ComfyUI应用场景探索 什么是ComfyUI GUI 是 "Graphical User Interface"(图形用户界面)的缩写。简单来说,GUI 就是你在电脑屏幕上看到的那种有图标、按钮和菜单的交互方式。 ComfyUI 是GU...
-
Datawhale X 魔搭 AI夏令营 第四期 AIGC task3
part 1:认识comfyUI 1.初识ComfyUI 1.1什么是Comfy UI GUI是"Graphical User Interface"(图形用户界面)的缩写。简单来说,GUI 就是你在电脑屏幕上看到的那种有图标、按钮和菜单的交互方式。...
-
GOLLIE : ANNOTATION GUIDELINES IMPROVE ZERO-SHOT INFORMATION-EXTRACTION
文章目录 题目 摘要 引言 方法 实验 消融研究 题目 Techgpt-2.0:解决知识图谱构建任务的大型语言模型项目 论文地址:https://arxiv.org/abs/2310.03668 摘要 大...
-
Datawhale X 魔搭 AI夏令营 第四期 魔搭-AIGC方向 Task03笔记
从零入门AI生图原理&实践 是 Datawhale 2024 年 AI 夏令营第四期的学习活动(“AIGC”方向),基于魔搭社区“可图Kolors-LoRA风格故事挑战赛”开展的实践学习。 Datawhale官方的速通教程链接: Task 1...
-
国产AI机器人好超前…弹琴泡茶打咏春,还能撸猫??
什么水平,让海外最火AI机器人Figure的CEO都第一时间关注? 国产人形机器人大秀肌肉,最新技能居然是弹琴泡功夫茶……和颠勺?! 手握琴竹,精准轻巧敲击每根琴弦,演奏动听音乐。 熟练泡一壶功夫茶,十几道工序、数个杯壶轻松拿捏。 搞定一份香喷喷的华夫饼...
-
面完 AIGC 大模型算法岗,心态崩了。。。
大家好,今天我们继续聊聊 AI 科技圈发生的那些事。 内容包括:AI 科技圈最新动态和最新面试题总结。 Meta 推新一代 SAM 2 图像识别再进化!Meta 推新一代SAM 2 官方链接:https://ai.meta.com/blog/se...
-
AIGC前沿 | LivePortrait
0. 资源链接 论文超链接: LivePortrait 项目: https://github.com/KwaiVGI/LivePortrait 1. 背景动机 现有AIGC存在的问题 随着智能手机和其他录制设备的普及,人们越来越频繁地...
-
Exponential Moving Average (EMA) in Stable Diffusion
1.Moving Average in Stable Diffusion (SMA&EMA 1.Moving average 2.移动平均值 3.How We Trained Stable Diffusion for Less than $5...
-
阿里开源新语音模型,比OpenAI的Whisper更好!
阿里巴巴在Qwen-Audio基础之上,开源了最新语音模型Qwen2-Audio。 Qwen2-Audio一共有基础和指令微调两个版本,支持使用语音向音频模型进行提问并识别内容以及语音分析。 例如,让一位女生说一段话,然后识别她的年纪或解读她的心情;发布一...
-
谷歌发布大模型数据筛选方法:效率提升13倍,算力降低10倍
随着GPT-4o、Gemini等多模态大模型的出现,对训练数据的需求呈指数级上升。无论是自然语言文本理解、计算机视觉还是语音识别,使用精心标注的数据集能带来显著的性能提升,同时大幅减少所需的训练数据量。 但目前多数模型的数据处理流程严重依赖于人工筛选,不仅...
-
从炒菜到缝针!斯坦福炒虾团队打造自主「AI达芬奇」,苦练神指当外科医生
【新智元导读】斯坦福炒虾机器人作者,又出新作了!通过模仿学习,达芬奇机器人学会了自己做「手术」——提起组织、拾取针头、缝合打结。最重要的是,以上动作全部都是它自主完成的。 斯坦福炒虾机器人作者,又出新作了。 这次,机器人不是给我们炒饭了,而是给我们做外科手...
-
AIGC学习笔记—LLM(前言)
大语言模型本身我不是很了解,但是掌握一些基础的知识点,由于要准备某个公司的二面,所以浅学一下这个技术,也是边摸索边学习...... 首先,我先简单的解释一下大模型,大模型是指具有大规模参数和复杂计算结构的机器学习模型,通常由深度神经网络构建而成,拥有数十...
-
基于LORA的Stable Diffusion模型在增强学习中的应用
基于LORA的Stable Diffusion模型在增强学习中的应用 @[toc](基于LORA的Stable Diffusion模型在增强学习中的应用 引言:探索未知的AI前沿 揭秘LORA:轻量化的力量 Stable Diff...
-
【八股文】算法岗位八股文、深度学习、AIGC八股文面试经验(一)
1. 请解释一下Batch Normalization的原理及其在训练深度神经网络中的作用。 Batch Normalization(批归一化)是一种在训练深度神经网络时常用的技术,旨在提高训练速度、稳定性和性能。 2. 在图像预处理过程中,如何选择合适...
-
提示词用上“过去式“,秒破GPT4o等六大模型安全限制!中文语境也好使
只要在提示词中把时间设定成过去,就能轻松突破大模型的安全防线。 而且对GPT-4o尤其有效,原本只有1%的攻击成功率直接飙到88%,几乎是“有求必应”。 有网友看了后直言,这简直是有史以来最简单的大模型越狱方式。 来自洛桑联邦理工学院的一篇最新论文,揭开...
-
【AIGC调研系列】AIGC赋能测试用例生成的案例
基于功能需求规格说明的测试用例自动生成方法研究表明,传统的测试用例生成方法存在一些局限性,如需要额外的建模成本和缺少测试输入数据等问题[2]。这为AIGC在测试用例生成中的应用提供了背景。AIGC技术,特别是像ChatGPT这样的模型,能够理解和生成自然语...
-
山东大学项目实训(十六):基于LLaMA-Factory的微调模型评估和测试
在LLaMA-Factory的Evaluate & Predict界面进行评测 原始模型评测 微调后模型评测 可以看到,微调之后的模型在各个指标上有了显著提升 在完成大型语言模型(如 ChatGLM)的微调后,对模型进行全面评估...
-
基于MindSpore实现BERT对话情绪识别
本文分享自华为云社区《【昇思25天学习打卡营打卡指南-第二十四天】基于 MindSpore 实现 BERT 对话情绪识别》,作者:JeffDing。 模型简介 BERT全称是来自变换器的双向编码器表征量(Bidirectional Encoder...
-
Diffusion【1】:SDSeg——基于Stable Diffusion的单步扩散分割!
文章目录 前言 Abstract Introduction Methods Latent Estimation Concatenate Latent Fusion Trainable Vision Encoder Experiment D...
-
6700万参数比肩万亿巨兽GPT-4!微软MIT等联手破解Transformer推理密码
「因果推理」绝对是当前GenAI热潮下的小众领域,但是它有一个大佬级的坚定支持者——Yann LeCun。 他在推特上的日常操作之一,就是炮轰Sora等生成模型,并为自己坚信的因果推理领域摇旗呐喊。 甚至,早在2019年VentureBeat的采访中,他...
-
调研分析:LLama大模型
1. 引言 在当前的自然语言处理(NLP)研究中,大规模预训练模型如BERT、GPT-3和RoBERTa已经展示了其卓越的性能和广泛的应用。随着技术的发展,新的模型不断涌现,推动了NLP领域的持续进步。本文将聚焦于LLama模型,分析其结构、预训练策略、优...
-
LLaMA-Adapter:零初始注意机制的语言模型高效微调
23年6月来自上海AI实验室,香港中文大学和UCLA的论文“LLaMA-Adapter: Efficient Fine-tuning of Language Models with Zero-init Attention“。 LLaMA-Adapter是...
-
AIGC 011-SAM第一个图像分割大模型-分割一切!
AIGC 011-SAM第一个图像分割大模型-分割一切! 文章目录 0 论文工作 1论文方法 2 效果 0 论文工作 这篇论文介绍了 Segment Anything (SA 项目,这是一个全新的图像分割任务、模...
-
AIGC工具的使用测评
一、引言 随着人工智能技术的飞速发展,AIGC(Artificial Intelligence Generated Content)工具作为生成式人工智能的重要应用之一,受到了广泛关注。本次测评旨在详细评估AIGC工具的功能、性能、使用体验及其在实际应用...
-
AIGC入门(一) 从零开始搭建Transformer!(上)
前言 我记得曾经看过一篇综述,综述里曾这样讲过: 多模态使用Transformer作为基石模型的一个原因之一,就是因为它能够很好地统一视觉(ViT、DiT)和文本,并且无限制地扩大其参数。这是一个在工程上很有作用也很有实际意义的事情。 笔者...