-
LlamaFactory可视化微调大模型 - 参数详解
LlamaFactory 前言 LLaMA Factory 是一个用于微调大型语言模型的强大工具,特别是针对 LLaMA 系列模型。 可以适应不同的模型架构和大小。 支持多种微调技术,如全参数微调、LoRA( Low-Rank Adaptation...
-
百度Ernie大模型是什么?
百度的Ernie模型(Enhanced Representation through kNowledge Integration)是一个基于Transformer架构的预训练语言模型。它由百度研发,旨在通过整合大规模语料和知识图谱来增强模型的语言理解和生成...
-
【一文读懂】Whisper 语音识别
Whisper 语音识别 Whisper 是由 OpenAI 开发的一款先进的语音识别模型,它能够将语音转换为文本。Whisper 是一个端到端的深度学习模型,具有多语言和多任务的能力,可以用于多种语音处理任务,包括语音转文本(transcription...
-
Whisper-CPP:CPU-AI语音识别的天才,CosyVoice - 阿里最新开源语音克隆、文本转语音项目 一键整合包下载,GPT-4o实时语音方案Livekit开源voice agent音视频
Whisper-CPP:CPU-AI语音识别的天才,CosyVoice - 阿里最新开源语音克隆、文本转语音项目 一键整合包下载,GPT-4o实时语音方案Livekit开源voice agent音视频。 使用Streamlit和wheaster.CP...
-
详聊LLaMa技术细节:LLaMA大模型是如何炼成的?
本文介绍来自 Meta AI 的 LLaMa 模型,类似于 OPT,也是一种完全开源的大语言模型。LLaMa 的参数量级从 7B 到 65B 大小不等,是在数万亿个 token 上面训练得到。值得一提的是,LLaMa 虽然只使用公共的数据集,依然取得了强悍...
-
Llama开源代码详细解读(2)
FlashAttention if is_flash_attn_available( : # 检查flashattention的可用性 from flash_attn import flash_attn_func, flash_attn_var...
-
沈义人谈iPhone 16:标准版升级明显 最重要的AI无法使用有些尴尬
快科技9月12日消息,今日晚间,沈义人发微博谈iPhone 16系列。 他说,iPhone 16标准版升级明显,Pro系列产品线又重回去了,这代最重要的AI无法使用有些尴尬,窄边框的视觉感受提升明显。 据了解,今年的iPhone 16、iPhone 16...
-
零刻首发AMD Zen5迷你机:旗舰锐龙AI 9 HX 370核显媲美RTX 3050
快科技9月11日消息,大家望眼欲穿的Zen5架构迷你机终于来了!零刻披露,将在中秋节后少量上线新款SER9”,但定价暂未公开,只知道初期确实会比较高。 配置方面,处理器是旗舰款锐龙AI 9 HX 370,12个Zen5 CPU核心最高频率5.1GHz,16...
-
iPhone16系列新增相机按钮AI功能 可根据个人喜好配置功能
苹果公司今日宣布推出新款智能手机iPhone16和iPhone16Plus,这两款设备专为搭载苹果智能技术而设计。 iPhone16配备了一个位于设备侧面的全新电容式按钮,名为“Camera Control”,旨在简化拍照和录像过程。此前,这一功能仅iP...
-
openai whisper使用
whisper使用 介绍 Whisper是一种通用的语音识别模型。它是在大量不同音频数据集上训练的,也是一个多任务模型,可以执行多语言语音识别、语音翻译和语言识别。 GitHub:https://github.com/openai/whisper...
-
曝iPhone 17 ProMax用石墨烯散热:独享12GB内存和增强AI性能
在智能手机市场,安卓手机已经普遍采用VC均热板技术,即使是价格亲民的手机也配备了这一散热解决方案,以提供更持久的高性能表现。相较之下,苹果公司对于散热系统一直较为保守,但iPhone15Pro系列的A17Pro处理器出现过热问题后,苹果开始重视散热设计。...
-
Stable Diffusion 使用详解(8)--- layer diffsuion
背景 layer diffusion 重点在 layer,顾名思义,就是分图层的概念,用过ps 的朋友再熟悉不过了。没使用过的,也没关系,其实很简单,本质就是各图层自身的编辑不会影响其他图层,这好比OS中运行了很多process,一个process 宕机...
-
智谱AI静悄悄的上线了一大波新模型,过年了,真的。
智谱29日下午在KDD2024上面,悄咪咪的上线了一堆的超级更新。 我真的服了,我本来今天从泰国回来,准备休一天假的,结果晚上又坐在电脑面前被迫营业。 他们总是每次,静悄悄的就把4个2给扔出去了。 嗯,就一场演讲了,发布了一堆新模型还有新功能,个顶个都很...
-
Llama 3模型:多维度损失函数铸就大语言模型新巅峰
在人工智能领域,大型语言模型(Large Language Models, LLMs 的发展如火如荼。作为这一领域的佼佼者,Llama系列模型一直备受关注。随着Llama 3的横空出世,其在模型架构、训练方法等方面的创新再次引发业界热议。本文将深入探讨Ll...
-
介绍 Whisper 模型
介绍 Whisper 模型 Whisper 是一个通用的语音识别模型。它在大规模多样化的音频数据集上进行训练,并且能够执行多任务处理,包括多语言语音识别、语音翻译和语言识别。 核心方法 Whisper 使用的是 Transformer 序列到序列...
-
AI设计自己,代码造物主已来!UBC华人一作首提ADAS,数学能力暴涨25.9%
【新智元导读】AI掌握自我设计的权力,将会怎样?最近,来自UBC等机构研究人员提出了「智能体自动化设计」系统,让元智能体使用搜索算法,自动构建强大的同类。 AI训AI已经老生常谈了,那么,AI能够设计出更强的AI吗? 这不,来自UBC等机构的研究人员提出了...
-
Fish Speech: 开源文本转语音技术(TTS)的新里程碑
简介 Fish Speech 是一个全新的文本转语音(TTS 解决方案,该项目由fishaudio开发。当前模型使用约十五万小时三语数据训练,对中文支持非常的完美。 能够熟练处理和生成中文、日语和英语的语音,语言处理能力接近人类水平,并且声音表现形式丰...
-
llama模型,nano
目录 llama模型 Llama模型性能评测 nano模型是什么 Gemini Nano模型 参数量 MMLU、GPQA、HumanEval 1. MMLU(Massive Multi-task Language Understanding)...
-
修图大师!华为Pura 70发布全新鸿蒙OS升级:AI扩图神器上线
快科技8月7日消息,日前,华为Pura 70发布鸿蒙OS 4.2.0.176版本升级,备受期待的AI扩图功能正式上线。 至此,华为Pura 70全系机型均已支持AI扩图功能。 据了解,AI扩图功能基于AI构图算法与图像生成式技术,可理解图片内容的细节和结构...
-
智能体类型探索:从专精到全能,AIGC的多样化应用之路
智能体(Agent)作为技术实现的核心组件之一,正以其独特的形态和功能深刻改变着我们的生活和工作方式。从专精一门的垂直智能体到通才全能的水平智能体,乃至两者的融合——混合智能体,每一种都扮演着不可替代的角色。本文将深入探讨这些智能体的定义、优缺点以及它们在...
-
SearchGPT完全指南:OpenAI官方AI搜索功能-使用方法教程与免费使用入口
探索SearchGPT能为你带来哪些改变 为什么选择SearchGPT? SearchGPT不仅仅是一款产品——它是一项革命性的技术,致力于结合AI模型的强大能力与网络信息,为用户提供快速、及时且来源清晰的答案。致力于提供快速直接地用网络最新信息回应用户...
-
一文看懂 LLaMA 2:原理与模型训练介绍
近年来,人工智能领域的进展使得自然语言处理(NLP)技术得到了显著提升。LLaMA 2 是一种先进的语言模型,它在处理语言生成和理解任务上表现出色。本文将介绍 LLaMA 2 的基本原理、模型结构以及训练方法,帮助你全面了解这一技术。 1. LLaMA...
-
【NI-DAQmx入门】数据采集方法
1.单点、有限、软件定时 应用:探测电路,排除故障,打开/关闭灯泡 最基本的模拟数据采集类型是单点的、有限的、软件定时的模拟输入。这意味着一个单一的模拟值被从ADC中检索出来并被带入操作系统的存储器中。这种形式的数据采集...
-
OpenAI掀小模型血战!苹果DCLM强势登场,碾压Mistral 7B全开源
【新智元导读】小模型时代来了?OpenAI带着GPT-4o mini首次入局小模型战场,Mistral AI、HuggingFace本周接连发布了小模型。如今,苹果也发布了70亿参数小模型DCLM,性能碾压Mistral-7B。 小模型的战场,打起来了!...
-
openai 开源模型Whisper语音转文本模型下载使用
Whisper Whisper 是一种通用语音识别模型。它是在大量不同音频数据集上进行训练的,也是一个多任务模型,可以执行多语言语音识别、语音翻译和语言识别。官方地址 https://github.com/openai/whisper 方法...
-
深入了解 Whisper 的架构、用法以及在语音识别领域的应用和性能特征
Whisper: 通用语音识别模型详解 概述 Whisper 是一个基于 Transformer 序列到序列模型的通用语音识别系统,经过训练可以执行多语种语音识别、语音翻译和语言识别任务。本文将深入介绍 Whisper 的工作原理、设置方法、可用模...
-
微软 Azure AI 已上线 OpenAI 最快的新模型 GPT-4o mini
微软 Azure AI 发布博客文章宣布,OpenAI 最快的模型 GPT-4o mini 现已在 Azure AI 上线。该模型支持文本处理,并承诺未来将支持图像、音频和视频。 图片来自 微软 Azure AI GPT-4o mini 比 GPT-3....
-
NLP主流大模型如GPT3/chatGPT/T5/PaLM/LLaMA/GLM的原理和差异有哪些-详细解读
自然语言处理(NLP)领域的多个大型语言模型(如GPT-3、ChatGPT、T5、PaLM、LLaMA和GLM)在结构和功能上有显著差异。以下是对这些模型的原理和差异的深入分析: GPT-3 (Generative Pre-trained Transf...
-
文心一言对GPT-4o的评价与分析
在人工智能的浪潮中,大型语言模型(LLM)的发展日新月异,为自然语言处理(NLP)领域带来了诸多突破。GPT系列模型作为其中的佼佼者,其每一次更新都牵动着业界的目光。近日,GPT-4o的发布更是引发了广泛的讨论。本文将从文心一言的视角出发,对GPT-4o进...
-
【AIGC 概念理解】Zero-Shot,One-Shot,Few-Shot,In-Context Learning,Tuning-Free/Training-Free/Inference-Only
在人工智能领域,特别是自然语言处理(NLP)和机器学习中,几个重要的概念正在推动研究和应用的前沿发展。以下是few-shot learning, zero-shot learning, in-context learning, tuning-free, t...
-
Whisper.cpp 0基础搭建音频文件转文字(Windows下C++)
介绍 whisper.cpp是一个开源项目,它是对OpenAI的Whisper模型的C/C++移植实现。 OpenAI的Whisper是一个自动语音识别(ASR)系统,经过大量多语言和多任务的监督数据训练,能够进行多语言语音识别、语音翻译和语言识别等任...
-
华为云发布盘古具身智能大模型:“夸父”人形机器人亮相
快科技6月21日消息,在今天的华为开发者大会上,华为云还发布了盘古大模型5.0,以及盘古具身智能大模型。 盘古具身智能大模型是人形机器人的灵魂,会上还展示了乐聚公司搭载该模型的夸父”人形机器人。 据介绍,盘古大模型能够让机器人完成10步以上的复杂任务规划...
-
Whisper-AT:抗噪语音识别模型(Whisper)实现通用音频事件标记(Audio Tagger)
本文介绍一个统一音频标记(Audio Tagger)和语音识别(ASR)的模型:Whisper-AT,通过冻结Whisper的主干,并在其之上训练一个轻量级的音频标记模型。Whisper-AT在额外计算成本不到1%的情况下,可以在单次前向传递...
-
MetaAI发布Llama 3模型:4000亿参数的AI新标杆
开源和闭源大战 前几天,百度李彦宏说闭源才有意义。 周鸿祎在哈佛论坛演讲上说,别听李彦宏胡说八道,没有开源就没有Linux,就没有今天的互联网,李彦宏自己都是借助开源的力量走到今天,现在反手说开源不好了?话音刚落,Meta这个奶妈就又开源了,我们又回...
-
LLaMA: Open and Efficient Foundation Language Models
*背景 已有的大模型越来越多的追求更大的参数量以实现更高的性能,但有研究表明更小的模型在更大的数据集上同样可以表现良好,因此本文旨在通过大量公开可用的数据集来训练一个语言模型同时取得SOTA的性能,模型大小从7B到65B,并且开源相关模型代码。(htt...
-
#RAG | AIGC # RAG召回率提升的方法以及优劣势
RAG(Retrieval-Augmented Generation)是一种结合了检索(Retrieval)和生成(Generation)的模型,用于增强大型语言模型(LLMs)的性能。召回率(Recall)是衡量RAG系统性能的关键指标之一,它表示系统能...
-
智谱AI 发布最新开源模型GLM-4-9B,通用能力超Llama-3-8B,多模态版本比肩GPT-4V
自 2023 年 3 月 14 日开源 ChatGLM-6B 以来,GLM 系列模型受到广泛关注和认可。特别是 ChatGLM3-6B 开源以后,开发者对智谱AI 第四代模型的开源充满期待。 为了使小模型(10B 以下)具备更加强大的能力,GLM 技术团...
-
技术前沿 |【大模型LLaMA:技术原理、优势特点及应用前景探讨】
大模型LLaMA:技术原理、优势特点及应用前景探讨 一、引言 二、大模型LLaMA的基本介绍 三、大模型LLaMA的优势特点 五、结论与展望 一、引言 随着人工智能技术的飞速发展,大模型已成为推动这一领域进步的重要力量。近年来...
-
【AIGC调研系列】浙大&蚂蚁OneKE大模型知识抽取框架是什么
浙大&蚂蚁OneKE大模型知识抽取框架是由蚂蚁集团和浙江大学联合研发的,它是一个具备中英文双语、多领域多任务泛化知识抽取能力的大模型知识抽取框架。OneKE不仅提供了完善的工具链支持,还以开源形式贡献给了OpenKG开放知识图谱社区[1][2][3...
-
【AIGC调研系列】FireCrawl工具是什么
FireCrawl是一个由Mendable.ai开发的项目,它能够抓取任何网站的所有可访问子页面,无需站点地图,并将这些内容转换为干净的Markdown格式[1]。这个工具支持复杂的任务,如处理反向代理、缓存、速率限制以及被JavaScript阻止的内容[...
-
初学者必看:AI绘画电脑配置指南
想要深入学习AI绘图,特别是Stable Diffusion和Midjourney这两个工具,配置一台合适的电脑确实至关重要。鉴于您当前对电脑配置有所困惑,为你解析下配置。 如果您有自己训练AI模型的需求,特别是针对Stable Diffusion这...
-
AI写作VS人类创作:五大对比揭秘
近些年,人工智能的发展迅速,在各行各业中发挥着重要作用。自然语言处理科技中的AI算法可生成优质文本,本篇文章从评估比较的角度展开,揭示人工智能和人类写作间的差别与优势。 1.速度与效率: 人工智能于文章创作领域展现出显著优势。相较于传统写作方式,AI位...
-
OpenAI 和谷歌 DeepMind已风险重重,13位硅谷AI大厂员工联名上信:我们需要对前沿AI发出警告的权利!
编辑 | 伊风出品 | 51CTO技术栈(微信号:blog51cto) 忍无可忍! 面对AI技术发展的各种风险隐患,这些前沿AI企业的一线员工再也不堪忍受任人捂嘴的现状了! 他们想要挣脱保密协议和公司报复的重重风险,获得对公众发出警告的权利。 昨...
-
whisper 的安装pycharm使用 以及出现的BUG(已经解决)!
whisper(语音识别)+ffmpeg介绍 Whisper是OpenAI于2022年9月份开源的通用的语音识别模型。它是在各种音频的大型数据集上训练的模型,也是一个可以执行多语言语音识别、语音翻译和语言识别的多任务模型。Whisper 是一它在不同音频...
-
通用大模型研究重点之五:llama family
LLAMA Family decoder-only类型 LLaMA(Large Language Model AI)在4月18日公布旗下最大模型LLAMA3,参数高达4000亿。目前meta已经开源了80亿和700亿版本模型,主要升级是多模态、长文本方...
-
超详细!AIGC面试系列 大模型进阶(2)
本期问题快览 1. 如何让大模型处理更长的文本? 2. 如果想要在某个模型基础上做全参数微调,究竟需要多少显存? 3. 什么是有监督微调SFT 4. SFT 指令微调数据如何构建? 5. 领域数据训练后,通用能力往往会有所下降,如何缓解模型遗忘...
-
OpenAI 开源的免费 AI 语音转文字工具 - Whisper,一步一步本地部署运行
Whisper 是 OpenAI 研发的一个通用的语音识别模型,可以把语音转为文本。它在大量多样化的音频数据集上进行训练,同时还是一个多任务模型,可以执行多语言语音识别、语音翻译和语言识别。 一、使用场景 语音 => 文字 是一个非常实用的功能,...
-
OpenAI正训练GPT-4的继任者,GPT-5或将带来三个重大升级
虽然 OpenAI 最近推出的模型 GPT-4o 在大型语言模型(LLM)领域有了重大突破,但该公司已经开始着手研发下一个旗舰模型 GPT-5。许多人在 GPT-4o 发布前期就期待着 OpenAI 推出备受瞩目的 GPT-5。为了澄清这种猜测,首席执行官...
-
Yolov10:详解、部署、应用一站式齐全!
一、前言 在过去的几年里,YOLOs由于其在计算成本和检测性能之间的有效平衡,已成为实时目标检测领域的主导范式。研究人员探索了YOLO的架构设计、优化目标、数据扩充策略等,取得了显著进展。然而,依赖非极大值抑制(NMS)进行后处理阻碍了YOLO的...
-
AIGC笔记--特征线性调制(FiLM)层的实现
目录 1--特征线性调制层的作用 2--特征线性调制层的实现 3--论文实例 1--特征线性调制层的作用 特征线性调制(Feature-wise Linear Modulation,FiLM)层是一种神经网络模块...