-
使用 CTranslate2 实现 Faster Whisper 的加速转录
使用 CTranslate2 实现 Faster Whisper 的加速转录 近年来,语音识别技术得到了快速发展。OpenAI 的 Whisper 模型作为其中的佼佼者,以其高精度和强大的性能广受欢迎。然而,其较长的推理时间和高内存消耗也成为了限制其应...
-
推荐:Whisper Auto Captions - 创新的Final Cut Pro自动字幕工具
推荐:Whisper Auto Captions - 创新的Final Cut Pro自动字幕工具 项目介绍 Whisper Auto Captions 是一款基于OpenAI的Whisper模型打造的智能字幕插件,专为Final Cut Pro用...
-
webui automatic1111上可以跑stable diffusion 3的方法
stable diffusion 3 可以简单句子生成高质量图形,可以生成准确的文字,甚至可以支持中文。 stable diffusion 3 最初只支持API调用,最后把模型也完全开放了。Comfyui因为天生架构优势,第一时间跑起来了。既支持远程AP...
-
【AI绘画教程】StableDiffusion真实系模型推荐,搭配ADetailer人脸修复插件,轻松生成真实故事大场景AI人像,让你的SD好用100倍!
大家好,我是画画小强 在图像生成领域,真实系模型非常重要,它们可以给我们生成高度逼真的图像,可以用于各种创意项目、广告设计和影视制作。本期教程我们将围绕几款真实系模型和Lora模型来展开。 1、真实系模型:MajicMix Realistic(麦橘写实...
-
Midjourney如何实现人物角色的一致性?
在数字艺术和AI生成媒体的发展中,保持人物一致性是一个巨大的挑战。Midjourney作为一个先进的图像生成平台,它如何确保在连续的图像生成过程中,同一人物能保持一致的外观和特征呢?本文将深入探讨Midjourney如何通过技术手段实现这一点。 一、两个...
-
荣耀最强旗舰!荣耀Magic7系列超前预热:主打AI
快科技9月7日消息,在柏林IFA2024上,荣耀预告荣耀Magic7系列将会首发搭载荣耀AI Agent,而且在AI体验上有着比较大的提升。 荣耀CEO赵明透露,荣耀AI Agent具有四个核心能力,自然语义理解和计算机视觉、用户行为习惯学习和场景环境感知...
-
亮相2024世界人工智能大会,扫描全能王AIGC“黑科技”助力敦煌遗书数字化修复
7月4日,2024年世界人工智能大会(简称“大会”)在上海举行。这次这场科技与创新的盛会上,一张古朴、典雅的卷轴吸引了众人的目光。这张被修复的卷轴脱胎于敦煌遗书系列古籍,在被机器拍摄扫描后,卷轴上脏污、笔画残缺、模糊的文字被准确定位,缺失的文字缓缓浮现,犹...
-
RAG 的优化进阶与引入 Reranker
引言 在简单的 RAG 系统中,通过结合检索和生成技术,已经可以显著提升了对复杂查询的响应质量。Reranker 作为 RAG 系统中一个关键的进阶组件,通过对原 RAG 中检索到的内容进行重新组织,可以进一步提高系统的准确性。 本文将深入探讨 RA...
-
OpenAI宣布启动GPT Next计划:AI性能有望提高100倍
快科技9月4日消息,日前,OpenAI Japan出席了KDDI峰会,介绍了公司即将推出的下一代AI模型,并宣布将在2024年启动GPT Next计划。 OpenAI Japan首席执行官长崎忠雄(Tadao Nagasaki)长崎忠雄在峰会上强调了AI技...
-
WhisperX:革命性的自动语音识别工具
WhisperX:革命性的自动语音识别工具 whisperXm-bain/whisperX: 是一个用于实现语音识别和语音合成的 JavaScript 库。适合在需要进行语音识别和语音合成的网页中使用。特点是提供了一种简单、易用的 API,支持多种语音...
-
让AI更懂物理世界,人大北邮上海AI Lab等提出多模态分割新方法
让AI像人类一样借助多模态线索定位感兴趣的物体,有新招了! 来自人大高瓴GeWu-Lab、北邮、上海AI Lab等机构的研究人员提出Ref-AVS(Refer and Segment Objects in Audio-Visual Scenes,视听场景下...
-
探索音频转文字的高效之道:whisper-rs项目解析与应用
探索音频转文字的高效之道:whisper-rs项目解析与应用 whisper-rsRust bindings to https://github.com/ggerganov/whisper.cpp项目地址:https://gitcode.com/gh_...
-
ComfyUl提示词技巧
ComfyUI prompt技巧 Prompt 输入不支持中文,建议使用翻译插件或者使用翻译软件来进行翻译。 翻译插件推荐:沙拉查词(opens in a new tab ?prompt 书写有什么技巧?要如何写AI绘图的prompt 在Comfy...
-
ComfyUI插件:ComfyUI layer style 节点(三)
前言: 学习ComfyUI是一场持久战,而ComfyUI layer style 是一组专为图片设计制作且集成了Photoshop功能的强大节点。该节点几乎将PhotoShop的全部功能迁移到ComfyUI,诸如提供仿照Adobe Photoshop的图...
-
AI二创「黑神话」点燃全网!爆改二郎神,送自家狗子一键「成精」
【新智元导读】国产3A顶流《黑神话·悟空》,与AI联动起来了!网友纷纷开启二创,有人用AI续写神话,有人把自家二哈变成了精怪,甚至还有人自制了桌面壁纸! 全球玩家鏖战《黑神话·悟空》! 已经有打通关的玩家了,我不羡慕,因为通关后的空虚寂寞马上就会找上你们。...
-
本地部署,Whisper: 开源语音识别模型
目录 简介 特点 应用 使用方法 总结 GitHub - openai/whisper: Robust Speech Recognition via Large-Scale Weak SupervisionRobust Speech Reco...
-
Midjourney提示词-动物系列-38
a Tiny delightful Anthropomorphic adventurer cat, in intricate detailed leather armor, standing in the forest, soft fairy lighti...
-
国产AI机器人好超前…弹琴泡茶打咏春,还能撸猫??
什么水平,让海外最火AI机器人Figure的CEO都第一时间关注? 国产人形机器人大秀肌肉,最新技能居然是弹琴泡功夫茶……和颠勺?! 手握琴竹,精准轻巧敲击每根琴弦,演奏动听音乐。 熟练泡一壶功夫茶,十几道工序、数个杯壶轻松拿捏。 搞定一份香喷喷的华夫饼...
-
LLama.cpp轻量化模型部署及量化
模型文件下载 首先说一下用到的模型,这次用的是Llama3-8B-Chinese-Chat-GGUF-8bit模型,想要快速的从huggingface下载模型可以参考我的另一篇博文。 从huggingface更快的下载模型 1.准备模型文件...
-
SenseVoice多语言语音理解模型之最新部署落地经验
SenseVoice是阿里云通义实验室开发的一款多语言音频基础模型,专注于高精度多语言语音识别、情感辨识和音频事件检测。 SenseVoice支持超过50种语言的识别,并且在中文和粤语上的识别效果优于Whisper模型,提升了50%以上。 SenseV...
-
Stable Diffusion 模型下载:epiCPhotoGasm(真实、照片)
本文收录于《AI绘画从入门到精通》专栏,专栏总目录:点这里,订阅后可阅读专栏内所有文章。 文章目录 模型介绍 生成案例 案例一 案例二 案例三 案例四 案例五 案例六...
-
Midjourney提示词-动物系列-16
A husky with the shape of tiger stripes on its body.UHD,4k render --ar 9:16 --s 5000 --testp --upbeta --upbeta Tiny cute and...
-
whisper-api语音识别语音翻译高性能兼容openai接口协议的开源项目
whisper-api 介绍 使用openai的开源项目winsper语音识别开源模型封装成openai chatgpt兼容接口 软件架构 使用uvicorn、fastapi、openai-whisper等开源库实现高性能接口 更多介绍 h...
-
每日AIGC最新进展(51):昆仑万维震撼发布16B DiT-MoE图像生成模型、东北大学提出使用去噪神经权重进行高效训练、美团提出视频扩散模型量化方法
Diffusion Models专栏文章汇总:入门与实战 Scaling Diffusion Transformers to 16 Billion Parameters 本文介绍了DiT-MoE,一种可扩展的稀疏变分Transformer模型,它在...
-
开源语音转文本 Speech-to-Text 大模型实战之Whisper篇
前言 随着深度学习技术的不断发展,语音转文本(Speech-to-Text,STT)技术取得了显著的进步。开源社区涌现了许多高效的STT大模型,为开发者提供了强大的工具。本文将以OpenAI推出的Whisper模型为例,详细介绍如何使用该模型进行语音转文...
-
stable diffusion 插件篇(1)
前言: 首先要讲解的第一个超强插件是controlnet,跟着一起学习的小伙伴应该知道,如果仅是仅凭文生图或者是图生图的功能,想要生成的图片如自己所愿是比较有困难的,但是在sd里面,插件controlnet是可以做到帮助我们控制生图的,并且掌握contr...
-
中国首个AI厨王诞生,苦练7吨菜通过「图灵测试」!网友:机器人都比我会做饭
最近,一位AI炒菜机器人不仅向人类大厨发起了PK,而且还通过了「图灵测试」:根本吃不出来是AI机器人炒的!而在这背后,竟然是1.5个亿的投入和近7吨菜的训练。 你敢相信么?机器人,正式和湘菜大厨「叫板」了! 最近,这位名叫「美膳狮」的AI炒菜机器人,向湘菜...
-
AI真·炼丹:整整14天,无需人类参与
现在制药这事,人类要靠边站了。 坐标苏州,这是一个1600平的制药实验室,它的“打开方式”是这样的: 门口,没有人。 走廊,没有人。 实验室,也没有人。 相比以往充斥着科学家、研究员的实验室,它更多的是把机械臂和AI系统塞了进去,主打的就是一个全自动...
-
【AI绘画工具介绍】
AI绘画工具介绍 近年来,人工智能技术突飞猛进,AI绘画工具也应运而生,为艺术创作领域带来了前所未有的革新。这些工具以其强大的功能和易用性,吸引了越来越多的艺术家、设计师和爱好者,并正在改变着人们对艺术创作的认知和实践方式。 一、AI绘画工具的分类...
-
4K版《A计划》北影节全球首映,AIGC修复看清40多年前的武打动作
4月18日,第十四届北京国际电影节开幕,全新4K版《A计划》《卖身契》在“致敬·修复”单元全球首映。本次展映的4K版本,由中国电影资料馆、抖音、火山引擎共同发起的“经典香港电影修复计划”支持修复。 4K版《A计划》《卖身契》电影海报...
-
【Stable Diffusion】插件 ADetailer,修脸修手无敌
文章目录 概要 整体架构流程 技术名词解释 技术细节 小结 概要 正常显卡一次生成高精度图片速度超慢,大多不建议这样,那么在低分辨率绘制全身图像时,面部和手部一直是一个难以处理的问题。这个面部修复的扩展可以完美修复面部...
-
科技爱好者纷纷上场,AI预测足球赛事又现新方法
2024年欧洲杯比赛正酣。在赛场之外,一些围绕观赛的自发科技创新也开始涌现,成为了一道独特的风景。 近日,据TuGraph图计算官方微信,其创新小组研发了一项融合图计算、大模型等技术的足球赛事分析工具“智猜足球”,旨在探索新兴人工智能技术在体育赛事应用的可...
-
LightGBM实战+随机搜索调参:准确率96.67%
大家好,我是Peter~ 今天给大家分享一下树模型的经典算法:LightGBM,介绍算法产生的背景、原理和特点,最后提供一个基于LightGBM和随机搜索调优的案例。 LightGBM算法 在机器学习领域,梯度提升机(Gradient Boosting...
-
Neuralink劲敌破纪录,4096个电极微创植入人脑!脑机接口有望进入「5G」时代
提到脑机接口,你第一时间想到的肯定是Elon Musk创建的公司Neuralink,他们在今年1月刚刚将首个芯片植入人脑。 但Neuralink绝不是唯一发力脑机接口的公司。 5月28日,Precision Neuroscience发布公告,他们成功在人...
-
MonoDETRNext:下一代准确高效的单目3D检测方法!
本文经自动驾驶之心公众号授权转载,转载请联系出处。 写在前面&笔者的个人理解 基于单目视觉的3D目标检测在各个领域都至关重要,但现有方法在准确性和计算效率方面面临着重大挑战。在2D检测和深度估计的成功策略的基础上,本文提出了MonoDETRNe...
-
清华「天眸芯」登Nature封面:全球首款类脑互补视觉芯片
在开放世界中,智能系统不仅要处理庞大的数据量,还需要应对各种「长尾问题」,如自动驾驶中面临的突发危险、出入隧道的剧烈光线变化、夜间强闪光干扰等。在这类任务上,传统视觉感知芯片由于受到「功耗墙」和「带宽墙」的限制,往往面临失真、失效或高延迟的问题,严重影响...
-
LightGBM算法背景、原理、特点+Python实战案例
大家好,我是Peter~ 今天给大家分享一下树模型的经典算法:LightGBM,介绍算法产生的背景、原理和特点,最后提供一个基于LightGBM和随机搜索调优的案例。 LightGBM算法 在机器学习领域,梯度提升机(Gradient Boosting...
-
用于精确目标检测的多网格冗余边界框标注
本文经计算机视觉研究院公众号授权转载,转载请联系出处。 一、前言 现在领先的目标检测器是从基于深度CNN的主干分类器网络重新调整用途的两级或单级网络。YOLOv3就是这样一种众所周知的最先进的单级检测器,它接收输入图像并将其划分为大小相等的网格矩阵。具...
-
目标检测新SOTA,端侧实时识别,沈向洋罕见转发点赞
目标检测领域,迎来了新进展—— Grounding DINO 1.5,IDEA研究院团队出品,在端侧就可实现实时识别。 这一进展获得AI大佬沈向洋转发,他一般都是一年一转的节奏。 此次发布主要有两个版本:Pro和Edge。Pro版更强,Edge版更快。...
-
走进采集器:技术革新的数据收集利器
在当今信息化时代,数据正变得越来越重要,成为了各个行业发展的关键因素。而采集器,作为数据收集的利器,近年来在技术革新的推动下,已逐渐走入了人们的视线,并且扮演着越来越重要的角色。本文将对采集器进行全方位的探讨,从定义、技术原理到应用领域,带领读者一起走进采...
-
自动驾驶第一性之纯视觉静态重建
本文经自动驾驶之心公众号授权转载,转载请联系出处。 纯视觉的标注方案,主要是利用视觉加上一些GPS、IMU和轮速计传感器的数据进行动静态标注。当然面向量产场景的话,不一定非要是纯视觉,有一些量产的车辆里面,会有像固态雷达(AT128)这样的传感器。如...
-
高德将落地首个时空智能城市:开放云睿大模型
快科技5月20日消息,据媒体报道,高德地图旗下高德云图宣布将逐步开放云睿时空融合大模型和云境AI三维重建平台,打造时空智能体应用生态。 据悉,高德云睿时空大模型是业界首个以地图点、线、面、体等时空类数据为训练基础的大模型。它能够融合交通、零售等多行业的时空...
-
AI新动能: 数字人三大特征八大场景
随着元宇宙概念的火爆也一同带动了数字人市场的快速升温,据计算全球平均每天都会诞生一个数字人。数字人正成为一股潮流,涌入人们的日常生活——会“捉妖”的虚拟美妆达人柳夜熙,抖音出道三天点赞即超百万,一夜之间成为国内虚拟偶像界的“顶流”;在江苏卫视跨年演唱会上...
-
大模型卷爆数字人:一句话5分钟实现定制,跳舞主持带货都能hold住
最快5分钟,打造一个直接上岗工作的3D数字人。 这是大模型给数字人领域带来的最新震撼。 就像这样,一句话描述需求: 生成的数字人直接就能进驻直播间当主播。 跳起女团舞也不在话下。 整个制作过程中,想到什么说什么就行,大模型都能自动拆解需求,瞬间get...
-
爆火后反转?「一夜干掉MLP」的KAN:其实我也是MLP
多层感知器(MLP),也被称为全连接前馈神经网络,是当今深度学习模型的基础构建块。MLP 的重要性无论怎样强调都不为过,因为它们是机器学习中用于逼近非线性函数的默认方法。 但是最近,来自 MIT 等机构的研究者提出了一种非常有潜力的替代方法 ——KAN。...
-
Gaussian-LIC:首个多传感器融合3DGS-SLAM系统(浙大&TUM)
本文经自动驾驶之心公众号授权转载,转载请联系出处。 多传感器与3DGS的结合 NeRF-based SLAM的隐式神经表示法需要基于3D空间中的采样进行计算密集型的体积渲染,从而削弱了SLAM应用所必需的实时能力。3DGS以其快速的渲染速度和优越的视觉...
-
Llama 3低比特量化性能下降显著!全面评估结果来了 | 港大&北航&ETH
大模型力大砖飞,让LLaMA3演绎出了新高度: 超15T Token数据上的超大规模预训练,既实现了令人印象深刻的性能提升,也因远超Chinchilla推荐量再次引爆开源社区讨论。 与此同时,在实际应用层面上,另一个热点话题也浮出水面: 资源有限场景下...
-
量化、剪枝、蒸馏,这些大模型黑话到底说了些啥?
量化、剪枝、蒸馏,如果你经常关注大语言模型,一定会看到这几个词,单看这几个字,我们很难理解它们都干了些什么,但是这几个词对于现阶段的大语言模型发展特别重要。这篇文章就带大家来认识认识它们,理解其中的原理。 模型压缩 量化、剪枝、蒸馏,其实是通用的神经网络...
-
AI日报:Model3模型重磅发布;阿里云全面支持Llama 3训练推理;Gorq推出iOS应用;批量去水印工具VSR来了
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。 新鲜AI产品点击了解:https://top.aibase.com/ 1、Blockade Labs发布...
-
CVPR 2024 | 巨幅提升24%!LiDAR4D会是LiDAR重建的答案么?
本文经自动驾驶之心公众号授权转载,转载请联系出处。 写在前面&笔者的个人理解 尽管神经辐射场(NeRFs)在图像新视角合成(NVS)方面取得了成功,但激光雷达NVS的发展却相对缓慢。之前的方法follow图像的pipeline,但忽略了激光雷达...