-
开源项目教程:Whisper.Unity 深度语音转文字整合指南
开源项目教程:Whisper.Unity 深度语音转文字整合指南 whisper.unityRunning speech to text model (whisper.cpp in Unity3d on your local machine.项目地址...
-
最强终端部署的多模态MiniCPM-V模型部署分享(不看后悔)
MiniCPM-V模型是一个强大的端侧多模态大语言模型,专为高效的终端部署而设计。 目前该模型有MiniCPM-V 1.0、MiniCPM-V 2.0和MiniCPM-Llama3-V 2.5版本。 MiniCPM-V 1.0模型:该模型系列第一个版本...
-
AI大模型学习笔记之四:生成式人工智能(AIGC)是如何工作的?
OpenAI 发布 ChatGPT 已经1年多了,生成式人工智能(AIGC)也已经广为人知,我们常常津津乐道于 ChatGPT 和 Claude 这样的人工智能系统能够神奇地生成文本与我们对话,并且能够记忆上下文情境。 Midjunery和DALL·...
-
吉他摇滚、电子音乐都能搞定,Meta开源音频生成新模型MAGNeT,非自回归7倍提速
在文本生成音频(或音乐)这个 AIGC 赛道,Meta 最近又有了新研究成果,而且开源了。 前几日,在论文《Masked Audio Generation using a Single Non-Autoregressive Transformer》中,...
-
LangGraph:构建智能对话的AI库,轻松打造复杂、有记忆的应用
在构建能够对用户输入做出响应、记住过去互动并基于历史做出决策的系统时,LangGraph库成为解决这一问题的关键工具。这一需求对于创建更像智能代理的应用至关重要,这些应用能够保持对话、记住先前的上下文,并做出明智的决策。 当前存在一些解决方案,它们可以部分...
-
使用Gradio搭建Stable Diffusion模型生成图像:简单快捷的图像生成体验
目录 0 开发环境 1 介绍 1.1 Gradio简介 1.2 Stable Diffusion模型简介 2 使用Gradio搭建基本界面 2.1 安装依赖库 2.2 加载预训练模型 2.3 解析返回的数据 2.4 构建图像字幕应用程序...
-
GPT-4.5秘密解禁?网友灰度测试全网热议,OpenAI研究员回应全是幻觉
GPT-4.5,难道已经瞒着我们悄悄上线了? 最近,许多网友都发现了一件令人震惊的事情。 图片 如果问ChatGPT「你在API里是如何命名的」,它居然会回答,自己的名字是「gpt-4.5-turbo」! 图片 而且,不少网友都有类似的发现: 图片 图片...
-
微软Azure文本转语音官网地址入口 AzureAI配音语音朗读怎么使用
微软Azure的文本转语音服务为开发者提供了一个高度可定制、易于集成的解决方案,使应用程序能够具备高质量的语音输出功能。无论是创建交互式应用、增强用户体验还是构建自定义品牌语音,Azure文本转语音都能提供强大的支持。 微软Azure文本转语音官网地址入...
-
【计算机视觉】最强 Zero-Shot 视觉应用:Grounding DINO + Segment Anything + Stable Diffusion
文章目录 一、前言 二、功能介绍 2.1 功能一 2.2 功能二 2.3 其他有趣的功能 三、总结 一、前言 用 Midjourney 花一个小时做的项目 logo 图: 解释一下 logo 的含义:一只坐在地上的马赛...
-
本地部署开源大模型的完整教程:LangChain + Streamlit+ Llama
在过去的几个月里,大型语言模型(llm 获得了极大的关注,这些模型创造了令人兴奋的前景,特别是对于从事聊天机器人、个人助理和内容创作的开发人员。 大型语言模型(llm 是指能够生成与人类语言非常相似的文本并以自然方式理解提示的机器学习模型。这些模型使...
-
如何使用GPT作为SQL查询引擎的自然语言
译者 | 李睿 审校 | 重楼 如今,得益于ChatGPT这种生成式人工智能技术,使得用简单的语句查询数据集变得非常简单。 与大多数生成式人工智能一样,OpenAI公司开发的API的结果仍然不完美,这意味着用户不能完全信任它们。幸运的是,用户现在可以...