视频字幕生成 - AIGC资讯

谷歌正式发布Gemini 1.5 Flash大模型：轻量化、响应速度极快

快科技5月15日消息，今天凌晨，谷歌正式召开了I/O大会，宣布谷歌已全面进入Gemini时代。在一年前的I/O大会上，谷歌才首次发布Gemini大模型，而今年大模型、AI等已经成为了绝对的主角，甚至连新版安卓都没提。除了专业的Gemini 1.5 Pr...

大数据 2024-05-15 人工智能

887阅读

Meta AI近日推出了一种名为MA-LMM的新型模型，旨在解决长期视频理解中的挑战。LLMs在处理文本数据时表现出了令人印象深刻的能力，但在处理视频输入方面存在一些限制，例如上下文长度限制和GPU内存限制。为了克服这些限制，研究人员提出了MA-LMM，...

生成式AI 2024-04-12 人工智能

1137阅读

1.什么是whisper Whisper 是一个自动语音识别（ASR，Automatic Speech Recognition）系统，OpenAI 通过从网络上收集了 68 万小时的多语言（98 种语言）和多任务（multitask）监督数据对 Whi...

大数据 2023-12-26 人工智能

1420阅读

最近在做神经网络的研究，偶然间看到OpenAI开源出了一个多国语音转文字的模型，脑海里突然想到余大嘴在华为发布会发布实时语音翻译时满屏弹幕的“？？？”和“！！！”，于是决定做一个多国语音转简体中文字幕的软件来玩一玩。想法是这样的：通过OpenAI最新发...

人工智能 2023-11-30 人工智能

1989阅读