transformer - AIGC资讯

人工智能开源模型：hugging face的生态崛起

标题：人工智能开源模型：Hugging Face的生态崛起在人工智能的浩瀚宇宙中，开源模型如同一颗颗璀璨的星辰，引领着技术创新与行业变革。其中，Hugging Face平台以其独特的魅力和强大的生态体系，成为了连接开发者、研究人员与AI应用之间的桥梁，见证...

生成式AI 2025-08-10 人工智能

1931阅读

ai驱动的蛋白质折叠：alphafold的突破

标题：AI驱动的蛋白质折叠：AlphaFold的突破在生命科学的浩瀚宇宙中，蛋白质作为生命活动的主要执行者，其结构与功能的研究一直是科学家们探索的核心领域。蛋白质折叠，这一从线性氨基酸序列到复杂三维结构的转变过程，蕴含着生命奥秘的钥匙。然而，由于蛋白质折叠...

生成式AI 2025-07-25 人工智能

971阅读

神经架构搜索（nas）：自动化模型设计的未来

标题：神经架构搜索（NAS）：自动化模型设计的未来在人工智能领域，深度学习模型的性能往往与其架构设计紧密相关。传统上，设计高效的神经网络架构是一项既耗时又高度依赖于专家经验的任务。然而，随着计算能力的飞跃和算法创新的不断推进，神经架构搜索（Neural A...

AIGC 2025-07-19 人工智能

988阅读

ai与语言学：濒危语言保护与机器翻译的进化

标题：AI与语言学：濒危语言保护与机器翻译的进化在21世纪的科技浪潮中，人工智能（AI）以其独特的魅力和无限潜力，正深刻改变着人类社会的方方面面。特别是在语言学领域，AI技术的应用不仅推动了机器翻译的飞速发展，还为濒危语言的保护开辟了新的路径。这一交叉领域...

大数据 2025-07-14 人工智能

974阅读

深度学习新突破：神经网络架构的进化之路

标题：深度学习新突破：神经网络架构的进化之路在人工智能的浩瀚星空中，深度学习无疑是最为璀璨的星辰之一。它以其强大的数据处理能力和模式识别能力，正逐步改变着我们的生活与工作方式。而在这场智能革命的浪潮中，神经网络架构的进化无疑扮演着核心角色。从最初的简单感知...

人工智能 2025-06-30 人工智能

900阅读

稀疏激活模型：大模型推理效率的优化

标题：稀疏激活模型：大模型推理效率的优化探索随着人工智能技术的飞速发展，深度学习模型，尤其是大型语言模型，在自然语言处理、计算机视觉等领域展现出了前所未有的能力。然而，这些大型模型在带来高精度预测的同时，也伴随着巨大的计算资源和时间消耗，尤其是在推理阶段。...

人工智能 2025-06-29 人工智能

1126阅读

hugging face：开源ai社区的崛起与影响

标题：Hugging Face：开源AI社区的崛起与影响在人工智能（AI）领域，开源文化正以前所未有的速度推动着技术的创新与发展。其中，Hugging Face作为一个开源AI社区，凭借其开放共享的理念、强大的工具和丰富的资源，迅速崛起，成为连接全球开发者...

大数据 2025-06-28 人工智能

1048阅读

生成式ai：从gpt到多模态模型

标题：生成式AI：从GPT到多模态模型的演进之路在人工智能的浩瀚星空中，生成式AI如同一颗璀璨的新星，正以惊人的速度照亮着科技前行的道路。从最初的文本生成模型，到如今融合了图像、音频乃至视频等多模态内容的智能系统，生成式AI不仅深刻改变了我们的生活方式，还...

生成式AI 2025-06-27 人工智能

976阅读

AIGC生成风格统一图片的方法介绍

过去一段时间以来，AIGC图片生成技术快速发展，在电商以及内容创作领域展现出来极高的应用价值。除了基础的基于prompt的文生图能力，社区还涌现出来更多的扩展技术。比如Controlnet技术能利用线稿信...

人工智能 2024-10-13 人工智能

3389阅读

Stable Diffusion原班人马最新力作，最强开源工具FLUX

前言自从 Black Forest Labs 发布了他们的 FLUX.1 套件以来，它的热度便居高不下。接下来，我们就来一起认识一下这款模型吧。一、关于 Black Forest Labs Black Forest Labs 是一家专注于开...

生成式AI 2024-10-06 人工智能

1749阅读

Meta又给OpenAI一记重击，视频生成Movie Gen震撼登场，甚至可以配音、编辑

在 OpenAI Sora 难产的时候，Meta 首次公开展示了自家的「用于媒体的突破性生成式 AI 研究」:Meta Movie Gen。 Meta 在相应博客中使用了「premiere」一词，也就是初次展示，因此手痒的用户可能还得再等上一段时间。 M...

大数据 2024-10-05 人工智能

1336阅读

【大模型与AIGC】VLM基础知识汇总

这里写目录标题 LLM输入时的理解 1. Tokenizer的实现：Word极大似然估计 LLM推理：关于Attention mask的理解 1. CausalModel 与 AttentionMask 2. attention mask乘法...

生成式AI 2024-10-04 人工智能

1671阅读

【人工智能绪论】一次性搞懂什么是AIGC！

? 个人主页：十二月的猫-CSDN博客 ? 系列专栏：深度学习_十二月的猫的博客-CSDN博客 ?? 十二月的寒冬阻挡不了春天的脚步，十二点的黑夜遮蔽不住黎明的曙光 ? 专栏持续更新中~~~✨ 目录 1. 前言 2. AIGC发展历程...

大数据 2024-10-04 人工智能

1587阅读

使用 CTranslate2 实现 Faster Whisper 的加速转录

使用 CTranslate2 实现 Faster Whisper 的加速转录近年来，语音识别技术得到了快速发展。OpenAI 的 Whisper 模型作为其中的佼佼者，以其高精度和强大的性能广受欢迎。然而，其较长的推理时间和高内存消耗也成为了限制其应...

生成式AI 2024-10-04 人工智能

2716阅读

【AIGC数字人】EchoMimic:基于可编辑关键点条件的类人音频驱动肖像动画

GitHub：https://github.com/BadToBest/EchoMimic 论文： https://arxiv.org/pdf/2407.08136 comfyui： https://github.com/smthemex/ComfyU...

大数据 2024-10-04 人工智能

1910阅读

Datawhale X 魔搭 AI夏令营第四期魔搭-AIGC文生图方向Task3笔记

在task2中，已经借助AI工具对AIGC生图的代码进行精读。在本章中则更加关注于了解Lora微调的基本原理以及文生图的工作流平台工具ComfyUI的使用。 task2链接：Datawhale X 魔搭 AI夏令营第四期魔搭-AIGC文生图方向Task...

人工智能 2024-10-04 人工智能

1852阅读

在矩池云使用 Llama-3.2-11B-Vision 详细指南

Llama 3.2-Vision是Meta开发的一系列多模态大型语言模型（LLMs），包含11B和90B两种规模的预训练和指令调整模型。这些模型专门优化用于视觉识别、图像推理、字幕生成和回答有关图像的一般问题。Llama 3.2-Vision模型在常见...

生成式AI 2024-10-03 人工智能

2026阅读

Stable Diffusion AI算法，实现一键式后期处理与图像修复魔法

在当今数字影像时代，后期处理技术已成为将原始图像转化为视觉上令人惊叹艺术作品的点睛之笔。随着人工智能技术的飞速发展，尤其是Stable Diffusion技术在图像处理领域的应用，图片后期处理已达到前所未有的高度，为摄影师、设计师及视觉艺术爱好者提供了一...

人工智能 2024-10-03 人工智能

1604阅读

从零预训练一个tiny-llama#Datawhale组队学习Task2

完整的教程请参考：datawhalechina/tiny-universe: 《大模型白盒子构建指南》：一个全手搓的Tiny-Universe (github.com 这是Task2的学习任务目录 Qwen-blog Tokenizer（分词器...

AIGC 2024-10-03 人工智能

1463阅读

国内外大模型汇总：Open AI大模型、Google大模型、Microsoft大模型、文心一言大模型、通义千问大模型、字节豆包大模型、智普清言大模型

Open AI大模型特点：多模态能力：如GPT-4o，能接受文本、音频、图像作为组合输入，并生成任意形式的输出。情感识别与回应：具备情感识别能力，能根据对话者的情绪做出有感情的回应。几乎无延迟：对音频输入的响应时间极短，与人类对话相似。...

AIGC 2024-10-02 人工智能

1514阅读

AIGC从入门到实战：众里寻他千百度：ChatGPT 及其他 AIGC 赋能个人

AIGC从入门到实战：众里寻他千百度：ChatGPT 及其他 AIGC 赋能个人作者：禅与计算机程序设计艺术 / Zen and the Art of Computer Programming 1. 背景介绍 1.1 问题的由来随着人工智能技术...

生成式AI 2024-10-02 人工智能

1469阅读

中科院提出GPT-4o实时语音交互的开源对手：Llama-Omni

论文：LLaMA-Omni: Seamless Speech Interaction with Large Language Models地址：https://arxiv.org/pdf/2409.06666 研究背景研...

生成式AI 2024-10-01 人工智能

1417阅读

LLaMA- Adapter: Efficient Fine-tuning of Language Models with Zero-init Attention

发表时间：14 Jun 2023 论文链接：https://arxiv.org/pdf/2303.16199 作者单位：Shanghai Artificial Intelligence Laboratory Motivation：最近，指令跟踪模型取...

大数据 2024-10-01 人工智能

1604阅读

Ubuntu LLaMA-Factory实战

一、Ubuntu LLaMA-Factory实战安装： CUDA 安装 CUDA 是由 NVIDIA 创建的一个并行计算平台和编程模型，它让开发者可以使用 NVIDIA 的 GPU 进行高性能的并行计算。首先，在 https://develop...

生成式AI 2024-10-01 人工智能

1636阅读

Insanely Fast Whisper CLI 项目教程

Insanely Fast Whisper CLI 项目教程 insanely-fast-whisper-cli The fastest Whisper optimization for automatic speech recognition a...

AIGC 2024-10-01 人工智能

1488阅读

【Llama3.1-8B-Instruct】Llama Factory 等部署实战

一、模型介绍 Meta Llama 3.1 系列是一个多语言大型语言模型 (LLM 集合，包括 8B、70B 和 405B 三种尺寸（文本输入/文本输出）。Llama 3.1 的指令调优版本（8B、70B、405B）针对多语言对话用例进行了优化，并在常...

人工智能 2024-09-30 人工智能

2994阅读

腾讯HunyuanDit代码解析

注意：本文仅供自己记录学习过程使用。训练全参训练过程输入图像用VAE编码得到输入的x_start(1,4,128,128 ；文本的两个特征：bert的encoder feature(1,77,1024 和T5 的feature(1,256...

人工智能 2024-09-30 人工智能

1480阅读

使用 GaLore 预训练LLaMA-7B

项目代码： https://github.com/jiaweizzhao/galorehttps://github.com/jiaweizzhao/galore 参考博客： https://zhuanlan.zhihu.com/p/686686751...

生成式AI 2024-09-30 人工智能

1391阅读

3天把Llama训成Mamba，性能不降，推理更快！

近日，Mamba方面又搞出了有意思的研究：来自康奈尔、普林斯顿等机构的研究人员成功将Llama提炼成了Mamba模型，并且设计了新的推测解码算法，加速了模型的推理。\ 先来看一张其乐融融的图片（一眼AI）：右边的小羊驼代表Llama，而左边的蛇（...

生成式AI 2024-09-30 人工智能

1468阅读

LlaMa-Factory源码解析之预训练LLaMA-Factory/src/llamafactory/train/pt/workflow.py -＞ run_pt()

LLaMA-Factory/src/llmtuner/train/pt/workflow.py at main · hiyouga/LLaMA-Factory · GitHub 截止至2024年7月，该框架workflow.py目录从LLaMA-Fact...

生成式AI 2024-09-30 人工智能

1581阅读

提示词工程学的前世今生：Generative Pre-trained Transformer 到AIGC，再到Prompt Engineering

人工智能（Artificial intelligence，AI）的演进已然变革了我们对于技术的理解以及应用方式。自最初的规则系统直至当下的深度学习，AI 在众多领域均彰显出了极为巨大的潜力。当中，生成式预训练模型（Generative Pre-traine...

AIGC 2024-09-29 人工智能

2003阅读

【论文阅读笔记 + 思考 + 总结】MoMask: Generative Masked Modeling of 3D Human Motions

创新点： VQ-VAE ? Residual VQ-VAE，对每个 motion sequence 输出一组 base motion tokens 和 v 组 residual motion tokens bidirectional 的 Masked...

人工智能 2024-09-29 人工智能

1816阅读

丹摩智算平台部署 Llama 3.1：实践与体验

文章目录前言部署前的准备创建实例部署与配置 Llama 3.1 使用心得总结前言在最近的开发工作中，我有机会体验了丹摩智算平台，部署并使用了 Llama 3.1 模型。在人工智能和大模型领域，Meta 推出的 Lla...

人工智能 2024-09-28 人工智能

1448阅读

[从0开始AIGC][LLM]：LLM中Encoder-Only or Decoder-Only？为什么主流LLM是Decoder-Only？

LLM中Encoder-Only or Decoder-Only & 为什么主流LLM是Decoder-Only？文章目录 LLM中Encoder-Only or Decoder-Only & 为什么主流LLM是Dec...

大数据 2024-09-28 人工智能

1809阅读

【记录贴 | 持续更新】搜广推/aigc 面试题记录

目录 nlp/搜广推 transformer结构？位置编码的作用？解释 self-attention？ attention中 /√(d_k 的作用是什么？解释Multi-Head Attention？ FeedForward的作用...

AIGC 2024-09-28 人工智能

1887阅读

Insanely Fast Whisper CLI 使用教程

Insanely Fast Whisper CLI 使用教程 insanely-fast-whisper-cli The fastest Whisper optimization for automatic speech recognition a...

人工智能 2024-09-27 人工智能

1941阅读

与其造神，不如依靠群体的力量：这家公司走出了一条不同于OpenAI的AGI路线

看过剧版《三体》的读者或许都记得一个名场面:来自三体的智子封锁了人类科技，还向地球人发出了「你们是虫子」的宣告。但没有超能力的普通人史强却在蝗群漫天飞舞的麦田中喊出:「把我们人类看成是虫子的三体人，他们似乎忘了一个事实，那就是虫子从来就没有被真正地战胜过」...

生成式AI 2024-09-27 人工智能

1163阅读

国内外大模型汇总（包括科大星火、文心一言、通义千问、智普清言、华为大模型）

国内外大模型汇总 1. 科大讯飞星火认知大模型主要特点：多语言能力：以中文为核心，同时支持多语言处理，能够进行跨语种的语言理解和生成。广泛的任务能力：具备内容生成、语言理解、知识问答、推理、数学计算、代码理解与生成等多种能力，能够处理复杂的自...

大数据 2024-09-27 人工智能

1785阅读

将LLaMA模型导出为ONNX格式的教程

将LLaMA模型导出为ONNX格式的教程 export_llama_to_onnx export llama to onnx 项目地址: https://gitcode.com/gh_mirrors/ex/export_llama_to_onn...

大数据 2024-09-26 人工智能

1963阅读

【一文读懂】Whisper 语音识别

Whisper 语音识别 Whisper 是由 OpenAI 开发的一款先进的语音识别模型，它能够将语音转换为文本。Whisper 是一个端到端的深度学习模型，具有多语言和多任务的能力，可以用于多种语音处理任务，包括语音转文本（transcription...

大数据 2024-09-26 人工智能

1404阅读

AIGC时代算法工程师的面试秘籍（第二十二式2024.9.2-9.15） |【三年面试五年模拟】

写在前面【三年面试五年模拟】旨在整理&挖掘AI算法工程师在实习/校招/社招时所需的干货知识点与面试经验，力求让读者在获得心仪offer的同时，增强技术基本面。也欢迎大家提出宝贵的优化建议，一起交流学习? 欢迎大家关注Rock...

生成式AI 2024-09-26 人工智能

1525阅读

LLaMA 数据集

LLaMA的训练数据集来源多样，涵盖了多个不同的数据集和预处理步骤。以下是详细的描述：公开数据来源和预处理 CommonCrawl [67%]：使用CCNet管道（Wenzek等人，2020年）对2017年至2020年间的五个Comm...

生成式AI 2024-09-25 人工智能

1106阅读

llama网络结构及源码

目录模型初始化 config lm_head transformer wte h rms_1/rms_2 attn c_attn c_proj 线性层mlp ln_f rope_cache mask_cache kv_cac...

大数据 2024-09-24 人工智能

1653阅读

豆包视频生成大模型发布：首次突破多主体互动难关

快科技9月24日消息，据媒体报道，字节跳动正式宣告进军AI视频生成。发布豆包视频生成-PixelDance、豆包视频生成-Seaweed两款大模型发布，面向企业市场开启邀测。豆包视频生成”大模型凭借其卓越的语义理解能力、对复杂交互画面的精准捕捉以及多镜头...

生成式AI 2024-09-24 人工智能

1226阅读

万字长文｜LLM大模型基础入门（非常详细）从入门到精通系列之：（三）Transformer 架构

...

生成式AI 2024-09-24 未命名

1169阅读

Stable diffusion生图原理

简介 Stable diffusion 是一种基于扩散技术的深度学习模型，于2022年发布，是Stability AI公司推出的首要产品，它主要用于生成以文本描述为条件的详细图像，同时也可以进行补绘、外绘、重绘等任务，但原理都和文生图原理相似。 S...

AIGC 2024-09-24 人工智能

1156阅读

[1305]whisper(音转文)使用教程

文章目录实时录制音频并转录 faster-whisper使用教程 github：https://github.com/openai/whisper https://gitcode.com/gh_mirrors/whisp/whisp...

AIGC 2024-09-24 人工智能

1272阅读

AIGC时代算法工程师的面试秘籍（第二十一式2024.8.19-9.1） |【三年面试五年模拟】

写在前面【三年面试五年模拟】旨在整理&挖掘AI算法工程师在实习/校招/社招时所需的干货知识点与面试经验，力求让读者在获得心仪offer的同时，增强技术基本面。也欢迎大家提出宝贵的优化建议，一起交流学习? 欢迎大家关注Rock...

AIGC 2024-09-24 人工智能

1173阅读

Datawhale X 魔搭 AI夏令营AIGC方向task3

ComfyUI 样例下载并安装 ComfyUI # #@title Environment Setup from pathlib import Path OPTIONS = {} UPDATE_COMFY_UI = True #@param {...

AIGC 2024-09-23 人工智能

1180阅读

Llama模型家族之拒绝抽样(Rejection Sampling)（五）蒙特卡罗算法在拒绝抽样中：均匀分布与样本接受标准

LlaMA 3 系列博客基于 LlaMA 3 + LangGraph 在windows本地部署大模型（一）基于 LlaMA 3 + LangGraph 在windows本地部署大模型（二）基于 LlaMA 3 + LangGraph 在w...

生成式AI 2024-09-23 人工智能

1159阅读