数据集第32页 - AIGC资讯

AI在工业领域中的关键作用

对于许多维护和控制工程师来说，人工智能(AI 并不是一个新概念。那些在数字化转型之路上走得更远的人已经非常熟悉机器学习(ML 技术，该技术通过分析来自众多来源的大型数据集来制定预测性维护策略，以帮助企业做出更明智的决策。同样，在一系列应用中使用大型情...

生成式AI 2024-03-01 人工智能

818阅读

英伟达CEO呼吁建立主权AI基础设施

人工智能(AI 热潮将英伟达(Nvidia 的股价推至历史新高。英伟达的GPU是支持人工智能工作负载的重要硬件。该公司的崛起也使得英伟达创始人兼首席执行官黄仁勋在人工智能市场上的影响力更大。在最近的迪拜世界政府峰会上，黄仁勋分享了他的观点，即每个国家...

大数据 2024-03-01 人工智能

820阅读

【AIGC】AutoKeras 进行 RNN 循环神经网络训练

由于最近这些天都在人工审查之前的哪些问答数据，所以迟迟都没有更新 AutoKeras 的训练结果。现在那部分数据都已经整理好了，20w+ 的数据最后能够使用的高质量数据只剩下 2k+。这 2k+ 的数据已经经过数据校验并且对部分问题的提问方式和答案内容进行...

生成式AI 2024-03-01 人工智能

874阅读

ControlNet作者新作：AI绘画能分图层了！项目未开源就斩获660 Star

“绝不是简单的抠图。” ControlNet作者最新推出的一项研究受到了一波高度关注—— 给一句prompt，用Stable Diffusion可以直接生成单个或多个透明图层（PNG）！例如来一句：头发凌乱的女性，在卧室里。Woman with me...

人工智能 2024-03-01 人工智能

943阅读

如何使用小型自动生成的数据集训练编码LLM

译者 | 李睿审校 | 重楼虽然像GPT-4这样的大型语言模型(LLM 在编写软件代码方面非常精通，但是这些模型的成本和不透明性激发了人们对更加经济、规模更小的编码LLM的兴趣。这些替代方案可以针对特定任务进行微调，并且成本很低。开发这些LLM的...

生成式AI 2024-03-01 人工智能

876阅读

使用Rust的Linfa和Polars库进行机器学习：线性回归

在这篇文章中，我们将使用Rust的Linfa库和Polars库来实现机器学习中的线性回归算法。 Linfa crate旨在提供一个全面的工具包来使用Rust构建机器学习应用程序。 Polars是Rust的一个DataFrame库，它基于Apache Ar...

大数据 2024-03-01 人工智能

912阅读

Lighthouse推出智能摘要，利用生成式AI为酒店提供日常业绩简报

Lighthouse（前身为OTA Insight）日前宣布推出智能摘要，这是一项利用生成AI技术的新功能，旨在为酒店业提供更便捷、易读的日常业绩简报。作为旅行和酒店行业的领先商业平台，Lighthouse通过此次创新进一步巩固了其在行业中的领导地位。...

AIGC 2024-02-29 人工智能

932阅读

陈丹琦团队新作：Llama-2上下文扩展至128k，10倍吞吐量仅需1/6内存

陈丹琦团队刚刚发布了一种新的LLM上下文窗口扩展方法：它仅用8k大小的token文档进行训练，就能将Llama-2窗口扩展至128k。最重要的是，在这个过程中，只需要原来1/6的内存，模型就获得了10倍吞吐量。除此之外，它还能大大降低训练成本：...

人工智能 2024-02-29 人工智能

849阅读

Magika:基于AI支持的文件类型检测工具，依靠深度学习提供准确的检测

数字化时代，对我们所遇到的文件进行准确识别至关重要，这涉及到用户安全和信息保护的方方面面。然而，在处理众多文件格式时，如何准确迅速地检测文件内容成为一项挑战。现有方法可能并不总是高效或准确，可能导致潜在风险或误分类。 Magika作为一种创新的文件类型检测...

AIGC 2024-02-29 人工智能

815阅读

英伟达发布Nemotron-4:150亿参数通用大模型，目标单张A100/H100可跑

英伟达最新推出的Nemotron-4语言模型引起广泛关注。这一通用大模型拥有150亿参数，经过在8T token上的训练，在英语、多语言和编码任务中表现出色。具体而言，Nemotron-4在7个评估基准上的15B模型表现优异，超越同等参数规模的模型，甚至击...

人工智能 2024-02-29 人工智能

885阅读

研究人员开发AI攻击方法BEAST：可在一分钟内绕过LLM防护栏

研究人员在美国马里兰大学成功开发了一种高效的方法，可以在一分钟内诱导大型语言模型（LLM）产生有害反应，他们将这一技术命名为BEAST(BEAm Search-based adversarial aTtack 。BEAST技术利用Nvidia RTX A6...

AIGC 2024-02-29 人工智能

978阅读

英伟达最强通用大模型Nemotron-4登场！15B击败62B，目标单张A100/H100可跑

最近，英伟达团队推出了全新的模型Nemotron-4，150亿参数，在8T token上完成了训练。值得一提的是，Nemotron-4在英语、多语言和编码任务方面令人印象深刻。论文地址：https://arxiv.org/abs/2402.1681...

AIGC 2024-02-29 人工智能

877阅读

金融分析多模态LLM FinTral:基于Mistral-7B模型得分接近GPT-4

近日，来自不列颠哥伦比亚大学和Invertible AI的研究人员推出了一款具有突破性的大型语言模型（LLM）——FinTral，专为金融领域量身定制。FinTral采用了多模态方法，能够处理文本、数字、表格和视觉数据，以应对金融文件的复杂性。该模型引入了...

生成式AI 2024-02-29 人工智能

1065阅读

解锁SLAM新纪元！基于NeRF和3D GS方法综述

本文经自动驾驶之心公众号授权转载，转载请联系出处。写在前面&笔者的个人理解在过去的二十年里，SLAM领域的研究经历了重大的发展，突出了其在实现未知环境的自主探索方面的关键作用。这种演变从手工制作的方法到深度学习时代，再到最近专注于神经辐射场...

人工智能 2024-02-29 人工智能

1266阅读

视频生成模型Sora的全面解析：从AI绘画、ViT到ViViT、DiT、VDT、NaViT、VideoPoet

前言真没想到，距离视频生成上一轮的集中爆发(详见《Sora之前的视频生成发展史：从Gen2、Emu Video到PixelDance、SVD、Pika 1.0》才过去三个月，没想OpenAI一出手，该领域又直接变天了自打2.16日OpenAI发...

AIGC 2024-02-29 人工智能

1203阅读

AIGC专栏9——Scalable Diffusion Models with Transformers （DiT）结构解析

AIGC专栏9——Scalable Diffusion Models with Transformers （DiT）结构解析学习前言源码下载地址网络构建一、什么是Diffusion Transformer (DiT 二、DiT的组成...

人工智能 2024-02-28 人工智能

1365阅读

AI技术的发展，对数字经济到底有什么用？

人工智能(AI 产业是数字经济的重要组成部分。企业在数字化转型的早期实践中，比较关心基础类数据应用，比如基于查数、用数的管理支持或流程支持。数据本身即产品，这是不少从事数字化工作者的直观逻辑。当数据治理完成后，能够看到这些数据并清楚地知道这些数据的真...

大数据 2024-02-28 人工智能

786阅读

远超 IVF_FLAT、HNSW，ScaNN 索引算法赢在哪？

Faiss 实现的 ScaNN，又名 FastScan，它使用更小的 PQ 编码和相应的指令集，可以更为友好地访问 CPU 寄存器，展示出优秀的索引性能。 Milvus 从 2.3 版本开始，在 Knowhere 中支持了 ScaNN 算法，在各项 be...

人工智能 2024-02-28 人工智能

844阅读

千卡利用率超98%，详解JuiceFS在权威AI测试中的实现策略

2023 年 9 月，AI 领域的权威基准评测 MLPerf 推出了 Storage Benchmark。该基准测试通过模拟机器学习 I/O 负载的方法，在不需要 GPU 的情况下就能进行大规模的性能压测，用以评估存储系统的在 AI 模型训练场景的适用性。...

AIGC 2024-02-28 人工智能

846阅读

GenAI步步紧逼，数据治理如何进化？

作者 | Isaac Sacolick 编辑 | 言征出品 | 51CTO技术栈（微信号：blog51cto）数据治理涵盖一系列学科，包括数据安全、管理、质量和编目。这种做法需要定义使用策略、创建主数据源、分析数据集、记录字典以及监督数据生命周期...

AIGC 2024-02-28 人工智能

883阅读

谷歌开源大模型Gemma带来了什么，原来“中国制造”的机会早已到来

谷歌罕见open的AI，给开源大模型到底带来了什么？ Gemma从发布到现在已经时过四日，谷歌久违的这次开源，可谓是给全球科技圈投下了一枚重磅炸弹。在最初发布之际，不论是从谷歌官方还是Jeff Dean的发文来看，都强调的是Gemma 7B已经全面超越...

生成式AI 2024-02-28 人工智能

811阅读

【AIGC】Stable Diffusion的模型微调

为什么要做模型微调模型微调可以在现有模型的基础上，让AI懂得如何更精确生成/生成特定的风格、概念、角色、姿势、对象。Stable Diffusion 模型的微调方法通常依赖于您要微调的具体任务和数据。下面是一个通用的微调过程的概述：准备数据集：...

人工智能 2024-02-28 人工智能

1065阅读

与人类贴身热舞！人形机器人进阶到街头耍宝，6华人组团出品

注意看，小帅一个转身，卫衣帽子里面居然空无一头：好啦，这不是惊悚恐怖片，而是来自UCSD（加州大学圣地亚哥分校）全华人团队的最新研究成果。他们提出一种特别的全身控制策略（ExBody），能对人形机器人进行全身控制。策略主要训练人形机器人上半...

生成式AI 2024-02-28 人工智能

811阅读

直接干上车！DriveVLM：首个Orin部署的快慢双系统智驾大模型

本文经自动驾驶之心公众号授权转载，转载请联系出处。写在前面&笔者的个人理解在目前自动驾驶领域，传统的感知（perception）-预测（prediction）-规划（planning）的常规端到端自动驾驶在处理常规场景时表现尚可，但在面对复...

AIGC 2024-02-28 人工智能

1414阅读

谷歌发布基础世界模型：11B参数，能生成可交互虚拟世界

Sora 问世才不到两个星期，谷歌的世界模型也来了，能力看起来更强大：它生成的虚拟世界「自主可控」。刚刚，谷歌定义了生成式 AI 的全新范式 —— 生成式交互环境（Genie，Generative Interactive Environments）。G...

生成式AI 2024-02-27 人工智能

883阅读

微软发布PyRIT，用于识别生成式AI系统中的风险

2月26日消息，据外媒报道，微软发布了一个名为PyRIT的开放访问自动化框架，用于主动识别生成式AI系统中的风险。微软人工智能红色团队负责人Ram Shankar Siva Kumar表示，红色团队工具旨在“使全球每个组织都能利用最新的人工智能进步进...

大数据 2024-02-27 人工智能

867阅读

AIGC实战——扩散模型(Diffusion Model)

AIGC实战——扩散模型 0. 前言 1. 去噪扩散概率模型 1.1 Flowers 数据集 1.2 正向扩散过程 1.3 重参数化技巧 1.4 扩散规划 1.5 逆向扩散过程 2. U-Net 去噪模型 2.1 U-Net 架构 2.2...

AIGC 2024-02-27 人工智能

1349阅读

MATRIX：社会模拟推动大模型价值自对齐，比GPT4更「体贴」

模型如 ChatGPT 依赖于基于人类反馈的强化学习（RLHF），这一方法通过鼓励标注者偏好的回答并惩罚不受欢迎的反馈，提出了一种解决方案。然而，RLHF 面临着成本高昂、难以优化等问题，以及在超人类水平模型面前显得力不从心。为了减少乃至消除对人类监督的...

AIGC 2024-02-27 人工智能

852阅读

“谷歌版Sora”被嘲画质好糊，但在世界模拟器上又前进了一步

谷歌110亿参数Genie，用来打造交互虚拟世界，它来了！划重点：不受视频监督训练；只用给它单张图像，就能提示生成可玩的2D虚拟世界；这个交互式的虚拟世界还自主可控。但令人撇嘴的点，就是Genie最后出的效果，画质太糊了。像这样：或者这样：...

人工智能 2024-02-27 人工智能

902阅读

数据治理必须如何发展才能应对GenAI的挑战

最近我想到了数据治理，所以我决定通过输入提示来查询ChatGPT：“什么是数据治理?”，人工智能回应道：“数据治理是一套流程、政策、标准和指导方针，可确保在企业内适当地管理、保护和利用数据”，这是一个很好的开始，此时此刻，关于数据治理及其意义还有很多要...

生成式AI 2024-02-27 人工智能

877阅读

自动驾驶与轨迹预测看这一篇就够了！

本文经自动驾驶之心公众号授权转载，转载请联系出处。轨迹预测在自动驾驶中承担着重要的角色，自动驾驶轨迹预测是指通过分析车辆行驶过程中的各种数据，预测车辆未来的行驶轨迹。作为自动驾驶的核心模块，轨迹预测的质量对于下游的规划控制至关重要。轨迹预测任务技术栈...

生成式AI 2024-02-27 人工智能

896阅读

【llm 微调code-llama 训练自己的数据集一个小案例】

这也是一个通用的方案，使用peft微调LLM。准备自己的数据集根据情况改就行了，jsonl格式，三个字段：context, answer, question import pandas as pd import random import...

AIGC 2024-02-27 人工智能

882阅读

【论文精读】OS-Copilot: Towards Generalist Computer Agents with Self-Improvement

OS-Copilot: Towards Generalist Computer Agents with Self-Improvement 前言 ABSTRACT 1 INTRODUCTION 2 THE OS-COPILOT FRAMEWORK...

人工智能 2024-02-27 人工智能

1020阅读

跨越千年医学对话：用AI技术解锁中医古籍知识，构建能够精准问答的智能语言模型，成就专业级古籍解读助手（LLAMA）

跨越千年医学对话：用AI技术解锁中医古籍知识，构建能够精准问答的智能语言模型，成就专业级古籍解读助手（LLAMA）介绍：首先在 Ziya-LLaMA-13B-V1基线模型的基础上加入中医教材、中医各类网站数据等语料库，训练出一个具有中医知识理解力的预...

大数据 2024-02-27 人工智能

921阅读

国内公司有望做出Sora吗？这支清华系大模型团队给出了希望

2023 年年底，很多人都预测，未来一年将是视频生成快速发展的一年。但出人意料的是，农历春节刚过，OpenAI 就扔出了一个重磅炸弹 —— 能生成 1 分钟流畅、逼真视频的 Sora。它的出现让很多研究者担心：国内外 AI 技术的差距是不是又拉大了？根...

生成式AI 2024-02-27 人工智能

814阅读

高质量论文中文翻译：Lag-Llama: 朝向基础模型的概率时间序列预测 Lag-Llama: Towards Foundation Models for Probabilistic Time S

Lag-Llama: 朝向基础模型的概率时间序列预测Lag-Llama: Towards Foundation Models for Probabilistic Time Series Forecasting 文章目录摘要介绍我们的贡献...

AIGC 2024-02-27 人工智能

1102阅读

全球最强开源大模型一夜易主！谷歌Gemma 7B碾压Llama 2 13B，今夜重燃开源之战

一声炸雷深夜炸响，谷歌居然也开源LLM了？！这次，重磅开源的Gemma有2B和7B两种规模，并且采用了与Gemini相同的研究和技术构建。有了Gemini同源技术的加持，Gemma不仅在相同的规模下实现SOTA的性能。而且更令人...

AIGC 2024-02-27 人工智能

876阅读

Llama中文大模型

关于Llama中文大模型欢迎来到Llama中文大模型：已经基于大规模中文数据，从预训练开始对Llama2模型进行中文能力的持续迭代升级。 Llama中文大模型：https://github.com/LlamaFamily/Llama-Chine...

人工智能 2024-02-27 人工智能

1380阅读

用扩散模型生成网络参数，LeCun点赞尤洋团队新研究

如果你有被 Sora 生成的视频震撼到，那你就已经见识过扩散模型在视觉生成方面的巨大潜力。当然，扩散模型的潜力并不止步于此，它在许多其它不同领域也有着让人期待的应用前景，更多案例可参阅机器之心不久前的报道《爆火Sora背后的技术，一文综述扩散模型的最新发...

AIGC 2024-02-26 人工智能

799阅读

Sora神图惊掉下巴，好莱坞导演急撤掉8亿美元摄影棚！ Sora「内测」提前开放，影视失业潮将至

就在昨天，Sora又有全新「神作」炸出了！两位Sora作者，Bill Peebles、Tim Brooks纷纷甩出全新图片。（顺便还秀了一把基友情？）「一只小熊猫和一只巨嘴鸟是最好的朋友，在蓝色时刻漫步在圣托里尼岛」，Peebles称这个场景简直就和...

AIGC 2024-02-26 人工智能

900阅读

huggingface学习|用dreambooth和lora对stable diffusion模型进行微调

目录用dreambooth对stable-diffusion-v1-5模型进行微调（一）模型下载和环境配置（二）数据集准备（三）模型微调（四）运行微调后的模型用lora对stable-diffusion-v1-5模型进行微调...

生成式AI 2024-02-26 人工智能

1313阅读

选择最适合数据的嵌入模型：OpenAI 和开源多语言嵌入的对比测试

OpenAI最近发布了他们的新一代嵌入模型embedding v3，他们将其描述为性能最好的嵌入模型，具有更高的多语言性能。这些模型分为两类:较小的称为text- embeddings -3-small，较大且功能更强大的称为text- embeddin...

AIGC 2024-02-26 人工智能

1048阅读

动手实践丨轻量级目标检测与分割算法开发和部署(RK3568)

本文分享自华为云社区《自动驾驶(AIOT - 轻量级目标检测与分割算法开发和部署(RK3568 【玩转华为云】》，作者：HouYanSong。本文将在ModelArts平台上开发轻量级目标检测与分割算法，并使用ModelBox框架在RK3568开发板...

人工智能 2024-02-26 人工智能

1018阅读

VideoPrism官网体验入口 AI视频理解编码器使用介绍

VideoPrism是一个通用的视频编码模型，可在各种视频理解任务上取得领先的性能，包括分类、定位、检索、字幕生成和问答等。其创新点在于预训练的数据集非常大且多样，包含 3600 万高质量的视频-文本对，以及5. 82 亿带有嘈杂文本的视频剪辑。预训练采用...

AIGC 2024-02-26 人工智能

873阅读

【EMNLP 2023】面向Stable Diffusion的自动Prompt工程算法

近日，阿里云人工智能平台PAI与华南理工大学朱金辉教授团队合作在自然语言处理顶级会议EMNLP2023上发表了BeautifulPrompt的深度生成模型，可以从简单的图片描述中生成高质量的提示词，从而使文生图模型能够生成更美观的图像。BeautifulP...

大数据 2024-02-26 人工智能

898阅读

YOLO不死！YOLOv9出炉：性能速度SOTA~

本文经自动驾驶之心公众号授权转载，转载请联系出处。如今的深度学习方法专注于设计最适合的目标函数，以使模型的预测结果与实际情况最接近。同时，必须设计一个合适的架构，以便为预测获取足够的信息。现有方法忽略了一个事实，即当输入数据经过逐层特征提取和空间变换...

人工智能 2024-02-26 人工智能

920阅读

出门问问开放大模型“序列猴子”开源数据集

出门问问宣布，将向公众开放其超大规模语言模型“序列猴子”的部分训练数据集，命名为“序列猴子开源数据集1.0”。序列猴子，作为出门问问的核心技术之一，具备强大的通用表示与推理能力，已在问答系统、自然语言处理、机器翻译、文本摘要等多个领域展现出其卓越的性能，...

大数据 2024-02-26 人工智能

881阅读

打入AI底层！NUS尤洋团队用扩散模型构建神经网络参数，LeCun点赞

扩散模型，迎来了一项重大新应用—— 像Sora生成视频一样，给神经网络生成参数，直接打入了AI的底层！这就是新加坡国立大学尤洋教授团队联合UCB、Meta AI实验室等机构最新开源的研究成果。具体来说，研究团队提出了一种用于生成神经网络参数的扩散模...

AIGC 2024-02-26 人工智能

805阅读

谷歌AI视频再出王炸！全能通用视觉编码器VideoPrism，性能刷新30项SOTA

AI视频模型Sora爆火之后，Meta、谷歌等大厂纷纷下场做研究，追赶OpenAI的步伐。最近，来自谷歌团队的研究人员提出了一种通用视频编码器——VideoPrism。它能够通过单一冻结模型，处理各种视频理解任务。图片论文地址：https://a...

大数据 2024-02-26 人工智能

896阅读

一种推荐系统中的排序学习的原创算法：斯奇拉姆排序

作者 | 汪昊审校 | 重楼排序学习在推荐系统中的应用在最近数年来非常罕见。经典的算法比如 BPR 和 CLiMF 早在 10 多年前就已经被发明。因此当 2023 年国际会议 AIBT 2023 上有学者提出斯奇拉姆排序时，众多听众眼前一亮。该算...

AIGC 2024-02-26 人工智能

932阅读