-
今日AI:OpenAI要给开发者发钱;马斯克Grok-1.5王炸级更新;李玟姐姐称AI“复活”是二次伤害;世界首个Mamba的生产级模型Jamba发布
欢迎来到【今日AI】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。 新鲜AI产品点击了解:https://top.aibase.com/ 📰🤖📢AI新鲜事 OpenAI将推...
-
全面对标GPT4 Turbo!科大讯飞刘聪:6月发布星火大模型V4.0版本
快科技3月27日消息,科大讯飞副总裁、研究院院长刘聪在博鳌2024年会现场表示:科大讯飞计划在今年6月,正式发布对标GPT-4(Turbo)当前能力的星火大模型V4.0版本。” 刘聪还透露,讯飞星火大模型V4.0目前正在训练中。 讯飞星火大模型从去年5月6...
-
llama factory学习笔记
模型 模型名 模型大小 默认模块 Template Baichuan2 7B/13B W_pack baichuan2 BLOOM 560M/1.1B/1.7B/3B/7.1B/176B query_key_value - BLOOM...
-
【在线回放】NVIDIA GTC 2024 大会 | 如何降低 AI 工程成本?蚂蚁从训练到推理的全栈实践
本文内容来源于蚂蚁集团 AI Infra部门负责人张科,在 GTC 2024 大会 China AI Day 线上专场的演讲。在演讲中张科分享了 AI 工程当前的现状和主要挑战,以及蚂蚁集团在 AI 工程领域的实践经验和开源项目,也欢迎 AI 工程领域的同...
-
近屿智能成功完成A轮融资,打造独家AIGC工程师与产品经理学习路径图引发热议
近屿智能OJAC的发展历程与行业实力 在2024年1月,上海近屿智能科技有限公司(简称近屿智能)宣布成功完成A轮融资。智望资本作为领头投资者,金沙江创投也参与了增资。这一里程碑事件不仅突显了近屿智能在人力资源技术领域的领先地位,也显示了投资者对其技术实力...
-
CLIP-BEVFormer:显式监督BEVFormer结构,提升长尾检测性能
本文经自动驾驶之心公众号授权转载,转载请联系出处。 写在前面&笔者的个人理解 目前,在整个自动驾驶系统当中,感知模块扮演了其中至关重要的角色,行驶在道路上的自动驾驶车辆只有通过感知模块获得到准确的感知结果后,才能让自动驾驶系统中的下游规控模块做...
-
AI模型训练:强化算法与进化算法
强化学习算法(RL 和进化算法(EA 都属于机器学习领域的子集,但它们在解决问题的方法和思想上有所不同。 强化学习算法: 强化是一种机器学习范式,它主要关注的是智能体(agent 在与环境进行交互的过程中,通过尝试和错误来学习最优的行为策略,以使其在某...
-
大数据 AI 一体化解读
一、AI 的“iPhone”时刻 在过去的一年中,大模型的发展非常迅速,算力和数据的堆叠使模型具备了一些通用的构造和回答问题的能力,引领人们进入了一直梦想的人工智能阶段。举个例子,在与大语言模型聊天时,会感觉面对的不是一个生硬的机器人,而是一个有血有肉的...
-
llama factory 参数体系EvaluationArguments、DataArguments、FinetuningArguments、FreezeArguments、LoraArgument
项目地址 https://github.com/hiyouga/LLaMA-Factory 模型层参数 这段代码是使用Python的dataclasses模块定义的一个数据类ModelArguments,用于管理和存储与模型微调相关的参数。这个类的设计是...
-
昇思MindSpore 2.3全新发布 | 昇思人工智能框架峰会2024圆满举办
北京时间3月22日消息,人工智能框架作为软件根技术,已成为加速人工智能大模型开发、推动产业智能化发展的核心力量。以“为智而昇,思创之源”为主题的昇思人工智能框架峰会2024今日在北京国家会议中心举办,旨在汇聚AI产业界创新力量,推动根技术持续创新,共建人...
-
为什么说GPU再火,AI平台也少不了强力的CPU
AIGC的这把火,燃起来的可不只是百模大战的热度和雨后春笋般的各式AI应用。 更是由于算力与通信需求的爆发式增长,使得底层的专用加速芯片、以及配备这些芯片的AI加速服务器再次被拉到了大众的聚光灯下。 据统计,2023年全球范围内的AI服务器市场规模已经达到...
-
AIGC狂飙对于普通人意味着什么?
AIGC 人工智能生成内容,相对更早的内容生产模式分别为专家生产内容 PGC 和用户生产内容 UGC。而随着 AIGC 出现,内容生产率变成指数级上升。那么AIGC发展对于普通人来说到底意味着什么? 先回顾一下时间轴, 2015年7月,谷歌推出 De...
-
Stable Diffusion 3 震撼发布,采用Sora同源技术,文字终于不乱码了
Stable Diffusion 3 和 Sora 一样采用了 diffusion transformer 架构。 继 OpenAI 的 Sora 连续一周霸屏后,昨晚,生成式 AI 顶级技术公司 Stability AI 也放了一个大招 ——Sta...
-
亚马逊云科技与英伟达扩展合作 加速超万亿参数级大模型训练
亚马逊云科技与英伟达扩展合作,加速生成式 AI 创新。双方将在亚马逊云科技上提供 NVIDIA Blackwell 架构 GPU,包括 GB200Grace Blackwell 超级芯片和 B100Tensor Core GPU,以帮助客户解锁新的生成式...
-
降低AIGC总体疑似率的七大策略
随着人工智能技术的飞速发展,AIGC(人工智能生成内容)的应用越来越广泛。然而,随之而来的问题是AIGC的疑似率居高不下,这给人们带来了不少困惑和疑虑。为了解决这个问题,本文将探讨降低AIGC总体疑似率的七大策略。 提高数据质量 数据是训练人工智能模...
-
近屿智能成功获得A轮资金,其首创的AIGC工程师与产品经理学习路径图引起业界广泛关注。
2024年1月,上海近屿智能科技有限公司(简称近屿智能)宣布其A轮融资圆满成功,智望资本作为领投方,金沙江创投也进行了追加投资。这一轮融资的成功,标志着近屿智能在AIGC技术领域的领先地位获得了业界的广泛认可,并反映了投资者对其技术实力和未来增长潜力的充分...
-
如何扩展大模型的上下文长度
一、背景 大模型的上下文长度是指我们在使用大模型的时候,给大模型的输入加上输出的字符(Token)总数,这个数字会被限制,如果超过这个长度的字符会被大模型丢弃。目前开源的大模型上下文长度一般不长,比如 Llama 2 只有 4K,Code-Llama 系...
-
NVIDIA大语言模型落地的全流程解析
包括三部分内容: 第一部分是关于 NeMo Framework。NeMo Framework 是 NVIDIA 大语言模型的全栈解决方案,它通过不同组件完成生成式 AI 各个环节的任务,包括数据预处理、分布式训练、模型微调、模型推理加速及部署(Ten...
-
智能邮件防护:ML.NET 3.0助力垃圾邮件过滤,让你告别烦扰
概述:ML.NET3.0等机器学习工具,我们可以利用这一数据集训练模型,实现自动分类邮件为垃圾或正常,提高电子邮件过滤效果。 ML.NET是Microsoft推出的开源机器学习框架,可用于在.NET应用程序中集成机器学习功能。ML.NET提供了基础用法...
-
自适应剪枝让多模态大模型加速2-3倍,哈工大等推出SmartTrim
基于 Transformer 结构的视觉语言大模型(VLM)在各种下游的视觉语言任务上取得了巨大成功,但由于其较长的输入序列和较多的参数,导致其相应的计算开销地提升,阻碍了在实际环境中进一步部署。为了追求更为高效的推理速度,前人提出了一些针对 VLM 的...
-
AI写作的深度探索:困惑度、爆发度与内容质量的角力
大家好,小发猫降重今天来聊聊AI写作的深度探索:困惑度、爆发度与内容质量的角力,希望能给大家提供一点参考。 以下是针对论文重复率高的情况,提供一些修改建议和技巧,可以借助此类工具: AI写作的深度探索:困惑度、爆发度与内容质量的角力 在当今的数字...
-
全球最快AI芯片WSE-3发布 性能碾压H100!
最新发布的全球最强AI芯片WSE-3引起了行业的瞩目。该芯片采用了先进的4万亿晶体管5nm制程,拥有惊人的性能,单机可训练出24万亿参数的模型,远超英伟达H100GPU。 WSE-3的技术优势在于其90万个AI核心和44GB片上SRAM存储,使其峰值性能达...
-
4万亿晶体管5nm制程,全球最快AI芯片碾压H100!单机可训24万亿参数LLM,Llama 70B一天搞定
全球最快、最强的AI芯片面世,让整个行业瞬间惊掉了下巴! 就在刚刚,AI芯片初创公司Cerebras重磅发布了「第三代晶圆级引擎」(WSE-3)。 性能上,WSE-3是上一代WSE-2的两倍,且功耗依旧保持不变。 90万个AI核心,44GB的片上SRA...
-
超强!深度学习Top10算法!
自2006年深度学习概念被提出以来,20年快过去了,深度学习作为人工智能领域的一场革命,已经催生了许多具有影响力的算法。那么,你所认为深度学习的top10算法有哪些呢? 以下是花哥我心目中的深度学习top10算法,它们在创新性、应用价值和影响力方面都具...
-
房价预测模型代码笔记以及文心一言Q.A记录
导入库方面略过不提 第一部分:简易日期处理模块 def processdate(date : date_num = (int(date[:4] - 2014 *12 + (int(date[4:6] -5 return date_n...
-
如何使用Nightshade保护艺术品免受生成式AI的侵害
译者 | 陈峻 审校 | 重楼 如您所见,当前正在发生的这场人工智能(AI)革命已经席卷了各行各业。其中给人最直观的感受便是,在基于交互式人机对话的基础上,AI算法不但可以生成类似人类语言的文本,而且能够根据一个(组)单词创建图像和视频。不过,这些人工智...
-
蚂蚁金服异常检测和归因诊断分析实践
一、归因诊断 在实际工作中,我们常常受到业务方对关键绩效指标(KPI)的灵魂拷问:某个 KPI 指标为什么会上升或下降?归因诊断的任务就是解释这些指标变化的原因。 归因诊断把问题的定位过程看作是一个因子对比的过程:指标在基准时间区间的值为 y,...
-
扩散模型如何构建新一代决策智能体?超越自回归,同时生成长序列规划轨迹
设想一下,当你站在房间内,准备向门口走去,你是通过自回归的方式逐步规划路径吗?实际上,你的路径是一次性整体生成的。 近期的研究表明,采用扩散模型的规划模块能够同时生成长序列的轨迹规划,这更加符合人类的决策模式。此外,扩散模型在策略表征和数据合成方面也能为...
-
近屿智能完成A轮融资,打造行业领先的AIGC工程师与产品经理成长蓝图
2024年1月,上海近屿智能科技有限公司(简称近屿智能)成功完成了A轮融资,智望资本担任了领投角色,而金沙江创投也进行了追加投资。这一融资里程碑充分证明了近屿智能在AIGC行业的技术领先地位得到了市场的广泛认可和投资人的青睐。 自创立伊始,近屿智能始...
-
云知声旗下蓝藻AI服务升级 推出 AI 声音克隆等功能
云知声 AIGC 内容创作平台蓝藻 AI 近日进行全新升级,重点关注 AI 声音克隆和 AI 配音两大核心功能。 声音克隆是蓝藻 AI 的核心功能之一,用户可以通过声音克隆在线复刻自己的声音,快速、简单、低成本地创建个性化音频。只需提供少量用户原始录音,就...
-
PyTorch 该怎么学?太简单了
挺多小伙伴问过PyTorch该怎么学,经过长期实践来看,初学者需要熟知的概念和用法真的不多,以下总结的简明指南一起看看吧! 构建Tensor PyTorch 中的 Tensors 是多维数组,类似于 NumPy 的 ndarrays,但可以在 GPU...
-
Midjourney封禁Stability AI 禁止后者员工使用软件
Midjourney封禁Stability AI引发了一场关于数据安全和道德责任的争议。事件起因于Stability AI的数据收集工程师对Midjourney服务器发起了恶意攻击,导致其服务中断24小时。尽管Stability AI CEO Emad声称...
-
AI加速引擎PAI-TorchAcc:OLMo训练加速最佳实践
作者:黄奕桐、沈雯婷、艾宝乐、王昂、李永 摘要 阿里云机器学习平台PAI开发的Pytorch训练加速框架PAI-TorchAcc已接入最新开源的大语言模型 OLMo。 在保证模型效果和易用性的前提下,PAI-TorchAcc相对 PyTorch 性能在...
-
近屿智能完成A轮融资,独家打造的AIGC工程师与产品经理学习路径图成行业焦点
2024年1月,上海近屿智能科技有限公司(以下简称近屿智能)宣布成功完成A轮融资,由智望资本领投,金沙江创投追加投资。这一重大融资事件不仅象征着近屿智能在AIGC领域的领先地位得到了市场的广泛认可,更凸显了投资人对近屿智能技术实力与未来发展潜力的坚定信心。...
-
向英伟达发起挑战的Groq是什么来头?简单科普新型AI芯片LPU
在如今的人工智能领域,「GPU is All You Need」已经逐渐成为共识。没有充足的 GPU,连 OpenAI 都不能轻易升级 ChatGPT。 不过最近,GPU 的地位也在经受挑战:一家名为 Groq 的初创公司开发出了一种新的 AI 处理器...
-
一文总结扩散模型(Diffusion Model)在时间序列中的应用
扩散模型是目前生成式AI中的最核心模块,在Sora、DALL-E、Imagen等生成式AI大模型中都取得了广泛的应用。与此同时,扩散模型也被越来越多的应用到了时间序列中。这篇文章给大家介绍了扩散模型的基本思路,以及几篇扩散模型用于时间序列的典型工作,带你...
-
实战解析:打造风控特征变量平台,赋能数据驱动决策
金融业务产品授信准入、交易营销等环节存在广泛的风控诉求,随着业务种类增多,传统的专家规则、评分卡模型难以应付日趋复杂的风控场景。 在传统风控以专家规则系统为主流应用的语境下,规则模型的入参习惯被称为“变量”。基于专家规则的风险评估,存在规则触发阈值难量化...
-
十大必知的人工智能算法
随着人工智能技术(AI)的日益普及,各种算法在推动这一领域的发展中发挥着关键作用。从预测房价的线性回归到自动驾驶汽车的神经网络,这些算法在背后默默支撑着无数应用的运行。 今天,我们将带您一览这些热门的人工智能算法(线性回归、逻辑回归、决策树、朴素贝叶斯...
-
每日一看大模型新闻(2023.12.28)发现GPT-4 API存在重大漏洞;告别冷启动,LoRA为大模型提速高达300%;发布中文大模型基准测评年度报告;腾讯云AI绘画首批通过AIGC绘画平台评估
1.产品发布 1.1微软:明年春季推出首款AI PC 发布日期:2023.12.28 Microsoft’s next Surface laptops will reportedly be its first true ‘AI PCs’ - The...
-
清华、哈工大把大模型压缩到了1bit,把大模型放在手机里跑的愿望就快要实现了!
自从大模型火爆出圈以后,人们对压缩大模型的愿望从未消减。这是因为,虽然大模型在很多方面表现出优秀的能力,但高昂的的部署代价极大提升了它的使用门槛。这种代价主要来自于空间占用和计算量。「模型量化」 通过把大模型的参数转化为低位宽的表示,进而节省空间占用。目...
-
一文搞懂:AI、机器学习与深度学习的联系与区别
在当今科技日新月异的浪潮中,人工智能(Artificial Intelligence, AI)、机器学习(Machine Learning, ML)与深度学习(Deep Learning, DL)如同璀璨星辰,引领着信息技术的新浪潮。这三个词汇频繁出现在...
-
近屿智能独家发布:AIGC大模型工程师和产品经理详细学习路径图(附完整版学习路径图)
AI不会取代你的工作,会取代你的是懂AI的人,如何提升自己与他人的知识壁垒,如何学习AIGC?相信在刚刚过去2023这个AI爆发的元年,我相信也是很多人的疑问,好像不懂使用点AI工具,例如ChatGpt、Midjourney或者SD,就好像被淘汰了一样,更...
-
【文生视频】Diffusion Transformer:OpenAI Sora 原理、Stable Diffusion 3 同源技术
文生视频 Diffusion Transformer:Sora 核心架构、Stable Diffusion 3 同源技术 Sora 网络结构 提出背景 输入输出 生成流程 变换器的引入 Diffusion Transformer (DiT...
-
Stable diffusion不同模型变量的work pipeline:checkpoint、lora、vae等等到底是怎么work together的?
SD里面有很多不同种类的模型参数,比如embedding、vae、checkpoint、hypernetwork、controlNet、clip还有lora,我看了很多博客,发现它们都是言语寥寥几句说什么改变风格,用于调整和改善生成图片的色彩之类的有点废话...
-
英伟达最强通用大模型Nemotron-4登场!15B击败62B,目标单张A100/H100可跑
最近,英伟达团队推出了全新的模型Nemotron-4,150亿参数,在8T token上完成了训练。 值得一提的是,Nemotron-4在英语、多语言和编码任务方面令人印象深刻。 论文地址:https://arxiv.org/abs/2402.1681...
-
理解Stable Diffusion、LoRA、Dreambooth、Hypernetworks、Textual Inversion、Checkpoint
前言 在深度学习和人工智能的领域中,模型生成和调整技术的快速发展为创造性内容的自动化提供了新的可能性。本文将介绍四种重要的模型技术——Stable Diffusion、LoRA、Dreambooth、和Hypernetworks——它...
-
OpenAI和微软被The Intercept等三家新闻机构起诉,指控侵犯版权
《The Intercept》,《Raw Story》和《AlterNet》三家新闻机构在纽约南区分别提起诉讼,指控OpenAI和Microsoft存在侵权行为,包括在培训AI模型时删除作者、标题和其他版权信息。这三起案件均由同一律师事务所代理。 这些媒体...
-
解说 AIGC(人工智能生成内容) 是什么?
前言 AIGC (AI Generated Content 即人工智能生成内容,一般认为是相对于PCG(专业生成内容 、UCG(用户生成内容 而提出的概念。AIGC狭义概念是利用AI自动生成内容的生产方式。广义的AIGC可以看作是像人类一样具备生...
-
OpenAI:纽约时报雇黑客攻击我
堂堂AI巨头,怎么就被一家报纸雇黑客攻击了? 《纽约时报》诉OpenAI侵犯版权索赔数十亿美元案最新进展: 在最新提交的法庭文件中,OpenAI声称《纽约时报》花钱找黑客攻击ChatGPT,人为制造侵权结果。 使用欺骗性手段进行数万次尝试,才得到高度异常...
-
千卡利用率超98%,详解JuiceFS在权威AI测试中的实现策略
2023 年 9 月,AI 领域的权威基准评测 MLPerf 推出了 Storage Benchmark。该基准测试通过模拟机器学习 I/O 负载的方法,在不需要 GPU 的情况下就能进行大规模的性能压测,用以评估存储系统的在 AI 模型训练场景的适用性。...