分布式第10页 - AIGC资讯

阿里智能体“组装工厂”开源！0经验搞定上万Agent并发

让多智能体开发就像搭积木，阿里巴巴通义实验室开源多智能体编程框架与开发平台AgentScope。该平台专门为多智能体应用开发者打造，旨在提供高易用的编程体验、稳定可靠的运行时保障，并且为开发者提供了分布式和多模态的技术支持。内置了OpenAI、Das...

人工智能 2024-04-28 人工智能

857阅读

一次性讲明白，如何搞定一个可以支持多芯混合训练的 AI 集群

由于外部环境的变化，适用于大模型训练任务的 GPU 整体规模无法继续增长。这些存量 GPU 组成的集群，仍然是当前加速大模型训练的主要 AI 算力来源。同时，各类国产 AI 芯片开始大规模投入实际生产任务。在未来一段时间内，数据中心的 AI 算力将保持多...

大数据 2024-04-26 人工智能

797阅读

用AI应对网络安全挑战，思科推出“HyperShield”安全系统

思科日前推出了一款新的安全产品，据称可以利用AI帮助用户保护关键系统。思科表示，这项名为“HyperShield”的安全系统能够将多个IT资产转换为安全执行点，包括公共云中的虚拟机和Kubernetes集群，使用户能够更容易地阻止应用程序漏洞和黑客入...

大数据 2024-04-23 人工智能

856阅读

预测性人工智能将如何帮助实现净零排放

预测性人工智能是生成式人工智能 (AI 的表亲，其使用历史数据中的模式来预测未来结果或对未来事件进行分类，有专家表示，该技术可用于提供可操作的见解并辅助决策和战略制定。在过去一年左右的时间里，我们看到能源行业出现了许多新的、令人兴奋的预测性人工智...

大数据 2024-04-22 人工智能

824阅读

K8s和大模型真的搭吗？

编译|言征出品 | 51CTO技术栈（微信号：blog51cto） K8s和大模型真的搭吗？本文抛出了一个问题，但答案仍有待验证。 1.K8s迎来了新的受众群体假设一位机器学习研究人员阅读了一篇研究论文，并想在PyTorch环境中使用基于Pytho...

大数据 2024-04-20 人工智能

851阅读

【直播预告】大模型会取代程序员吗？

分享嘉宾：杨彦波，科大讯飞 AI 工程院智能体研究负责人。孙逸神，PingCAP AI Lab Data Scientist. 你用过哪些 AI 编码工具？你觉得它能取...

生成式AI 2024-04-20 人工智能

898阅读

探索网络爬虫：技术演进与学习之路

网络爬虫及IP代理池前言爬虫技术的演进最新的爬虫技术爬虫技术学习路线前言在信息时代，网络爬虫技术作为获取和处理网络数据的重要手段，已经成为数据科学、机器学习和许多商业应用的基石。从简单的HTML页面抓取到复杂的动态内容...

人工智能 2024-04-11 大数据

1030阅读

开源大模型食用指南官网地址入口详细环境配置、模型部署、高效微调方法教程

开源大模型食用指南是一个旨在帮助用户学习和应用开源大模型的全流程指导教程。它提供了详细的环境配置、模型部署、高效微调等方法，以简化开源大模型的使用和应用，让更多普通学习者能够轻松上手。该项目面向对开源大模型感兴趣且想自主上手的学习者，为他们提供了详尽的环境...

人工智能 2024-04-11 人工智能

870阅读

2024-03-26 AIGC-大模型学习路线

摘要: 2024-03-26 AIGC-大模型学习路线大模型学习路线建议先从主流的Llama开始，然后选用中文的Qwen/Baichuan/ChatGLM，先快速上手体验prompt工程，然后再学习其架构，跑微调脚本如果要深入学习，建...

大数据 2024-04-11 人工智能

2357阅读

提高 AI 训练算力效率：蚂蚁 DLRover 故障自愈技术的创新实践

本文来自蚂蚁 DLRover 开源负责人王勤龙（花名长凡）在 2024 全球开发者先锋大会(GDC 的分享——《DLRover 训练故障自愈：大幅提升大规模 AI 训练的算力效率》。王勤龙，长期在蚂蚁从事 AI 基础设施的研发，主导了蚂蚁分布式训练的弹...

大数据 2024-04-09 人工智能

977阅读

肯睿Cloudera宣布新任大中华区副总裁

中国北京，2024 年 4月 9 日——企业大数据和人工智能平台公司肯睿Cloudera今日宣布任命新任大中华区副总裁。此举旨在进一步聚焦客户成功及业务转型，并通过提供混合多云大数据和大模型能力，助力企业适应大数据和人工智能应用的发展，加速数字化转型进程...

人工智能 2024-04-09 人工智能

871阅读

标题：探索AI绘画：使用深度学习生成艺术

正文：随着计算机技术的发展，人工智能在各个领域取得了显著的成果。通过训练深度学习模型，AI可以学习大量的艺术作品，从而生成具有独特风格和创意的新作品。本文将介绍如何使用Python和TensorFlow实现一个简单的AI绘画程序。...

生成式AI 2024-04-09 人工智能

874阅读

[AIGC] 用幂等性解决重复消息问题

在构建分布式系统时，开发人员经常会遇到重复消息问题。这可能是由于网络延迟、系统故障或其他原因导致的。无论如何，重复消息会导致系统出现错误和不一致状态。为了解决这个问题，我们可以使用幂等性来确保系统的可靠性和一致性。文章目录什...

人工智能 2024-04-09 人工智能

752阅读

GitHub突破1000星！上交、清华开源个性化联邦学习算法库PFLlib

想了解更多AIGC的内容，请访问： 51CTO AI.x社区 https://www.51cto.com/aigc/ 我们在 GitHub 上开源了一个个性化联邦学习算法仓库（PFLlib），目前已经获得 1K+ 个 Star 和 200+ 个 Fork...

大数据 2024-04-08 人工智能

1102阅读

爬虫原理及反爬虫技术

对于大数据行业，数据的价值不言而喻，在这个信息爆炸的年代，互联网上有太多的信息数据，对于中小微公司，合理利用爬虫爬取有价值的数据，是弥补自身先天数据短板的不二选择，本文主要从爬虫原理、架构、分类以及反爬虫技术来对爬虫技术进行了总结。 1、爬虫技术概述...

大数据 2024-04-06 大数据

1119阅读

LLaMA 模型中的Transformer架构变化

目录 1. 前置层归一化（Pre-normalization） 2. RMSNorm 归一化函数 3. SwiGLU 激活函数 4. 旋转位置嵌入（RoPE） 5. 注意力机制优化 6. Group Query Attention 7. 模型...

AIGC 2024-04-02 人工智能

1239阅读

马斯克突发Grok 1.5！上下文长度至128k、HumanEval得分超GPT-4

就在刚刚，马斯克Grok大模型宣布重大升级。难怪之前突然开源了Grok-1，因为他有更强的Grok-1.5了，主打推理能力。来自xAI的官方推送啥也没说，直接甩链接。主打一个“字少事大” 图片新版本Grok有啥突破？一是上下文长度飙升，从8192...

人工智能 2024-04-01 人工智能

877阅读

[AIGC] MySQL与PostgreSQL：两种流行的数据库系统的对比

数据库是存储和查询数据的重要工具。在选择数据库时，两个经常被考虑的选项都是开源的：MySQL和PostgreSQL。这两个数据库都与许多应用程序一起使用，但它们在某些方面存在显著的不同。在本文中，我们将比较MySQL和PostgreSQL的一些关键特性。...

AIGC 2024-04-01 人工智能

886阅读

【AIGC调研系列】Grok大模型与其他模型相比的优势和劣势

Grok大模型与其他模型相比，具有以下优势和劣势：优势：实时了解世界的能力：Grok能够通过X平台实时了解世界，这是其独特而根本的优势之一[2][6][17]。这意味着Grok能够在回答问题时提供最新的信息和数据。处理尖锐问题的能力：Gro...

大数据 2024-03-31 人工智能

2487阅读

AIGC时代的数字化转型核心 Springboot集成数据治理神器

大数据Hadoop 生态的三大部件的目录往期热门专栏回顾前言 1、HDFS 2、Yarn 3、Hive 4、HBase 4.1．特点 4.2．存储 5、Spark及Spark Streaming 关于作者往期热门专栏回顾...

大数据 2024-03-31 人工智能

1030阅读

[AIGC] 探索消息队列事务

探索消息队列事务消息队列(Transaction 被广泛地应用在分布式系统中，它可提供一种异步通信机制，在多个独立组件间传递消息。然而，消息处理的正确性和一致性是构建高效、可用的分布式系统的关键。继续阅读，以了解消息队列事务的概念和重要性。什么...

大数据 2024-03-31 人工智能

794阅读

探索人工智能与操作系统设计的交集

人工智能(AI 和操作系统(OS 代表了现代计算的两大基石。随着技术的进步，人工智能和操作系统设计之间的合作变得越来越重要。这篇文章的主要目的是探索这两个领域之间的共生关系，研究人工智能如何影响操作系统设计，反之亦然。我们将研究人工智能和操作...

大数据 2024-03-29 人工智能

840阅读

开源11天，马斯克再发Grok-1.5！128K代码击败GPT-4

Grok-1官宣开源不过半月，新升级的Grok-1.5出炉了。刚刚，马斯克xAI官宣，128K上下文Grok-1.5，推理能力大幅提升。并且，很快就会上线。 11天前，Grok-1模型的权重和架构开源，展示了Xai在去年11月之前取得的进展。 Gr...

生成式AI 2024-03-29 人工智能

851阅读

AI武器化成为地下论坛的热门话题

传统上，驱动式攻击被定义为从受损网站自动下载恶意文件而无需用户交互。然而，在报告期间审查的大多数情况中，都涉及用户操作——在近30%的事件中促进了初始访问。威胁行为者用AI自动化攻击在主要的网络犯罪论坛中，使用AI加速这些攻击正受到越来越多...

大数据 2024-03-29 人工智能

887阅读

Grok-1.5官网体验入口马斯克xAI最新超长文本模型使用地址

当地时间 3 月 28 日，人工智能初创公司xAI宣布即将推出Grok-1.5模型，该模型具有长语境理解和高级推理能力。不久后，Grok-1.5将向X平台的用户和早期测试者开放。 Grok-1.5是一种先进的大型语言模型，具有出色的长文本理解和推理能力。它...

生成式AI 2024-03-29 人工智能

891阅读

X AI 发布Grok-1.5更新：性能显著提升支持128K上下文长度

昨天，X AI 发布了其最新的大型语言模型更新——Grok-1.5。该版本在编码和与数学相关的任务中表现出了显著的性能提升。据详细介绍，Grok-1.5在 MATH 基准测试中获得了50.6%的分数，在 GSM8K 基准测试中获得了90%的分数，这标志着...

AIGC 2024-03-29 人工智能

832阅读

八个塑造网络防御未来的网络安全预测

由于个人法律风险敞口，预计全球100家企业中的三分之二将向网络安全领导人提供董事和高级管理人员保险。此外，与虚假信息作斗争预计将花费企业超过5000亿美元。随着我们开始超越GenAI的可能，出现了帮助解决一些长期困扰网络安全的问题的坚实机会，特别是技...

人工智能 2024-03-28 人工智能

811阅读

llama factory学习笔记

模型模型名模型大小默认模块 Template Baichuan2 7B/13B W_pack baichuan2 BLOOM 560M/1.1B/1.7B/3B/7.1B/176B query_key_value - BLOOM...

大数据 2024-03-28 人工智能

1242阅读

【在线回放】NVIDIA GTC 2024 大会 | 如何降低 AI 工程成本？蚂蚁从训练到推理的全栈实践

本文内容来源于蚂蚁集团 AI Infra部门负责人张科，在 GTC 2024 大会 China AI Day 线上专场的演讲。在演讲中张科分享了 AI 工程当前的现状和主要挑战，以及蚂蚁集团在 AI 工程领域的实践经验和开源项目，也欢迎 AI 工程领域的同...

AIGC 2024-03-27 人工智能

1003阅读

AI和6G：构建自给自足的安全网络

在技术快速进步的时代，人工智能(AI 和即将推出的第六代(6G 无线通信技术的融合，有望彻底改变我们感知网络和与网络交互的方式。随着互连设备的激增，以及对高速、低延迟连接的需求不断增加，自我维持和安全网络的发展已成为首要关注的问题。本文将深入探讨人工智能...

大数据 2024-03-25 人工智能

908阅读

突发！Stability AI的CEO，跑路了

生成式 AI 的明星创业公司 Stability AI，现在是风雨飘摇的状态。周六上午，Stability AI 突然发布一项公告，宣布公司 CEO Emad Mostaque 辞职。公告全文内容如下：今天早些时候，Emad Mo...

大数据 2024-03-25 人工智能

940阅读

AIGC时代下阿里云视频云媒体内容生产技术实践

编者按 AIGC时代下，媒体内容生产领域随着AI的出现也涌现出更多的变化与挑战。面对AI的巨大冲击，如何优化或重构媒体内容生产技术架构？在多样的应用场景中媒体内容生产技术又有着怎样的实践效果？LiveVideoStackCon2023...

AIGC 2024-03-24 人工智能

872阅读

最全总结！机器学习优化算法！

机器学习的最优化算法是用于找到最佳模型参数，以最小化预测误差的算法。这些算法通过迭代地调整模型参数，以不断改进模型的性能。本文系统地介绍了优化算法，基本脉络是从优化的基础知识，到各种优化算法原理的介绍及代码示例，最后放上各种算法的对比及实践经验总结!...

人工智能 2024-03-22 人工智能

1136阅读

数据本地性如何助力企业在云上实现高效机器学习

2.2 训练前将数据从远端拷贝到本地另一种方案是在训练开始之前手动将数据集从远端云存储拷贝到本地磁盘/存储中。这样可以让数据位于本地，从而具备数据本地性的所有性能和成本优势。该方案的挑战主要在于数据管理。用户必须在作业完成后手动删除已拷贝的数据，为下一...

人工智能 2024-03-22 人工智能

1004阅读

人工智能对数据中心电力和可持续性的双重影响

数据中心在管理电力和提高能源效率方面面临着不断升级的挑战。人工智能驱动的工作负载激增加剧了数据中心资源的压力，加剧了人们对能源消耗和环境可持续性的担忧。预计到2026年，全球数据中心的电力消耗可能会增加一倍以上。人工智能将在数据中心中发挥的根本性转变怎...

AIGC 2024-03-20 人工智能

852阅读

ChatGPT之父Altman两小时对谈，首聊GPT-5何时发布、llya去哪里了、Q*究竟是什么……

Altman做客油管博主Lex Fridman科技博客，被追问了一个又一个辛辣的问题。长达两个小时的对谈，奥特曼从OpenAI宫斗、马斯克诉讼、Sora，一直聊到AGI与外星文明！本文重点梳理了长对谈中的精彩部分，对于科技圈的焦点议题，奥特曼是...

生成式AI 2024-03-20 人工智能

867阅读

50+国内外大模型专家齐聚，全球机器学习技术大会第二批嘉宾阵容公布！

50+ 国内外大模型重磅专家智谱、百川、零一万物、智源、面壁智能微软、阿里通义、小米、北大、复旦 eBay、恒生、达观、金山、度小满等共同探讨 AI 前沿发展与落地实践全球机器学习技术大会第二批嘉宾重磅出炉 Daniel Povey 博士毕业于英...

人工智能 2024-03-20 人工智能

827阅读

“mogublog采集插件”的功能特性及其对网络内容创作的影响

在互联网时代，内容的创作与分享已成为人们日常生活的重要组成部分。为满足不断增长的内容需求，各种内容管理系统和插件应运而生，极大地丰富了我们的网络生活。其中，“mogublog采集插件”作为一款功能强大的工具，其在内容采集和管理方面的优异表现，受到了众多网站...

大数据 2024-03-19 大数据

979阅读

《采集Discuz论坛：方法、技巧与注意事项》

在互联网高速发展的时代，数据采集已成为获取信息的重要途径之一。Discuz论坛作为国内知名的社区论坛软件，拥有大量的用户生成内容，对于数据分析和研究具有很高的价值。本文将详细介绍如何采集Discuz论坛的数据，包括采集方法、技巧以及需要注意的事项，帮助读者...

生成式AI 2024-03-19 大数据

1237阅读

NVIDIA大语言模型落地的全流程解析

包括三部分内容：第一部分是关于 NeMo Framework。NeMo Framework 是 NVIDIA 大语言模型的全栈解决方案，它通过不同组件完成生成式 AI 各个环节的任务，包括数据预处理、分布式训练、模型微调、模型推理加速及部署（Ten...

生成式AI 2024-03-18 人工智能

933阅读

基于“瞬采discuz采集器”的内容管理与信息收集

随着互联网信息技术的迅猛发展，海量的网络资源成为人们获取知识和信息的重要途径。尤其在社交网络、论坛社区等平台中，隐藏着众多宝贵的原创内容与用户生成数据。如何高效地抓取这些数据并进行有序管理，一直是网络信息管理领域的研究热点。“瞬采discuz采集器”作为一...

AIGC 2024-03-18 大数据

822阅读

基于Discuz论坛全站采集的数据挖掘与分析

随着互联网的迅猛发展，论坛作为信息交流和共享的平台，一直扮演着重要的角色。Discuz作为一款知名的论坛软件系统，广泛应用于各类网站和社区。全站采集是指对Discuz论坛中的各类数据进行全面抓取和整理的过程，通过这一过程，我们可以获取到论坛中的丰富信息，进...

AIGC 2024-03-17 大数据

912阅读

2023年评选：探寻最佳Discuz论坛采集器，助力数据采集与整合

在互联网时代的浩瀚信息海洋中，论坛一直是知识分享、交流互动的重要平台。Discuz，作为一款在国内颇具影响力的论坛系统，其开放性和丰富的插件生态吸引了大量站长和用户的青睐。然而，随着大数据时代的来临，如何从Discuz论坛中高效、准确地采集信息，成为了不少...

AIGC 2024-03-17 大数据

947阅读

基于“文章采集”的技术应用与发展趋势

随着互联网的蓬勃发展，网络上的信息呈现爆炸式增长，如何高效地从海量的网络资源中获取所需文章变得愈发重要。在这一背景下，“文章采集”作为一种重要的信息技术手段，应运而生并不断发展壮大。本文将深入探讨文章采集技术的定义、应用领域以及未来的发展趋势。一、文章采集...

AIGC 2024-03-16 大数据

950阅读

Python爬虫采集的数据存储到HDFS的实践与探索

随着大数据时代的来临，数据的采集、存储和处理成为了许多企业和研究机构的重要工作。在这个过程中，Python爬虫因其灵活性和易用性成为了数据采集的常用工具，而Hadoop分布式文件系统（HDFS）则以其高容错性、高吞吐量的特点成为了大数据存储的首选。本文将详...

生成式AI 2024-03-16 大数据

1200阅读

PHP爬虫教程：入门指南与实践精髓

在互联网信息爆炸的时代，数据的采集和处理成为了一项重要技能。PHP作为一种服务器端脚本语言，具有易用性、跨平台性和丰富的Web开发特性，使得它成为了实现网页爬虫的一个理想选择。本文将引导您逐步走进PHP爬虫的世界，从基础知识讲起，深入探讨实现技巧，助您轻松...

大数据 2024-03-16 大数据

895阅读

Python在网络数据采集与发布中的应用

在数字化时代，数据已经成为了一种重要的资源，而网络则是这种资源最为丰富的矿藏。Python，作为一种简洁、高效且易于上手的编程语言，已经在网络数据采集与发布领域展现出了其独特的优势。本文将详细探讨Python在网络数据采集与发布中的应用，包括其基本原理、常...

人工智能 2024-03-16 大数据

939阅读

基于Discuz智能云采集技术的全方位内容采集与分析

随着信息技术的迅猛发展，互联网已经成为人们获取信息、交流思想的重要平台。在这个信息爆炸的时代，如何从海量的网络数据中高效、准确地采集所需内容，成为了众多企业和个人关注的焦点。Discuz智能云采集技术作为一种先进的内容采集解决方案，为用户提供了强大的数据采...

生成式AI 2024-03-16 大数据

844阅读

浅析b3log采集插件的应用与实践

在信息时代的洪流中，网络数据采集逐渐成为企业数据分析、媒体内容获取和科研机构知识储备等多样化的应用场景下，不可或缺的重要环节。特别是针对海量内容站点的信息攫取，“b3log采集插件”作为一个非常优秀的插件应时而生。通过高智能化的筛选以及方便快捷的自定义设定...

人工智能 2024-03-15 大数据

974阅读

4万亿晶体管5nm制程，全球最快AI芯片碾压H100！单机可训24万亿参数LLM，Llama 70B一天搞定

全球最快、最强的AI芯片面世，让整个行业瞬间惊掉了下巴！就在刚刚，AI芯片初创公司Cerebras重磅发布了「第三代晶圆级引擎」（WSE-3）。性能上，WSE-3是上一代WSE-2的两倍，且功耗依旧保持不变。 90万个AI核心，44GB的片上SRA...

生成式AI 2024-03-15 人工智能

853阅读