语料库 - AIGC资讯

ai驱动的智能客服：从聊天机器人到情感分析

标题：AI驱动的智能客服：从聊天机器人到情感分析的进化之旅在数字化时代，客户服务体验已成为企业竞争的关键要素之一。随着人工智能（AI）技术的飞速发展，智能客服系统正逐步从简单的聊天机器人进化为具备深度理解和情感分析能力的全方位服务助手，为企业与消费者之间搭...

大数据 2025-08-03 人工智能

535阅读

生成式ai如何重塑自然语言处理边界？

标题：生成式AI：重塑自然语言处理的边界在人工智能的浩瀚宇宙中，自然语言处理（NLP）一直是探索人类智能与机器交互的重要领域。随着技术的不断进步，尤其是生成式人工智能（Generative AI）的崛起，我们正见证着NLP边界的深刻重塑。生成式AI，以其强...

大数据 2025-07-22 人工智能

443阅读

ai与语言学：濒危语言保护与机器翻译的进化

标题：AI与语言学：濒危语言保护与机器翻译的进化在21世纪的科技浪潮中，人工智能（AI）以其独特的魅力和无限潜力，正深刻改变着人类社会的方方面面。特别是在语言学领域，AI技术的应用不仅推动了机器翻译的飞速发展，还为濒危语言的保护开辟了新的路径。这一交叉领域...

大数据 2025-07-14 人工智能

549阅读

人工智能与语言：从nlp到通用语义理解

标题：人工智能与语言：从NLP到通用语义理解的跨越在科技的浩瀚星空中，人工智能（AI）无疑是最璀璨的星辰之一，而语言作为人类智慧的结晶与交流的基石，与AI的交汇点——自然语言处理（NLP），则成为了探索智能边界的关键领域。从最初的词汇匹配、句法分析，到如今...

生成式AI 2025-07-10 人工智能

435阅读

ai与语言消亡：技术如何保护濒危语言？

标题：AI与语言消亡：技术如何成为濒危语言的守护者在人类文明的浩瀚星空中，语言是璀璨夺目的星辰，每一颗都承载着独特的文化记忆与历史智慧。然而，随着全球化的加速推进和现代生活方式的普及，许多小众而珍贵的语言正面临着前所未有的生存危机。据联合国教科文组织估计，...

AIGC 2025-06-29 人工智能

521阅读

文本数据的特征工程方法

标题：文本数据的特征工程方法：解锁数据背后的深层信息在大数据与人工智能日益融合的今天，文本数据作为信息的重要载体，其处理与分析能力成为了衡量技术先进性的关键指标之一。文本数据特征工程，作为连接原始文本与机器学习模型的桥梁，扮演着至关重要的角色。它不仅关乎模...

人工智能 2025-06-21 大数据

416阅读

Llama Factory ：百种以上语言模型的统一高效微调框架

人工智能咨询培训老师叶梓转载标明出处大模型适应到特定下游任务时，传统的全参数微调方法成本高昂，因此，研究者们一直在探索更高效的微调技术。由北京航空航天大学和北京大学的研究团队提出了一个名为Llama Factory的统一框架，旨在解决大模型高效微调的...

AIGC 2024-09-21 人工智能

765阅读

小白mac下载chinese-llama-2-7b全过程！

所有步骤来源： https://my.oschina.net/qyhstech/blog/11046186 只是小白第一次下记录，也为其他小白做个参考！环境起步用这个命令，然后你的base就会变成miaomiao，然后你在...

AIGC 2024-09-15 人工智能

997阅读

大模型+小模型协同处理跨文档理解任务，成本更低，性能更高

“Synergetic Event Understanding: A Collaborative Approach to Cross-Document Event Coreference Resolution with Large Language Mod...

大数据 2024-09-13 人工智能

1000阅读

新一代模型微调方案LLama-Pro ，快来围观！！！

❝ 大家好，我是 Bob! ? 一个想和大家慢慢变富的 AI 程序员? 分享 AI 前沿技术、项目经验、面试技巧! 欢迎关注我，一起探索，一起破圈！? Y LLAMA PRO论文笔记直达链接：摘要这篇论文介绍了一种名为L...

AIGC 2024-09-10 人工智能

664阅读

AIGC辅助办公

1.什么是AIGC？早期内容生成方式为专业(人士生成内容(Professional Generated Content，PGC 。如：音乐专业人士的创作、设计师的平面设计创作用户生成内容(User Generated Content，UGC 更...

人工智能 2024-09-06 人工智能

601阅读

AI数据告急，大厂盯上廉价年轻人

为了拿到新数据、训练AI大模型，字节等互联网大厂正在亲自下场，以单次300元不等的价格招募“AI录音员”，定制语料库。坐落于北京大钟寺的字节办公楼，集中了字节的抖音业务团队和火山引擎业务团队，从年初便开始招募素人为豆包大模型录音。两人结组、单次3小时，包...

大数据 2024-09-03 人工智能

547阅读

RAG 入门指南：从零开始构建一个 RAG 系统

本文正文字数约 3300 字，阅读时间 10 分钟。从零开始构建一个应用可以让我们快速理解应用的各个部分。这个方法其实非常适用于 RAG。我在以前的文章中有介绍过 RAG 的概念、原理以及应用等，但其实，亲自动手来构建一个 RAG 系统或许能够...

大数据 2024-09-03 人工智能

882阅读

LLaMA3技术报告解读

前言 LLaMA系列算法是Meta公司发布的开源大模型。近期Meta公司又发布了LLaMA 3.1系列的模型，在这一系列模型中参数量最大的高达405B，上下文窗口多达128K个token。同时对模型进行了广泛的实证评估，发现在很多任务中，LLaMA 3...

生成式AI 2024-08-28 人工智能

1156阅读

使用Faster Whisper：提升你的音频处理效率和质量

使用Faster Whisper：提升你的音频处理效率和质量 faster-whisper项目地址:https://gitcode.com/gh_mirrors/fas/faster-whisper 该项目，，是一个开源的Python库，专为优化对...

大数据 2024-08-22 人工智能

928阅读

阿里开源新模型：超GPT-4o，数学能力全球第一！

阿里巴巴开源了最新数学模型Qwen2-Math，一共有基础和指令微调两种版本，包括1.5B、7B和72B三种参数。根据阿里在主流数学基准测试显示，Qwen2-Math-72B指令微调版本的性能超过了GPT-4o、Cloude-3.5-Sonnet、Gem...

AIGC 2024-08-09 人工智能

585阅读

AIGC核心剖析：NLP与生成模型的协同作用

目录 AIGC核心剖析：NLP与生成模型的协同作用 NLP的基础与挑战生成模型的强大能力 NLP与生成模型的协同作用 1. 机器翻译 2. 文本摘要 3. 对话系统结论 AIGC核心剖析：NLP与生成模型的协同作用在人工智能...

大数据 2024-08-07 人工智能

599阅读

The Llama 3 Herd of Models.Llama 3 模型第1,2,3部分全文

现代人工智能(AI 系统是由基础模型驱动的。本文提出了一套新的基础模型，称为Llama 3。它是一组语言模型，支持多语言、编码、推理和工具使用。我们最大的模型是一个密集的Transformer，具有405B个参数和多达128K个tokens...

大数据 2024-08-04 人工智能

648阅读

秘密打造「AI陶哲轩」震惊数学圈！谷歌IMO梦之队首曝光，菲尔兹奖得主深度点评

【新智元导读】19秒破解几何难题，谷歌AI夺得IMO银牌在业界掀起了巨震。就连菲尔兹奖得主陶哲轩，前IMO美国队负责人罗博深都对此大加赞赏。更有AI大佬高调预测，若谷歌继续加码研究，应该可以造出一个「AI陶哲轩」。谷歌DeepMind正在做的，是要打造出...

人工智能 2024-07-29 人工智能

589阅读

探究AIGC的底层逻辑：从技术到应用的全面解析

目录探究AIGC的底层逻辑：从技术到应用的全面解析技术原理使用方法最佳实践和注意事项结论探究AIGC的底层逻辑：从技术到应用的全面解析在人工智能领域，AIGC（AI对话大师）是一种语言生成模型，由OpenAI开发并用于构建...

AIGC 2024-07-24 人工智能

610阅读

大模型学习笔记3【大模型】LLaMA学习笔记

文章目录学习内容 LLaMA LLaMA模型结构 LLaMA下载和使用好用的开源项目[Chinese-Alpaca](https://github.com/ymcui/Chinese-LLaMA-Alpaca Chinese-Alpaca...

人工智能 2024-07-18 人工智能

703阅读

探索人工智能写作软件免费下载的多维影响及技术原理

随着人工智能技术日新月异的发展，免费下载AI写作软件正日益成为人们热议的话题。它大大降低了文学创作的门槛，激发了大众对于智能写作原理及应用领域的好奇心。本篇文章旨在从多维度深度解析AI写作软件免费下载现象，并探讨这一举措在个人创作、商业价值以及社会影响等层...

AIGC 2024-07-16 人工智能

560阅读

探索AI写作的深度奥秘：从困惑度到爆发度的挑战与机遇

大家好，今天来聊聊探索AI写作的深度奥秘：从困惑度到爆发度的挑战与机遇，希望能给大家提供一点参考。以下是针对论文重复率高的情况，提供一些修改建议和技巧，可以借助此类工具：探索AI写作的深度奥秘：从困惑度到爆发度的挑战与机遇在AI技术飞速发展...

大数据 2024-07-15 人工智能

576阅读

LLaMA-Adapter：零初始注意机制的语言模型高效微调

23年6月来自上海AI实验室，香港中文大学和UCLA的论文“LLaMA-Adapter: Efficient Fine-tuning of Language Models with Zero-init Attention“。 LLaMA-Adapter是...

生成式AI 2024-07-10 人工智能

791阅读

大语言模型的底层原理，ChatGPT，文心一言等人工智能体是如何产生的？本文将详细讲解

文章目录基础介绍一、预训练 1.数据准备质量过滤敏感内容过滤数据去重数据预处理实践质量过滤去重隐私过滤 2.词元化 BPE 分词 WordPiece 分词 Unigram 分词 3.数据调度总结参考文献...

AIGC 2024-07-08 人工智能

931阅读

百度文库AI智能写作：轻松打造高质量内容的利器

在当今这个信息爆炸的时代，内容的产生与消费已经变得日益重要。无论是学生、职场人士还是内容创作者，都希望能够快速、高效地产出高质量的内容。而百度文库AI智能写作正是这样一款能够帮助你轻松实现这一目标的利器。一、什么是百度文库AI智能写作？百度文库AI...

大数据 2024-07-07 人工智能

1137阅读

AI写作软件：科技巨头进化，文章创作如虎添翼

1.AI写作软件简介近年来，随着人工智能技术的突飞猛进，AI写作软件日益受到关注。该软件运用先进的人工智能技术，模拟人类写作方式与逻辑思维，协助用户产出优质文章。借助深度学习及自然语言处理等尖端科技，此类软件能解析海量文本数据，洞察语义逻辑，进而生成具...

人工智能 2024-07-01 人工智能

571阅读

探索和构建 LLaMA 3 架构：深入探讨组件、编码和推理技术（一）

探索和构建 LLaMA 3 架构：深入探讨组件、编码和推理技术（一） Meta 通过推出新的开源 AI 模型 Llama 3 以及新版本的 Meta AI，正在加强其在人工智能 (AI 竞赛中的竞争力。该虚拟助手由 Llama 3 提供支持，现已可在所...

人工智能 2024-06-25 人工智能

762阅读

【AI】文心一言的使用分享

在数字化时代，人工智能（AI）技术的飞速发展正在改变我们的生活。文心一言，作为这一浪潮中的佼佼者，以其卓越的自然语言处理能力和广泛的应用场景，给我带来了前所未有的使用体验。在这篇分享中，我将详细阐述我对文心一言的使用体验、功能特点、应用场景以及未来展望。...

AIGC 2024-06-25 人工智能

901阅读

DeepSeek-Coder-V2代码语言模型免费吗？AI编程辅导代码生成使用方法详细教程指南

DeepSeek-Coder-V2 是一个开源的Mixture-of-Experts (MoE 代码语言模型，性能与GPT4-Turbo相当，在代码特定任务上表现卓越。它在DeepSeek-Coder-V2-Base的基础上，通过 6 万亿token的高...

AIGC 2024-06-18 人工智能

1718阅读

AIGC |「多模态模型」系列之OneChart：端到端图表理解信息提取模型

论文标题: OneChart: Purify the Chart Structural Extraction via One Auxiliary Token 论文作者: Jinyue Chen, Lingyu Kong, Haoran Wei, Chen...

人工智能 2024-06-18 人工智能

782阅读

谷歌推创新框架AGREE 可增强大模型生成内容准确性

谷歌研究院推出了一个名为AGREE的创新框架，旨在增强大型语言模型（LLM）生成内容和引用的准确性。这一框架通过检索文档中的相关段落来增强大模型生成回答的事实基础，并提供相应的引用，从而提高回答的准确性，并为用户提供验证信息真实性的途径。核心技术:...

AIGC 2024-06-11 人工智能

572阅读

Llama 3“智商”测试：英文提示表现亮眼，中文不完美但差强人意！

大家好，我是木易，一个持续关注AI领域的互联网技术产品经理，国内Top2本科，美国Top10 CS研究生，MBA。我坚信AI是普通人变强的“外挂”，所以创建了“AI信息Gap”这个公众号，专注于分享AI全维度知识，包括但不限于AI科普，AI工具测评，AI效...

AIGC 2024-06-09 人工智能

856阅读

百度文心一言与谷歌Gemini的对比

生成式AI 2024-06-07 人工智能

681阅读

文心一言：百度AI大语言模型的崛起

文心一言：百度AI大语言模型的崛起 1. 背景介绍 1.1 人工智能的发展历程人工智能(Artificial Intelligence, AI 是当代科技发展的重要领域,自20世纪50年代诞生以来,已经经历了几个重要的发展阶段。早期的人工智能系统主...

生成式AI 2024-06-05 人工智能

652阅读

LLM的「母语」是什么？

大语言模型的「母语」是什么？我们的第一反应很可能是：英语。但事实果真如此吗？尤其是对于能够听说读写多种语言的LLM来说。对此，来自EPFL（洛桑联邦理工学院）的研究人员发表了下面这篇工作来一探究竟：图片论文地址：https://arxiv.or...

生成式AI 2024-06-03 人工智能

565阅读

微调真的能让LLM学到新东西吗:引入新知识可能让模型产生更多的幻觉

大型语言模型(llm 是在巨大的文本语料库上训练的，在那里他们获得了大量的事实知识。这些知识嵌入到它们的参数中，然后可以在需要时使用。这些模型的知识在培训结束时被“具体化”。在预训练结束时，模型实际上停止学习。对模型进行对齐或进行指令调优，让模型学习...

人工智能 2024-05-30 人工智能

556阅读

独角兽被微软挖角，新团队首曝光！情感AI嵌入机器人，超大内存升级情感体验

今年 3 月，人工智能领域的领军人物Mustafa Suleyman离开Inflection AI，转而领导微软的人工智能部门。微软在如火如荼的人工智能人才争夺战中获胜的消息在科技界引起热议，但很少有人讨论这次离职对Inflection AI的影响。...

人工智能 2024-05-28 人工智能

617阅读

拒绝AI生成代码！开源操作系统陆续举起“禁令”，Debian尚无行动

整理丨诺亚出品 | 51CTO技术栈（微信号：blog51cto）当下，AI的崛起已成大势。但是，当AI的触角伸向开源操作系统时，一些社区陆续亮起了“红灯”。先是Linux发行版Gentoo 在四月中旬发布了一项理事会政策，禁止使用AI工具生成...

生成式AI 2024-05-21 人工智能

584阅读

GPT-4o手写板书以假乱真惊呆网友！杀死谷歌翻译，代码建模无所不能

GPT-4o到底有多强？只有用过才能知道。这两天，网友们不仅探索出了很多全新ChatGPT的炫酷用法，也逐渐开始意识到，这标志这OpenAI将逐渐替代谷歌曾经的地位，全面接管AGI时代。随着越来越多人开始试用GPT-4o，大家发现发布会上的demo真的...

AIGC 2024-05-16 人工智能

624阅读

与机器对话：揭示提示工程的十个秘密

想了解更多AIGC的内容，请访问： 51CTO AI.x社区 https://www.51cto.com/aigc/ 提示的力量十分神奇，我们只需抛出几个近似人类语言的单词，就能得到一个格式和结构都良好的答案。没有什么话题是晦涩难懂的，没有什么事实是触...

大数据 2024-05-16 人工智能

540阅读

Llama-3的竞争对手来了——可运行在iPhone上的小体量高性能LLM模型Phi-3

想了解更多AIGC的内容，请访问： 51CTO AI.x社区 https://www.51cto.com/aigc/ 简介熟悉我的文章的读者可能还记得我以前报道《课本就是你所需要的一切》(https://medium.com/@mgunton7/th...

生成式AI 2024-05-15 人工智能

652阅读

大神Karpathy强推，分词领域必读：自动钓鱼让大模型“发疯”的token，来自Transformer作者创业公司

关于大模型分词（tokenization），大神Karpathy刚刚推荐了一篇必读新论文。主题是：自动检测大模型中那些会导致“故障”的token。图片简单来说，由于大模型tokenizer的创建和模型训练是分开的，可能导致某些token在训练中很少...

人工智能 2024-05-13 人工智能

560阅读

一块钱100万token，超强MoE模型开源，性能直逼GPT-4-Turbo

开源大模型领域，又迎来一位强有力的竞争者。近日，探索通用人工智能（AGI）本质的 DeepSeek AI 公司开源了一款强大的混合专家 (MoE 语言模型 DeepSeek-V2，主打训练成本更低、推理更加高效。项目地址：https://gi...

人工智能 2024-05-07 人工智能

683阅读

快3倍！Meta 违背经典模型结构，一次预测多个token，路径可行，大模型大幅提速指日可待！

编译|伊风出品 | 51CTO技术栈（微信号：blog51cto）众所周知，LLMs的工作原理是对下一个token进行预测。读者朋友们有没有曾这样想过：如果LLM一次预测n个token呢？那是不是就快n倍？Meta也是这样想的！并且付诸实践。在最...

大数据 2024-05-07 人工智能

603阅读

Meta 发布新多token预测技术，使AI模型速度提升3倍

近期，Meta、Ecole des Ponts ParisTech 和 Université Paris-Saclay 的研究人员在一项研究中提出了一种改进 AI 大型语言模型（LLMs）准确性和速度的方法，即通过同时预测多个token。这与自回归语言模型...

人工智能 2024-05-07 人工智能

599阅读

还在YOLO-World？DetCLIPv3出手！性能大幅度超出一众SOTA！

本文经自动驾驶之心公众号授权转载，转载请联系出处。现有的开词汇目标检测器通常需要用户预设一组类别，这大大限制了它们的应用场景。在本文中，作者介绍了DetCLIPv3，这是一种高性能检测器，不仅在开词汇目标检测方面表现出色，同时还能为检测到的目标生成...

AIGC 2024-04-30 人工智能

692阅读

小红书从记忆机制解读信息检索，提出新范式获得 EACL Oral

近日，来自小红书搜索算法团队的论文《Generative Dense Retrieval: Memory Can Be a Burden》被自然语言处理领域国际会议 EACL 2024 接收为 Oral，接受率为 11.32%（144/1271）。他...

大数据 2024-04-29 人工智能

641阅读

自然语言处理(NLP)的工作原理

本文旨在揭开语言模型的神秘面纱，阐明其处理原始文本数据的基本概念和机制。它涵盖了几种类型的语言模型和大型语言模型，重点关注基于神经网络的模型。语言模型定义语言模型专注于生成类似人类的文本的能力。通用语言模型本质上是单词序列的统计模型或概率分布，用于...

人工智能 2024-04-24 人工智能

627阅读

一文搞懂Tokenization！

语言模型是对文本进行推理，文本通常是字符串形式，但是模型的输入只能是数字，因此需要将文本转换成数字形式。 Tokenization是NLP的基本任务，按照特定需求能把一段连续的文本序列（如句子、段落等）切分为一个字符串序列（如单词、短语、字符、标点等多个...

人工智能 2024-04-12 人工智能

653阅读