schema - AIGC资讯

数据仓库设计：星型模型 vs. 雪花模型

数据仓库设计是构建高效、可扩展且易于维护的数据存储架构的关键环节。在数据仓库的设计中，星型模型（Star Schema）和雪花模型（Snowflake Schema）是两种最常见的维度建模方法。它们各自具有独特的优势与适用场景，理解并选择最适合项目需求的模...

大数据 2025-06-15 大数据

486阅读

llama-factory实战: 基于qwen2.5-7b 手把手实战自定义数据集清洗微调

基于qwen2.5 手把手实战自定义数据集微调（llama-factory）准备工作 1.数据集准备（例:民法典.txt） 2.服务器准备（阿里云 DSW 白嫖） 3.环境配置 pip 升级模型下载微调助手 4.数据集处理脚...

生成式AI 2024-10-03 人工智能

2193阅读

实习结帖（flask加上AIGC实现设计符合OpenAPI要求的OpenAPI Schema，让AIGC运行时可以调用api，协助公司门后迁移新后端等）

终于，笔者的实习生活也要告一段落了，最后的几天都在忙着和公司做AIGC的项目，在搞api的设计以及公司门户网站的迁移。牛马搬运工（牛马了3天）先说这个门户网站的迁移，我原本以为只是换个后端（若依），数据库改改就能...

大数据 2024-10-01 人工智能

1275阅读

【国产异构加速卡】基于llama.cpp实现Llama3模型的guff格式转换、4bit量化以及推理加速

重要说明：本文从网上资料整理而来，仅记录博主学习相关知识点的过程，侵删。序言本文使用llama.cpp框架，对 Llama3-8B-Instruct 模型进行gguf格式转换，8bit量化，并在CPU和GPU上对8bit模型进行推理。测试平台...

AIGC 2024-09-10 人工智能

4155阅读

node-llama-cpp 使用与安装指南

node-llama-cpp 使用与安装指南 node-llama-cppRun AI models locally on your machine with node.js bindings for llama.cpp. Force a JSON s...

人工智能 2024-09-07 人工智能

1885阅读

从困境到突破，EasyMR 集群迁移助力大数据底座信创国产化

在大数据时代，企业对数据的依赖程度越来越高。然而，随着业务的不断发展和技术的快速迭代，大数据平台的集群迁移已成为企业数据中台发展途中无法回避的需求。在大数据平台发展初期，国内数据中台市场主要以国外开源 CDH、商业化 CDP、HDP 为主。然而，由于国际形...

AIGC 2024-08-30 人工智能

884阅读

【AIGC】训练数据入库（Milvus）

之前的文章有写如何获取数据、如何补充数据，也有说如何对数据进行清洗、如何使用结构化数据进行训练。但好像没有说如何将训练数据“入库”。这里说的入库不是指 MySQL 数据库，而是指向量检索库 Milvus。众所周知，人工智能多用向量数据进行训练。数据先做...

生成式AI 2024-08-30 人工智能

1084阅读

SonarQube前后端代码质量分析实战

X项目backend代码分析 C#（.net7）代码分析 Release 6.0.0 · SonarSource/sonar-scanner-msbuild · GitHub下载sonar-scanner-6.0.0.81631-net.zip，解...

大数据 2024-08-23 人工智能

730阅读

vllm 聊天模板

vllm 聊天模板背景如何使用chat template generation prompt & add_generation_prompt chat templates的额外输入工具使用 / 函数调用 Chat Template...

人工智能 2024-08-22 人工智能

1671阅读

论文阅读-Transformer Layers as Painters

1. 摘要尽管大语言模型现在已经被广泛的应用于各种任务，但是目前对其并没有一个很好的认知。为了弄清楚删除和重组预训练模型不同层的影响，本文设计了一系列的实验。通过实验表明，预训练语言模型中的lower和final layers与中间层分布不一致，并且...

大数据 2024-08-20 人工智能

1043阅读

【愚公系列】《微信小程序开发解析》013-基础API

? 作者简介，愚公搬代码 ?《头衔》：华为云特约编辑，华为云云享专家，华为开发者专家，华为产品云测专家，CSDN博客专家，CSDN商业化专家，阿里云专家博主，阿里云签约作者，腾讯云优秀博主，腾讯云内容共创官，掘金优秀博主，亚马逊技领云博主，51CTO博客专...

生成式AI 2024-08-14 人工智能

1006阅读

一文带你吃透JSP，增删改查实战案例详细解读

文章目录前言 JSP 概述 JSP快速入门搭建环境导入JSP依赖创建 JSP 页面编写代码测试 JSP原理 JSP 脚本实战案例 JSP缺点发展阶段 EL 表达式概述实战案例域对象 JSTL 标签用法1 用法2...

人工智能 2024-07-11 人工智能

955阅读

vue前端实现导出页面为word(两种方法)

将vue页面导出为word文档，不用写模板，直接导出即可。第一种方法(简单版第一步：安装所需依赖 npm install html-docx-js -S npm install file-saver -S 第二步：创建容器，页面使用...

人工智能 2024-07-04 人工智能

970阅读

开源探索时刻！在LLaMA-Factory上实现GLM-4和Qwen2的工具格式化

众所周知，如今的大模型大多是使用通用数据训练得出，因此在不同场景和专业领域的效果还有待改进。于是就衍生出了现如今广泛使用的微调技术，由于笔者现在所在的项目同样是与大模型打交道，也就不可避免地盯上了LLaMA-Factory。那究竟什么是LLaMA-...

生成式AI 2024-07-03 人工智能

919阅读

Apache Flink类型及序列化研读&生产应用｜得物技术

一、背景序列化是指将数据从内存中的对象序列化为字节流，以便在网络中传输或持久化存储。序列化在Apache Flink中非常重要，因为它涉及到数据传输和状态管理等关键部分。Apache Flink以其独特的方式来处理数据类型以及序列化，这种方式包括它自身...

人工智能 2024-06-27 人工智能

989阅读

Meta-Llama-3-8B-Instruct本地推理

Meta-Llama-3-8B-Instruct 本地推理基础环境信息（wsl2安装Ubuntu22.04 + miniconda）使用miniconda搭建环境 (base :~$ conda create --name pyto...

AIGC 2024-06-15 人工智能

842阅读

Stable Diffusion webUI 最全且简单配置指南

Stable Diffusion webUI 配置指南本博客主要介绍部署Stable Diffusion到本地，生成想要的风格图片。文章目录 Stable Diffusion webUI 配置指南 1、配置环境（1）pip环境[...

大数据 2024-06-12 人工智能

1949阅读

【AIGC调研系列】浙大&蚂蚁OneKE大模型知识抽取框架是什么

浙大&蚂蚁OneKE大模型知识抽取框架是由蚂蚁集团和浙江大学联合研发的，它是一个具备中英文双语、多领域多任务泛化知识抽取能力的大模型知识抽取框架。OneKE不仅提供了完善的工具链支持，还以开源形式贡献给了OpenKG开放知识图谱社区[1][2][3...

大数据 2024-06-10 人工智能

1323阅读

本地使用 Ollama 驱动 Llama 3，Phi-3 构建智能代理（附代码）

本文介绍如何使用langchain中的ollama库实现低参数Llama 3，Phi-3模型实现本地函数调用及结构化文本输出。函数调用介绍函数调用的一个很好的参考是名为 “Gorilla” 的论文，该论文探讨了函数调用的概念，并提供了一个函数调用...

大数据 2024-06-08 人工智能

2313阅读

一次copilot问题处理

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、问题描述二、解决步骤 1.询问关键词 2.询问问题 3.询问解决方案总结前言记录一次使用copilot解决问题的流程，以...

生成式AI 2024-06-06 人工智能

947阅读

GPT-4o与SQL：大模型改变自身架构的能力有多强？

作者丨David Eastman 编译丨诺亚出品 | 51CTO技术栈（微信号：blog51cto）尽管没有任何大型语言模型（LLM）骑过自行车，但它们显然理解骑行在人类交通领域中的作用。它们似乎为软件开发者提供的是一种类似语义的现实世界知识，结合了...

AIGC 2024-06-05 人工智能

828阅读

工业知识图谱进阶实战

一、背景简介首先来介绍一下云问科技的发展历程。云问科技公司由 Chatbot 起家，在 2013 年到 2019 年间一直投身于 Chatbot 领域，主要关注人机对话方向，推出了很多客服类产品。后转型去做知识相关领域的原因是，在 Bert 发布之...

生成式AI 2024-06-04 人工智能

983阅读

孔夫子二手书采集

文章目录项目演示软件采集单本数据网页搜索数据对比使用场景概述部分核心逻辑 Vb工程图数据导入与读取下拉框选择参数设置线程使用方法下载软件授权导入文件预览处理后的数据项目结构附件说明项目演...

AIGC 2024-06-01 大数据

1095阅读

RWKV 模型本地部署工具 Ai00 Server 保姆级教程

了解Ai00 简介 Ai00 Server 是基于 web-rwkv 推理引擎的 RWKV 语言模型推理 API 服务器。它本身也是一个基于 MIT 协议的开源软件，由 RWKV 开源社区成员 @cryscan 和@顾真牛牵头成立的 Ai00-x 开发...

人工智能 2024-05-30 人工智能

1101阅读

百度文心一言：官方开放API开发基础

目录一、模型介绍 1.1主要预置模型介绍 1.2 计费单价二、前置条件 2.1 创建应用获取 Access Key 与 Secret Key 2.2 设置Access Key 与 Secret Key 三、基于千帆SDK开发 3.1 M...

大数据 2024-05-30 人工智能

1396阅读

llama-factory SFT系列教程 (三)，chatglm3-6B 大模型命名实体识别实战

文章目录文章列表：简介装包数据集 lora 微调 API 部署大模型预测评估缺少数据集文章列表： llama-factory SFT系列教程 (一，大模型 API 部署与使用 llama-factory SFT...

生成式AI 2024-05-28 人工智能

1301阅读

NL2SQL进阶系列(3)：Data-Copilot、Chat2DB、Vanna Text2SQL优化框架开源应用实践详解[Text2SQL]

NL2SQL进阶系列(3 ：Data-Copilot、Chat2DB、Vanna Text2SQL优化框架开源应用实践详解[Text2SQL] NL2SQL基础系列(1 ：业界顶尖排行榜、权威测评数据集及LLM大模型（Spider vs BIRD）全面...

生成式AI 2024-05-27 人工智能

1074阅读

LLaMA-Factory微调（sft）ChatGLM3-6B保姆教程

LLaMA-Factory微调（sft）ChatGLM3-6B保姆教程准备 1、下载下载LLaMA-Factory 下载ChatGLM3-6B 下载ChatGLM3 windows下载CUDA ToolKit 12.1 （本人是在w...

生成式AI 2024-05-25 人工智能

1036阅读

对接HiveMetaStore，拥抱开源大数据

用户在使用本特性前，将需要创建Server，创建Server过程与已有Server创建过程相同对于创建OBS server有两种方式，一种是通过永久AK、SK的方式创建。（此种方式前提是可以获取永久AK、SK，但是此种方式不安全，AK/SK直接...

大数据 2024-04-25 人工智能

1005阅读

知识图谱的演进与基于 OpenSPG+TuGraph 的推理实践

本文为蚂蚁集团开发工程师王少飞在TuGraph Meetup北京站的演讲，主要介绍了蚂蚁知识图谱平台经过多年金融领域业务沉淀的知识语义增强可编程框架SPG，及TuGraph作为执行引擎在图谱推理过程的作用。作者介绍：王少飞，蚂蚁知识图谱推理开发工程师...

人工智能 2024-04-11 人工智能

1222阅读

月之暗面真的很强？我们来用一个问题评测这些 ChatGPT 平替

号称平替甚至超越 ChatGPT 的产品层出不穷，今天就来做一个横向评测。本次评测的对象有: ChatGPT 3.5 ChatGPT 4 Google Gemini Anthropic Claude 3 Sonnet Perplexit...

人工智能 2024-04-08 人工智能

1528阅读

[AIGC] 对比MySQL全文索引，RedisSearch，和Elasticsearch的详细区别

全文搜索是数据库和搜索引擎的重要功能。这个功能能在一个或多个列中查找用户查询的文本，这对诸如电子商务网站和检索大量文本数据的应用是必需的。在这篇文章中，我们将详细对比三种主流全文搜索技术： MySQL全文索引，Redis的RedisSearch，和Elas...

AIGC 2024-04-03 人工智能

943阅读

Yuan2.0大模型，联合向量数据库和Llama-index，助力检索增强生成技术

1. 背景在大模型爆发的时代，快速准确地从大量数据中检索出有价值的信息变得至关重要。检索增强生成（RAG）技术，结合了传统的信息检索和最新的大语言模型（LLM），不仅能够回答复杂的查询，还能在此基础上生成信息丰富的内容。 RAG技术的核心在于其能够将...

人工智能 2024-03-30 人工智能

1042阅读

基于Discuz采集插件的开发与应用探析

在互联网高速发展的时代，信息收集和整理对于各个网站与社区尤为重要。作为国内颇受欢迎的论坛软件系统，Discuz因其开放性及强大的用户基数成为了众多网站运营者的首选。在此基础上，Discuz插件的应用也愈发广泛，特别是在内容采集方面。本文将重点针对Discu...

生成式AI 2024-03-09 大数据

819阅读

Discuz!采集淘宝商品的技术探讨与应用实践

随着电子商务的不断发展和社交网络应用的深入人心，各类网站之间信息与资源的互动成为了一个新的关注点。尤其是在众多中小企业或个人站长运营的网站中，对于商品内容的聚合、分享、推荐有着越来越大的需求。本文就将基于这样的背景，专注于“Discuz!”—一款颇为流行的...

大数据 2024-03-08 大数据

864阅读

使用Rust的Linfa和Polars库进行机器学习：线性回归

在这篇文章中，我们将使用Rust的Linfa库和Polars库来实现机器学习中的线性回归算法。 Linfa crate旨在提供一个全面的工具包来使用Rust构建机器学习应用程序。 Polars是Rust的一个DataFrame库，它基于Apache Ar...

大数据 2024-03-01 人工智能

901阅读

Mac本地部署大模型体验AIGC能力

介绍随着ChatGPT的横空出世，国内互联网大厂、创业公司纷纷加了AIGC赛道，不断推出各种大模型，而这些大模型由于规模庞大、结构复杂，往往包含了数十亿至数千亿的参数。这些模型在训练阶段，一般需要使用高效能的GPU集群训练数十天时间，在推理阶段，一般...

大数据 2024-02-25 人工智能

967阅读

如何使用MyScale将知识库引入OpenAI的GPT

译者 | 李睿审校 | 重楼 2023年11月6日，OpenAI公司对外发布了ChatGPT。在这个无代码平台上，专业(或业余开发人员可以使用工具和提示构建定制的GPT或聊天机器人，有效地改变他们与OpenAI GPT的交互。以前的交互（LangCh...

大数据 2024-02-19 人工智能

996阅读

文心一言插件开发（第三篇

目录 1. 从0到1开发自己的插件： 1.1 插件描述文件（ai-plugin.json） 1.2 服务描述文件（openapi.yaml） 1.2.1 数据类型： 1.2.1 OpenAPI 对象： 1.3 示例描述文件（example...

人工智能 2024-02-11 人工智能

1180阅读

AIGC｜LangChain新手入门指南，5分钟速读版！

如果你用大语言模型来构建AI应用，那你一定不可能绕过LangChain,LangChain是现在最热门的AI应用框架之一，去年年底才刚刚发布，它在github上已经有了4.6万颗星的点赞了，在github社区上，每天都有众多大佬，用它创造一些很新很酷的应用...

大数据 2024-02-11 人工智能

1094阅读

ChatGPT论文：大语言模型LLM之战:Dolly、LLaMA 、Vicuna、Guanaco、Bard、ChatGPT--在自然语言转SQL(NL2SQL、Text-to-SQL)的比较（一）

摘要 ChatGPT的成功引发了一场AI竞赛，研究人员致力于开发新的大型语言模型（LLMs），以匹敌或超越商业模型的语言理解和生成能力。近期，许多声称其性能接近GPT-3.5或GPT-4的模型通过各种指令调优方法出现了。作为文本到SQL解析的从业者，我...

大数据 2024-02-05 人工智能

1095阅读

史上最全知识图谱建模实践（下）：多元关系架构

在“知识图谱之本体结构与语义解耦——基于OpenSPG的建模实践（上）”一文中，我们从实体关系设计和概念语义建模2种场景，讲解了基于SPG的知识建模的方法和案例。本文中，我们将继续讲解多元关系架构场景中的知识建模实践。如果你的图谱，涉及对带有时空信息的...

生成式AI 2024-02-02 人工智能

1052阅读

2023-12-30 AIGC-LangChain指南-打造LLM的垂域AI框架

摘要: 2023-12-30 AIGC-LangChain指南-打造LLM的垂域AI框架 LangChain指南-打造LLM的垂域AI框架 CHATGPT以来，Langchain 可能是目前在 AI 领域中最热门的事物之一，仅次于向量数据库。...

大数据 2024-02-02 人工智能

1494阅读

GitHub 数据库 15 年进化史：幕后英雄如何成就 Copilot 传奇

自 2008 年成立以来，GitHub 的数据库系统经历了多次重大的演变，以适应不断增长的用户基础和不断变化的技术需求。GitHub 一直使用 MySQL 数据库，其中保存了除了 git 代码仓库以外的其他所有元数据，诸如用户，issue，PR， Gist...

大数据 2024-01-24 人工智能

931阅读

AI对比：ChatGPT和文心一言的区别和差异

目录一、ChatGPT和文心一言大模型的对比分析 1.1 二者训练的数据情况分析 1.2 训练大模型数据规模和参数对比 1.3 二者3.5版本大模型对比总结二、ChatGPT和文心一言功能对比分析 2.1 二者产品提供的功能情况分析...

大数据 2024-01-24 人工智能

2405阅读

copilot插件全解

COPILOT是一个基于AI的编程辅助工具，它可以帮助程序员自动编写代码，提高开发效率。COPILOT的插件主要是为了将其功能集成到不同的编程环境中，方便程序员使用。目前，COPILOT支持多种编程环境，包括Visual Studio Code、Vis...

AIGC 2024-01-24 人工智能

1277阅读

四种通过LLM进行文本知识图谱的构建方法对比介绍

我们在以前的文章中已经介绍了使用大语言模型将非结构化文本转换为知识图谱。但是对于知识图谱的创建是一个很复杂的过程，比如需要对属性增加限制，创建符合特定主题/模式的图谱，并且有时文档非常大，无法作为单个提示处理，所以在切分后的提示中创建的图谱需要前后一致。...

生成式AI 2024-01-19 人工智能

1001阅读

如何将知识图谱与AIGC结合？京东是这么做的

一、导言首先介绍一下京东在电商场景下 AIGC 方面的探索。这是一个商品营销文案自动生成的全景图，自下而上首先是商品的输入信息。输入信息是异构多源的，包括商品的商详页里的图片、文本、商品的标题以及商品的知识图谱。通用的知识图谱是三元组的形式，...

大数据 2024-01-18 人工智能

1089阅读

文心一言API调用，保姆级案例分享

分享一个调用文心一言API的案例。今天自己用程序去过去文心一言模型中获取结果。文心一言API调用如何收费？官方给送了20块钱的体验券！后续收费规则如下如何开...

人工智能 2024-01-17 人工智能

923阅读

数据采集新篇章：AI与大模型的融合应用

作者 | 崔皓审校 | 重楼摘要文章概述了在AIGC应用中，大型语言模型（LLM）的重要性及其在实时数据处理方面的局限性。进而介绍了通过网络爬虫技术结合LLM的方法，旨在克服这些限制，通过实时网络请求、HTML内容加载与转换，以及LLM进行的数...

生成式AI 2024-01-17 人工智能

1284阅读