tpu 第25页 - AIGC资讯

【爬虫篇】根据网站的robots.txt文件判断一个爬虫是否有权限爬取这个网页

使用robotparser模块来解析robots.txt文件，该模块提供了一个RobotFileParser，它可以根据网站的robots.txt文件判断一个爬虫是否有权限爬取这个网页。语法： urllib.robotparser.RobotFile...

人工智能 2023-11-08 大数据

931阅读

大数据系统数据采集产品的架构分析

任何完整的大数据平台，一般包括以下的几个过程：数据采集数据存储数据处理数据展现（可视化，报表和监控）其中，数据采集是所有数据系统必不可少的，随着大数据越来越被重视，数据采集的挑战也变的尤为突出。这其中包括：数据源多种...

AIGC 2023-11-08 大数据

888阅读

直击 | 认识和了解bboss

1. BBoss是什么 bboss是一个基于开源协议Apache License发布的开源项目，由开源团队bboss运维，主要由以下三部分构成： Elasticsearch Highlevel Java Restclient ，一个高性能高兼容性的...

人工智能 2023-11-08 大数据

1262阅读

Devops下的分布式监控方案

1基础监控的设计需求现在devops,云计算，微服务，容器，大数据等理念正在逐步落地和大力发展，企业的服务器越来越多，架构越来越复杂，相应的应用运行基础环境越来越多样化，服务越来越微化，带来的监控压力也越来越大；如何在错综复杂的监控源里面...

生成式AI 2023-11-08 大数据

924阅读

带你动手设计一个高速公路多节点温度采集系统

本篇文章主要介绍设备上云的详细流程，介绍华为云物联网云端产品、设备创建流程，数据转存方式，应用侧开发接口等等。硬件选型：（1）STM32开发板: STM32F103C8T6 （2）NBIOT模块--BC26 BC26模块是一款高性能、低...

AIGC 2023-11-08 大数据

1114阅读

数据采集的基本原理

爬虫基本原理爬虫是模拟用户在浏览器或者App应用上的操作，把操作的过程、实现自动化的程序当我们在浏览器中输入一个url后回车，后台会发生什么？比如说你输入https://www.baidu.com 简单来说这段过程发生了以下四个步骤：查找...

AIGC 2023-11-08 大数据

1098阅读

云原生日志架构实践：网易数帆开源Loggie的三生三世

导读：网易从2015年就开始了云原生的探索与实践，作为可观测性的重要一环，日志平台也经历了从主机到容器的演进，支撑了集团内各业务部门的大规模云原生化改造。本文会讲述在这个过程中我们遇到的问题，如何演进和改造，并从中沉淀了哪些经验与最佳实践。主要内容...

人工智能 2023-11-08 大数据

829阅读

Python 网络爬虫入门详解

什么是网络爬虫网络爬虫又称网络蜘蛛，是指按照某种规则在网络上爬取所需内容的脚本程序。众所周知，每个网页通常包含其他网页的入口，网络爬虫则通过一个网址依次进入其他网址获取所需内容。优先申明：我们使用的python编译环境为PyCha...

人工智能 2023-11-08 大数据

884阅读

Flutter耳返和双声道功能的实现

1 耳返功能简介 ZEGO Express SDK 提供了Flutter耳返和双声道的功能，在视频直播、K歌、音频录制等场景下广泛应用，开发者可根据实际业务场景需要设置，一套代码可实现跨平台音视频耳返功能，节省开发成本。实时音视频的耳返作用就是在嘈杂...

大数据 2023-11-08 大数据

888阅读

用SkyWalking监控MySQL（一）工具与方案

本文适用于SkyWalking v9.1.0。 SkyWalking简介 SkyWalking是一个分布式系统的应用程序性能监视（APM）工具，专为微服务、云原生架构和基于容器（K8s）架构而设计。当前版本具备了全路径跟踪、指标采集、日志记录等功能...

AIGC 2023-11-08 大数据

930阅读

为何 Filebeat 采集日志不是实时的？(采集时间与log本身时间有差异)

注：本文中 filebeat 的版本为 7.5，不同版本的 filebeat 的行为可能有所差异。一、前言 filebeat 采集的日志的时间戳，和日志管理平台实际收到的日志时的时间戳，通常都会有几秒的延迟，有些情况下甚至能达到十几秒。其中固然...

AIGC 2023-11-08 大数据

867阅读

Rancher 2.6 全新 Logging 快速入门

作者简介袁振，SUSE Rancher 技术支持经理，负责订阅客户售后技术支持团队，为订阅客户提供技术支持服务。2016 年开始接触容器、Kubernetes 技术，对自动化运维、Devops、Kubernetes、prometheus 和其他云原生相关...

AIGC 2023-11-08 大数据

889阅读

【obs-studio开源项目从入门到放弃】windows 窗口采集和桌面采集的解决方案

文章目录前言窗口采集源和桌面采集源的注册窗口采集选择桌面采集方式 DXGI or WGC GDI 窗口采集原理 DXGI 窗口采集原理 WGC 窗口采集原理基于放大镜技术实现录屏采集总结技术参考前言 obs系列文...

AIGC 2023-11-08 大数据

3629阅读

KubeSphere 多行日志采集方案深度探索

作者：大飞哥，视源电子运维工程师，KubeSphere 用户委员会广州站站长采集落盘日志日志采集，通常使用 EFK 架构，即 ElasticSearch,Filebeat,Kibana，这是在主机日志采集上非常成熟的方案，但在容器日志采集方面，...

AIGC 2023-11-08 大数据

795阅读

基于FPGA的图像实时采集

文章目录一、系统框架 1.摄像头模块摄像头配置摄像头数据处理 2.SDRAM模块 SDRAM控制模块 SDRAM读写仲裁 SDRAM接口读写FIFO 3.vga显示模块 4.PLL时钟模块二、部分模块实现代码 1.摄像头...

人工智能 2023-11-08 大数据

852阅读

SpringCloud 分布式日志采集方案

前言由于微服务架构中每个服务可能分散在不同的服务器上，因此需要一套分布式日志的解决方案。spring-cloud提供了一个用来trace服务的组件sleuth。它可以通过日志获得服务的依赖关系。基于sleuth，通过使用ELK(elasti...

AIGC 2023-11-08 大数据

882阅读

一个简单的日志采集方案

一、原理原理很简单，首先程序端使用log4j，然后配上redis的appender，将日志暂存到redis，然后logstash从redis中拉取数据，再存储到elasticsearche，最后用kibana展示。大致流程图如下：二、搭建...

大数据 2023-11-08 大数据

790阅读

小白学 Python 爬虫（37）：爬虫框架 Scrapy 入门基础（五） Spider Middleware

人生苦短，我用 Python 前文传送门：小白学 Python 爬虫（1）：开篇小白学 Python 爬虫（2）：前置准备（一）基本类库的安装小白学 Python 爬虫（3）：前置准备（二）Linux基础入门小白学 Python 爬虫...

人工智能 2023-11-08 大数据

758阅读

STM32 定时器触发 ADC 多通道采集，DMA搬运至内存

引言 ADC 的功能是将模拟信号采样得到数字信号，而有些时候，我们需要使用到定时采样，比如在计算一个采集的波形的频率的时候，我们需要精确的知道采样频率，也就是 1 s 内采集的点数，这个时候，就需要使用到定时采集。定时采样有如下三种方法：使用定...

生成式AI 2023-11-08 大数据

1044阅读

日志采集落地方案

日志采集落地方案问题背景团队日志经过规范化后，接下来就需要一个采集方案。本文主要是分享我们团队的方案，供有相同需求的同行参考一下，希望对部分人有所帮助或者启发。本文是接着上一篇讲的，需要了解日志规范化相关内容的，请移步上一篇文章。日志规范化落地方案...

大数据 2023-11-08 大数据

860阅读

深入了解 KaiwuDB 负载行为数据采集

KAP 基于数据库系统内部反馈的各项数据指标，可帮助用户全面掌握 KaiwuDB 集群的整体运行情况，实时监测集群相关性能，可提供整体资源和集群状态角度的系统监控。除此之外，KaiwuDB 数据库内部开发实现基于负载业务的行为数据采集功能，为 KAP...

大数据 2023-11-08 大数据

835阅读

数据采集-呼吸心跳信号检测方法（二）

系列文章目录《呼吸心跳信号检测方法(一）》文章目录前言一、雷达模块二、X4M200模块介绍三、配套软件介绍和具体操作 3.1 XeThruExplorer安装方法 3.2 XeThruExplorer操作介绍 3...

AIGC 2023-11-08 大数据

1144阅读

采集并推送日志文件数据到elasticsearch/kafka/数据库

基于java语言的日志文件采集插件，支持全量和增量采集两种模式，实时采集日志文件数据到kafka/elasticsearch/database，使用案例：采集日志数据并写入数据库采集日志数据并写入Elasticsearch 采集日志数据并发...

人工智能 2023-11-08 大数据

968阅读

Filebeat 采集 Nginx 日志

Nginx 日志可用于分析用户地址位置，行为画像等，如何通过 Elastic Stack 进行一站式的数据采集，数据清洗，数据落地，数据可视化，让数据发挥真正的价值呢？架构设计涉及到 Elastic Stack 中 Filebeat 是用于采...

大数据 2023-11-08 大数据

811阅读

「视频小课堂」ELK和Kafka是怎么就玩在一起成了日志采集解决方案文字版

视频地址：ELK和Kafka是怎么就玩在一起成了日志采集解决方案视频文字版今天呢我就带来了一期视频，主要就是讲ELK和Kafka之间的通讯关系通过对一张通讯图，和一些操作命令，让我们能更深入的去理解ELK在日志采集过程当中以及Kafka在消息队列分...

AIGC 2023-11-08 大数据

807阅读

WebMagic+curl 爬虫采集图片

一、事出必有因前段时间公司让去采集一些单品的图片，单品的图片约清晰越好。二、最初思路在WebMagic没有找到下载文件用的下载器（Downloader），一开始是在网上找的HttpClient的代码，想要自己实现一个文件下载...

AIGC 2023-11-08 大数据

872阅读

1+x 2020年数据采集证书（中级）实操试卷一

1+x 2020年数据采集证书（中级）实操试卷一采集工具运用题 #一、数据采集任务场景一（工具定制题）使用 apache httpd、filebeat、logstash、csv完成数据采集演示。 ## 1、数据场景： ### apache http...

生成式AI 2023-11-08 大数据

923阅读

双通道FPGA数据采集卡

采集卡指标：FPGA（altera）、AD（输入范围正负5V、AD9226、12bit、65MHz）、SDRAM（16bit数据位、13bit地址线）、串口（CH340） 1. 电路：（1）FPGA最小系统：（2）SDRAM：（3）双路AD：（4...

人工智能 2023-11-08 大数据

783阅读

ELK日志采集

ELK 即 Elasticsearch、Logstash、Kibana,组合起来可以搭建线上日志系统，在目前这种分布式微服务系统中，通过 ELK 会非常方便的查询和统计日志情况. 本文以 pigx 的 upms 模块为例 ELK 中各个服务的作用...

生成式AI 2023-11-08 大数据

971阅读

如何高效训练？综述汇总：大型深度学习训练的并行分布式系统

本文经自动驾驶之心公众号授权转载，转载请联系出处。 23年1月论文“Systems for Parallel and Distributed Large-Model Deep Learning Training“，来自UCSD。深度学习（DL）已经...

AIGC 2023-11-08 人工智能

903阅读

大模型: 模型大了难在哪里？

大家好，我是Tim。自从GPT模型诞生以来，其参数规模就在不停的扩大。但模型并非简单的直接变大，需要在数据、调度、并行计算、算法和机器资源上做相应的改变。今天就来总结下，什么是大模型，模型变大的难在哪里以及对于CV/NLP或者搜推广场景上有什么应对策...

人工智能 2023-11-03 人工智能

1634阅读

使用Ray创建高效的深度学习数据管道

用于训练深度学习模型的GPU功能强大但价格昂贵。为了有效利用GPU，开发者需要一个高效的数据管道，以便在GPU准备好计算下一个训练步骤时尽快将数据传输到GPU。使用Ray可以大大提高数据管道的效率。 1、训练数据管道的结构首先考虑下面的模型训练伪代码。...

AIGC 2023-11-02 人工智能

988阅读

机器学习 | PyTorch简明教程上篇

前面几篇文章介绍了特征归一化和张量，接下来开始写两篇PyTorch简明教程，主要介绍PyTorch简单实践。 1、四则运算 import torch a = torch.tensor([2, 3, 4] b = torch.tensor([3, 4,...

AIGC 2023-11-02 人工智能

844阅读

机器学习|PyTorch简明教程下篇

接着上篇《PyTorch简明教程上篇》，继续学习多层感知机，卷积神经网络和LSTMNet。 1、多层感知机多层感知机通过在网络中加入一个或多个隐藏层来克服线性模型的限制，是一个简单的神经网络，也是深度学习的重要基础，具体图如下： import num...

人工智能 2023-11-02 人工智能

845阅读

使用Llama index构建多代理 RAG

检索增强生成(RAG 已成为增强大型语言模型(LLM 能力的一种强大技术。通过从知识来源中检索相关信息并将其纳入提示，RAG为LLM提供了有用的上下文，以产生基于事实的输出。但是现有的单代理RAG系统面临着检索效率低下、高延迟和次优提示的挑战。这些问题...

AIGC 2023-10-31 人工智能

971阅读

龙与地下城：大模型文字游戏之路

作者 | 崔皓审校 | 重楼摘要本文作者受到一位国外博主的启发，决定尝试使用大语言模型创建一个地下城文字游戏。通过大语言模型生成富有创意和连贯性的游戏内容。他的游戏灵感主要来源于经典的桌面角色扮演游戏“龙与地下城”（D&D）。该游戏通过对话...

人工智能 2023-10-30 人工智能

1813阅读

DeepMind：谁说卷积网络不如ViT？

深度学习的早期成功可归功于卷积神经网络（ConvNets）的发展。近十年来，ConvNets 主导了计算机视觉基准测试。然而近年来，它们越来越多地被 ViTs（Vision Transformers）所取代。很多人认为，ConvNets 在小型或中等规...

人工智能 2023-10-27 人工智能

885阅读

如何使用GPT作为SQL查询引擎的自然语言

译者 | 李睿审校 | 重楼如今，得益于ChatGPT这种生成式人工智能技术，使得用简单的语句查询数据集变得非常简单。与大多数生成式人工智能一样，OpenAI公司开发的API的结果仍然不完美，这意味着用户不能完全信任它们。幸运的是，用户现在可以...

AIGC 2023-10-27 人工智能

986阅读

清华光电计算新突破：芯片性能提升万倍，研究登顶Nature

随着各类大模型和深度神经网络的涌现，如何制造出满足人工智能发展、兼具大算力和高能效的下一代 AI 芯片，已成为国际前沿热点。中国科协发布的 2023 重大科学问题中「如何实现低能耗人工智能」被排在首位。近日，清华大学团队在超高性能计算芯片领域取得新...

人工智能 2023-10-26 人工智能

1013阅读

适合初学者的一些常用的机器学习库

在人工智能项目开发的过程中，我们通常会使用到很多机器学习、深度学习框架、各种数据处理库和一些工具。好用的库很多，但对于初学者来说先聚焦在一些比较常用的框架、库或者工具，有利于提高效率。下面主要分享一些常用的人工智能相关的内容，包括：模型训练、数据处理、参...

人工智能 2023-10-25 人工智能

1252阅读

突发！英伟达H800/A800禁令竟提前生效，但4090意外豁免

芯片禁令发布六天后，美国政府突然变卦——宣布新规提前生效，比原计划整整提前了24天。也就是说，美国撤回了30天的豁免期。即日起，中国无法再获得任何英伟达尖端AI芯片。而根据钛媒体报道，腾讯、字节跳动等赶在禁令生效前大量采购的H800，至今尚未拿到现...

AIGC 2023-10-25 人工智能

832阅读