git 第90页 - AIGC资讯

SpiderFlow(图形化爬虫)

SpiderFlow(图形化爬虫 url https://github.com/ssssssss-team/spider-flow 官网 https://www.spiderflow.org 0.简介 spider-flow 是一个爬...

生成式AI 2023-11-08 大数据

1132阅读

PHP尚能饭否？八个项目告诉你老牌语言如何绽放新的生命力

自 1995 年 PHP 1.0 被推出后，这个老牌语言已经走过了 25 个年头，「PHP 是世界上最好的语言」这句口号也曾经响彻整个开发者群体。但近两年随着新语言的崛起，PHP 的势头似乎已经大不如前，虽然如此，凭借着其足够深厚的底蕴，PHP 仍然是世界...

AIGC 2023-11-08 大数据

858阅读

高性能数据采集系统

使用组件 Go + Cassandra Go: 负责高并发请求处理 Cassandra: 负责高速写、存储及扩展基准测试(表现很粗暴稳定开发环境(代码简短 Cassandra安装及数据结构：软件安装：https:/...

大数据 2023-11-08 大数据

727阅读

4-八爪鱼boss直聘信息采集

目录 4-1-综合实践背景 4-2-综合实践操作 1-打开网页 2-按关键词进行搜索 3-报错“当前IP地址可能存在异常访问” 4-数据采集 4-3-思考参考文献 4-1-综合实践背景小张是某高校管理学研究生，在毕业课题中...

人工智能 2023-11-08 大数据

1306阅读

大数据采集,分析,调度,管理一体化平台

推荐一个基于spark 实现的大数据采集平台,性能真好 https://github.com/zhaoyachao/zdh_web 功能介绍请看github连接...

生成式AI 2023-11-08 大数据

722阅读

java程序通过modbusTCP协议直连三菱PLC机FX5U型号采集数据

本片内容主要是关于MELSOFT软件上的配置操作。 java程序用的是modjn，在github上能搜到。本篇中FX5U作为从站。在GX Works3上的操作。参数→FX5UCPU→模块参数→以太网端口(双击 [自节点设置中]设置好ip地址...

人工智能 2023-11-08 大数据

1475阅读

C#爬虫框架

DotnetSpider 地址:DotnetSpider (一架构的理解、应用、搭建 - Grom DotnetSpider这是国人开源的一个跨平台、高性能、轻量级的爬...

生成式AI 2023-11-08 大数据

894阅读

数栈技术分享：如何使用数栈进行数据采集？

数栈是云原生—站式数据中台PaaS，我们在github和gitee上有一个有趣的开源项目：FlinkX，FlinkX是一个基于Flink的批流统一的数据同步工具，既可以采集静态的数据，也可以采集实时变化的数据，是全域、异构、批流一体的数据同步引擎。大家喜欢...

AIGC 2023-11-08 大数据

844阅读

网络爬虫获取数据的步骤【重点】

? 作者简介：大学机械本科，野生程序猿，学过C语言，玩过前端，还鼓捣过嵌入式，设计也会一点点，不过如今痴迷于网络爬虫，因此现深耕Python、数据库、seienium、JS逆向、安卓逆向等等，，目前为全职爬虫工程师，学习的过程喜欢记录，目前已经写下15W字...

生成式AI 2023-11-08 大数据

851阅读

抖音数据采集API

抖音数据采集API 接口列表：搜索关键词搜索用户关键词搜索话题关键词搜索视频关键词搜索音乐关键词搜索直播关键词搜索地址关键词搜索商品关键词综合搜索用户用户信息用户视频列表用户直播...

AIGC 2023-11-08 大数据

1300阅读

【开源】Tsar——灵活的系统和应用采集软件

摘要：在开源人的盛会LinuxCon + ContainerCon + CloudOpen中国（简称LC3）大会上，阿里云CDN团队的空见（花名），为大家分享了开源的系统和应用采集软件Tsar的背景、设计思路和用法、模块开发以及未来规划。在开源人的盛...

AIGC 2023-11-08 大数据

898阅读

迈创采集卡搭配工业相机二次开发介绍（一）

迈创采集卡搭配工业相机二次开发介绍（一）SDK简介迈创采集卡介绍迈创采集卡SDK简介 MIL SDK获取路径接口函数说明 MIL接口简单介绍迈创采集卡介绍 MIL全称为Matrox Imaging Library，由加...

生成式AI 2023-11-08 大数据

1723阅读

Windows上的音频采集技术(转)

转自：http://shanewfx.github.io/blog/2013/08/14/caprure-audio-on-windows/ 前一段时间接到一个任务，需要采集到声卡的输出信号，以便与麦克风的输入信号进行混音。之前一直没有研究过音频的相关...

AIGC 2023-11-08 大数据

830阅读

基于Kinect Azure的多相机数据采集（一）

基于Kinect Azure的多相机数据采集（一） Kinect Azure相机是微软近几年推出的一款RGBD相机。相比于Kinect一代和二代，Kinect Azure相机采集的图像可达更高的分辨率，且在硬件方面设置了同步接口，更方便于多相机...

人工智能 2023-11-08 大数据

1517阅读

【深度讲解】iOS应用性能数据采集原理和优化实践 | 内附代码&案例

作者简介刘徐兵（Alvin Liu），云智慧/开发经理。曾在高德、当当有多年大型App开发经验，在云智慧从事APM SDK研发工作5+年。对App开发和性能优化有深入的研究和实践。 iOS应用数据采集的基础 Objective-C Runtime...

人工智能 2023-11-08 大数据

853阅读

Android车辆运动轨迹大数据采集最佳实践

csdn源码下载地址：https://download.csdn.net/download/geduo_83/10841480 前言：最近帝都的天气有些冷，天寒地冻，天气虽冷，但也无法阻挡我写文章的热情，之前很少写文章，记得写文章已经是很久很...

生成式AI 2023-11-08 大数据

898阅读

抖音数据采集Frida脱壳工具

抖音数据采集Frida脱壳工具短视频、直播数据实时采集接口，请查看文档： TiToData 免责声明：本文档仅供学习与参考，请勿用于非法用途！否则一切后果自负。概述现在很多 app 都会对 Frida 进行检测，所以要根据app...

人工智能 2023-11-08 大数据

1005阅读

采集并推送日志文件数据到elasticsearch/kafka/数据库

基于java语言的日志文件采集插件，支持全量和增量采集两种模式，实时采集日志文件数据到kafka/elasticsearch/database，使用案例：采集日志数据并写入数据库采集日志数据并写入Elasticsearch 采集日志数据并发...

人工智能 2023-11-08 大数据

972阅读

关于7个款来抓数据的开源爬虫软件工具

一、爬虫是什么？爬虫：是一种按照一定的规则，自动地抓取万维网,信息的程序或者脚本。使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。 1.QuickRecon QuickRecon是一个简单的信息收集工具,它可以帮助你查找子域名名称、Perform...

大数据 2023-11-08 大数据

979阅读

flume spooldir 定期采集日期目录

这里以cdh5-1.6.0_5.10.2为例。 flume源码下载地址：https://github.com/cloudera/flume-ng/tree/cdh5-1.6.0_5.10.2，SpoolDirectorySource在https://gi...

人工智能 2023-11-08 大数据

831阅读

数据采集组件：Flume基础用法和Kafka集成

一、Flume简介 1、基础描述 Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统，Flume支持在日志系统中定制各类数据发送方，用于收集数据；特点：分布式、高可用、基于流式架构，通常用来收集、聚合、...

生成式AI 2023-11-08 大数据

786阅读

Android 音视频采集那些事

音视频采集在整个音视频处理的过程中，位于发送端的音视频采集工作无疑是整个音视频链路的开始。在 Android 或者 IOS 上都有相关的硬件设备——Camera 和麦克风作为输入源。本章我们来分析如何在 Android 上通过 Camera 以及录音设...

人工智能 2023-11-08 大数据

839阅读

WebMagic+curl 爬虫采集图片

一、事出必有因前段时间公司让去采集一些单品的图片，单品的图片约清晰越好。二、最初思路在WebMagic没有找到下载文件用的下载器（Downloader），一开始是在网上找的HttpClient的代码，想要自己实现一个文件下载...

AIGC 2023-11-08 大数据

882阅读

如何从海量数据中快速采集到你想要的数据？

大数据时代，什么最重要？毋庸置疑，是数据。“数据是新时代的石油和黄金”业界专家如是说。有了数据，就有了业务飞速增长的基础引擎和原料，没有数据，你将失去一切。用户通过手机、平板、电脑及IOT等设备每时每刻都在生产数据，营销人员、销售人员需要通过大量数据快...

生成式AI 2023-11-08 大数据

842阅读

高效采集数据，帮助应用业务增长

华为动态标签管理（Dynamic Tag Manager，以下简称“DTM”），是一个动态标签代码管理系统（Tag Manager System），我们可以通过Web页面动态更新跟踪代码，轻松完成特定事件跟踪，它还有助于将数据发送到第三方分析平台和广告归因...

人工智能 2023-11-08 大数据

896阅读

1+x 2020年数据采集证书（中级）实操试卷一

1+x 2020年数据采集证书（中级）实操试卷一采集工具运用题 #一、数据采集任务场景一（工具定制题）使用 apache httpd、filebeat、logstash、csv完成数据采集演示。 ## 1、数据场景： ### apache http...

生成式AI 2023-11-08 大数据

930阅读

抖音数据采集教程，逆向神器 frida 介绍

抖音数据采集教程，逆向神器 frida 介绍短视频、直播数据实时采集接口，请查看文档： TiToData 免责声明：本文档仅供学习与参考，请勿用于非法用途！否则一切后果自负。<br> frida是啥？首先，frida...

大数据 2023-11-08 大数据

1334阅读

共享内存原理与VCS监控采集实战

本文首发于 vivo互联网技术微信公众号链接：https://mp.weixin.qq.com/s/PolfIcUpMznm7DTlyCHg2g作者：cluo 一、前言共享内存广泛用于Redis，Kafka，RabbitMQ 等高性能组件中...

大数据 2023-11-08 大数据

857阅读

bilibili用户信息爬虫（全网最全）

bilibili用户信息爬虫 bilibili用户已经突破7亿了（根据UID来看） Github: Leopard-C/BiliUserSpider 0. 成果 bilibili御坂网络计划：https://misaka.sisters.top...

大数据 2023-11-08 大数据

1175阅读

采集电子报纸

项目托管于Github 1、接口 /** *报纸采集器 * @author 杨尚川 */ public interface PaperCollector { /** * 下载当日报纸，一个文件对应一个版面 ...

人工智能 2023-11-08 大数据

749阅读

Play Framework - 数据采集

准备工作：环境： A.mysql5.6 mysql设置编码： ...

生成式AI 2023-11-08 大数据

841阅读

不用写采集规则也可以轻松采集网站文章，揭秘一款明泽文章采集软件的工作原理

一直以来，大家都在用各种各样的采集器或网站自带的采集功能，如织梦采集侠、火车头采集器、八爪鱼采集器等，这些采集软件都有一个共同的特点，就是要编写采集规则才能采集到文章，这个技术性的问题，对于新手来说，经常都是丈二和尚摸不着头脑，可真不是意见容易的事。即使是...

大数据 2023-11-08 大数据

869阅读

php链路追踪框架skywalking介绍

+ 目录 Skywalking介绍 Skywalking是一个国产的开源框架，2015年有吴晟个人开源，2017年加入Apache孵化器，国人开源的产品，主要开发人员来自于华为，2019年4月17...

生成式AI 2023-11-08 大数据

1003阅读

LabVIEW控制Arduino采集多路模拟量、数字量（进阶篇—1）

目录 1、项目概述 2、项目架构 3、硬件环境 4、Arduino功能设计 5、LabVIEW功能设计 5.1、前面板设计 5.2、程序框图设计 1、项目概述数据采集，是指从传感器和其他待测设备的模拟和数字被测单元中自动采集信息的过程...

AIGC 2023-11-08 大数据

781阅读

多模态音乐AI框架Video2Music 为视频生成情感相符的音乐

近日，一款创新的人工智能多模态音乐生成框架Video2Music引起了广泛关注。该框架利用独特的数据集和经过用户研究验证的转换器模型，能够为视频生成情感上相符的音乐，填补了这一领域的空白。据悉，Video2Music的GitHub Repo已经发布，为研究...

人工智能 2023-11-08 人工智能

1064阅读

关于世界模型的一点迷思，以及与自动驾驶结合的几点思考~

本文经自动驾驶之心公众号授权转载，转载请联系出处。什么是world models? 什么是world models, 可以参考Yann LeCun的PPT解释即输入历史1到t时刻的状态信息, 结合当前的动作, 能够预测接下来的状态。通俗地理解,...

AIGC 2023-11-08 人工智能

1284阅读

你知道程序员再过几年会没落？

《Computer World》杂志曾经写过一篇文章，说“编程到1960年就会消失”，因为IBM开发了一种新语言FORTRAN，这种新语言可以让工程师写出他们所需的数学公式，然后提交给计算机运行，所以编程就会终结。图片又过了几年，我们听到了一种新...

人工智能 2023-11-08 人工智能

882阅读

百度智能云千帆大模型平台推出千帆SDK开源版本

百度智能云千帆大模型平台再次升级，推出千帆 SDK，全面开源并免费下载使用。该 SDK 提供了从数据集管理、模型训练、模型评估到服务部署等一系列功能，用户可以通过代码接入并调用百度智能云千帆大模型平台的能力，轻松实现 LLMOps 全流程的落地，快速构建...

AIGC 2023-11-08 人工智能

830阅读

北大推出首个多轮多模态PPT任务完成基准PPTC GPT-4完成正确率仅6%

北大和微软亚洲研究院的研究人员提出了一项新的评估基准PPTC，旨在评估大型语言模型在复杂多轮多模态PPT任务中的表现。他们通过创建包含数百个多模态指令的数据集，挑战大模型在多轮人机对话中生成PPT文档的能力。结果显示，GPT-4在创建新PPT文档任务中表...

人工智能 2023-11-07 人工智能

849阅读

GPT-4完成正确率仅6%！北大等提出首个「多轮、多模态」PPT任务完成基准PPTC

【新智元导读】为了填补LLM在复杂多模态环境中利用复杂工具完成多轮、多模态指令的评估空白，研究人员引入了PowerPoint任务完成（PPTC）基准测试，以评估LLM创建和编辑PPT文档的能力。最近对大型语言模型（例如ChatGPT和GPT-4）进行的评...

人工智能 2023-11-07 人工智能

911阅读

AI视野：OpenAI发布GPT-4Turbo；xAI推出PromptIDE工具；美团首个AI产品“Wow”亮相；百家号AI笔记功能将下线

???AI新鲜事 OpenAI发布GPT-4Turbo和自定义GPTs服务在OpenAI首届开发者大会DevDay活动上，OpenAI发布了GPT-4Turbo模型和自定义GPTs服务，以及其他新功能和API，如Assistants API和新的模态AP...

AIGC 2023-11-07 人工智能

877阅读

微软推出 “从错误中学习” 模型训练法，号称可“模仿人类学习过程，改善 AI 推理能力”

IT之家 11 月 7 日消息，微软亚洲研究院联合北京大学、西安交通大学等高校，提出了一项名为“从错误中学习（Learning from Mistake，LeMA）”的 AI 训练方法，号称可以通过模仿人类学习知识的过程，来改进 AI 推理能力。当下...

人工智能 2023-11-07 人工智能

824阅读

生成式AI喧嚣之下：CIO选择谨慎行事尚未全力投入

大多数CIO已经开始探索生成式AI，以确保他们跟上发展步伐，但很多人发现市场上的技术尚未达到宣传的效果。米其林全球首席信息官Yves Caseau表示：“在对GitHub copilot和ChatGPT进行了六个多月的试验后，我对生成式AI的发展速度感...

AIGC 2023-11-07 人工智能

904阅读

目标检测标注的时代已经过去了？

在快速发展的机器学习领域，有一个方面一直保持不变：繁琐和耗时的数据标注任务。无论是用于图像分类、目标检测还是语义分割，长期以来人工标记的数据集一直是监督学习的基础。然而，由于一个创新性的工具 AutoDistill，这种情况可能很快会发生改变。 G...

人工智能 2023-11-07 人工智能

935阅读

让大模型自主探索开放世界，北大&智源提出训练框架LLaMA-Rider

大语言模型因其强大而通用的语言生成、理解能力，展现出了成为通用智能体的潜力。与此同时，在开放式的环境中探索、学习则是通用智能体的重要能力之一。因此，大语言模型如何适配开放世界是一个重要的研究问题。北京大学和北京智源人工智能研究院的团队针对这个问题提出了...

人工智能 2023-11-07 人工智能

1246阅读

北大&智源提出训练框架LLaMA-Rider 让大模型自主探索开放世界

北京大学和北京智源人工智能研究院的团队提出了名为LLaMA-Rider的训练框架，旨在让大型语言模型在开放世界中具备自主探索和学习任务的能力。这个框架通过反馈-修改机制来实现主动探索，使模型在环境中接收反馈信息，不断调整决策，从而逐渐适应开放环境。项目...

人工智能 2023-11-07 人工智能

1157阅读

想快速进入人工智能领域的Java程序员？你准备好了吗？

引言今天我们来探讨一下作为Java程序员，如何迅速融入人工智能的领域。，当前有一些流行的LLMs选择，例如ChatGPT、科大讯飞的星火、通义千问和文心一言等。如果你还没有尝试过这些工具，那么现在也不失为一个很好的机会，赶快体验一下吧。这些工具不仅能够...

人工智能 2023-11-07 人工智能

941阅读

让大模型忘记哈利波特，微软新研究上演Llama 2记忆消除术，真·用魔法打败魔法（doge）

最近微软一项研究让Llama 2选择性失忆了，把哈利波特忘得一干二净。现在问模型“哈利波特是谁？”，它的回答是这样婶儿的：木有赫敏、罗恩，木有霍格沃茨…… 要知道此前Llama 2的记忆深度还是很给力的，比如给它一个看似非常普通的提示“那年秋天，哈...

人工智能 2023-11-07 人工智能

763阅读

AI视野：xAI首个大模型Grok炸场;李开复官宣开源大模型Yi-34B;ChatGPT原型Gizmo新功能曝光;百度网盘引入大模型智能助理

????大模型动态李开复官宣全球最强开源大模型Yi-34B 一次可处理40万汉字零一万物发布全球最强的开源大模型Yi-34B，具备超强的语言理解和处理能力，支持处理40万汉字，在中文指标上表现卓越，标志着中国在大模型领域的重大突破。项目地址:htt...

AIGC 2023-11-06 人工智能

939阅读

李开复领队开源大模型 Yi，40万字上下文窗口破纪录

由李开复博士亲自下场创办的零一万物（01.ai），自3月底官宣成立后，于近日发布并开源了两个版本的中英文大模型 Yi-6B 和 Yi-34B。在线上发布环节，李开复博士重点介绍了 Yi 系列大模型的三处性能亮点: 全球最长200K 上下文窗口，免费开...

AIGC 2023-11-06 人工智能

992阅读