github 第70页 - AIGC资讯

大数据采集,分析,调度,管理一体化平台

推荐一个基于spark 实现的大数据采集平台,性能真好 https://github.com/zhaoyachao/zdh_web 功能介绍请看github连接...

生成式AI 2023-11-08 大数据

722阅读

java程序通过modbusTCP协议直连三菱PLC机FX5U型号采集数据

本片内容主要是关于MELSOFT软件上的配置操作。 java程序用的是modjn，在github上能搜到。本篇中FX5U作为从站。在GX Works3上的操作。参数→FX5UCPU→模块参数→以太网端口(双击 [自节点设置中]设置好ip地址...

人工智能 2023-11-08 大数据

1475阅读

C#爬虫框架

DotnetSpider 地址:DotnetSpider (一架构的理解、应用、搭建 - Grom DotnetSpider这是国人开源的一个跨平台、高性能、轻量级的爬...

生成式AI 2023-11-08 大数据

894阅读

数栈技术分享：如何使用数栈进行数据采集？

数栈是云原生—站式数据中台PaaS，我们在github和gitee上有一个有趣的开源项目：FlinkX，FlinkX是一个基于Flink的批流统一的数据同步工具，既可以采集静态的数据，也可以采集实时变化的数据，是全域、异构、批流一体的数据同步引擎。大家喜欢...

AIGC 2023-11-08 大数据

844阅读

网络爬虫获取数据的步骤【重点】

? 作者简介：大学机械本科，野生程序猿，学过C语言，玩过前端，还鼓捣过嵌入式，设计也会一点点，不过如今痴迷于网络爬虫，因此现深耕Python、数据库、seienium、JS逆向、安卓逆向等等，，目前为全职爬虫工程师，学习的过程喜欢记录，目前已经写下15W字...

生成式AI 2023-11-08 大数据

851阅读

抖音数据采集API

抖音数据采集API 接口列表：搜索关键词搜索用户关键词搜索话题关键词搜索视频关键词搜索音乐关键词搜索直播关键词搜索地址关键词搜索商品关键词综合搜索用户用户信息用户视频列表用户直播...

AIGC 2023-11-08 大数据

1300阅读

【开源】Tsar——灵活的系统和应用采集软件

摘要：在开源人的盛会LinuxCon + ContainerCon + CloudOpen中国（简称LC3）大会上，阿里云CDN团队的空见（花名），为大家分享了开源的系统和应用采集软件Tsar的背景、设计思路和用法、模块开发以及未来规划。在开源人的盛...

AIGC 2023-11-08 大数据

898阅读

Windows上的音频采集技术(转)

转自：http://shanewfx.github.io/blog/2013/08/14/caprure-audio-on-windows/ 前一段时间接到一个任务，需要采集到声卡的输出信号，以便与麦克风的输入信号进行混音。之前一直没有研究过音频的相关...

AIGC 2023-11-08 大数据

830阅读

基于Kinect Azure的多相机数据采集（一）

基于Kinect Azure的多相机数据采集（一） Kinect Azure相机是微软近几年推出的一款RGBD相机。相比于Kinect一代和二代，Kinect Azure相机采集的图像可达更高的分辨率，且在硬件方面设置了同步接口，更方便于多相机...

人工智能 2023-11-08 大数据

1517阅读

【深度讲解】iOS应用性能数据采集原理和优化实践 | 内附代码&案例

作者简介刘徐兵（Alvin Liu），云智慧/开发经理。曾在高德、当当有多年大型App开发经验，在云智慧从事APM SDK研发工作5+年。对App开发和性能优化有深入的研究和实践。 iOS应用数据采集的基础 Objective-C Runtime...

人工智能 2023-11-08 大数据

853阅读

抖音数据采集Frida脱壳工具

抖音数据采集Frida脱壳工具短视频、直播数据实时采集接口，请查看文档： TiToData 免责声明：本文档仅供学习与参考，请勿用于非法用途！否则一切后果自负。概述现在很多 app 都会对 Frida 进行检测，所以要根据app...

人工智能 2023-11-08 大数据

1005阅读

采集并推送日志文件数据到elasticsearch/kafka/数据库

基于java语言的日志文件采集插件，支持全量和增量采集两种模式，实时采集日志文件数据到kafka/elasticsearch/database，使用案例：采集日志数据并写入数据库采集日志数据并写入Elasticsearch 采集日志数据并发...

人工智能 2023-11-08 大数据

971阅读

关于7个款来抓数据的开源爬虫软件工具

一、爬虫是什么？爬虫：是一种按照一定的规则，自动地抓取万维网,信息的程序或者脚本。使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。 1.QuickRecon QuickRecon是一个简单的信息收集工具,它可以帮助你查找子域名名称、Perform...

大数据 2023-11-08 大数据

979阅读

flume spooldir 定期采集日期目录

这里以cdh5-1.6.0_5.10.2为例。 flume源码下载地址：https://github.com/cloudera/flume-ng/tree/cdh5-1.6.0_5.10.2，SpoolDirectorySource在https://gi...

人工智能 2023-11-08 大数据

831阅读

Android 音视频采集那些事

音视频采集在整个音视频处理的过程中，位于发送端的音视频采集工作无疑是整个音视频链路的开始。在 Android 或者 IOS 上都有相关的硬件设备——Camera 和麦克风作为输入源。本章我们来分析如何在 Android 上通过 Camera 以及录音设...

人工智能 2023-11-08 大数据

838阅读

WebMagic+curl 爬虫采集图片

一、事出必有因前段时间公司让去采集一些单品的图片，单品的图片约清晰越好。二、最初思路在WebMagic没有找到下载文件用的下载器（Downloader），一开始是在网上找的HttpClient的代码，想要自己实现一个文件下载...

AIGC 2023-11-08 大数据

882阅读

如何从海量数据中快速采集到你想要的数据？

大数据时代，什么最重要？毋庸置疑，是数据。“数据是新时代的石油和黄金”业界专家如是说。有了数据，就有了业务飞速增长的基础引擎和原料，没有数据，你将失去一切。用户通过手机、平板、电脑及IOT等设备每时每刻都在生产数据，营销人员、销售人员需要通过大量数据快...

生成式AI 2023-11-08 大数据

842阅读

高效采集数据，帮助应用业务增长

华为动态标签管理（Dynamic Tag Manager，以下简称“DTM”），是一个动态标签代码管理系统（Tag Manager System），我们可以通过Web页面动态更新跟踪代码，轻松完成特定事件跟踪，它还有助于将数据发送到第三方分析平台和广告归因...

人工智能 2023-11-08 大数据

896阅读

抖音数据采集教程，逆向神器 frida 介绍

抖音数据采集教程，逆向神器 frida 介绍短视频、直播数据实时采集接口，请查看文档： TiToData 免责声明：本文档仅供学习与参考，请勿用于非法用途！否则一切后果自负。<br> frida是啥？首先，frida...

大数据 2023-11-08 大数据

1334阅读

共享内存原理与VCS监控采集实战

本文首发于 vivo互联网技术微信公众号链接：https://mp.weixin.qq.com/s/PolfIcUpMznm7DTlyCHg2g作者：cluo 一、前言共享内存广泛用于Redis，Kafka，RabbitMQ 等高性能组件中...

大数据 2023-11-08 大数据

857阅读

从零开始入门 K8s | 可观测性：监控与日志

作者 | 莫源阿里巴巴技术专家一、背景监控和日志是大型分布式系统的重要基础设施，监控可以帮助开发者查看系统的运行状态，而日志可以协助问题的排查和诊断。在 Kubernetes 中，监控和日志属于生态的一部分，它并不是核心组件，因此大部分的能...

生成式AI 2023-11-08 大数据

879阅读

bilibili用户信息爬虫（全网最全）

bilibili用户信息爬虫 bilibili用户已经突破7亿了（根据UID来看） Github: Leopard-C/BiliUserSpider 0. 成果 bilibili御坂网络计划：https://misaka.sisters.top...

大数据 2023-11-08 大数据

1175阅读

采集电子报纸

项目托管于Github 1、接口 /** *报纸采集器 * @author 杨尚川 */ public interface PaperCollector { /** * 下载当日报纸，一个文件对应一个版面 ...

人工智能 2023-11-08 大数据

749阅读

Play Framework - 数据采集

准备工作：环境： A.mysql5.6 mysql设置编码： ...

生成式AI 2023-11-08 大数据

841阅读

不用写采集规则也可以轻松采集网站文章，揭秘一款明泽文章采集软件的工作原理

一直以来，大家都在用各种各样的采集器或网站自带的采集功能，如织梦采集侠、火车头采集器、八爪鱼采集器等，这些采集软件都有一个共同的特点，就是要编写采集规则才能采集到文章，这个技术性的问题，对于新手来说，经常都是丈二和尚摸不着头脑，可真不是意见容易的事。即使是...

大数据 2023-11-08 大数据

869阅读

php链路追踪框架skywalking介绍

+ 目录 Skywalking介绍 Skywalking是一个国产的开源框架，2015年有吴晟个人开源，2017年加入Apache孵化器，国人开源的产品，主要开发人员来自于华为，2019年4月17...

生成式AI 2023-11-08 大数据

1003阅读

多模态音乐AI框架Video2Music 为视频生成情感相符的音乐

近日，一款创新的人工智能多模态音乐生成框架Video2Music引起了广泛关注。该框架利用独特的数据集和经过用户研究验证的转换器模型，能够为视频生成情感上相符的音乐，填补了这一领域的空白。据悉，Video2Music的GitHub Repo已经发布，为研究...

人工智能 2023-11-08 人工智能

1064阅读

关于世界模型的一点迷思，以及与自动驾驶结合的几点思考~

本文经自动驾驶之心公众号授权转载，转载请联系出处。什么是world models? 什么是world models, 可以参考Yann LeCun的PPT解释即输入历史1到t时刻的状态信息, 结合当前的动作, 能够预测接下来的状态。通俗地理解,...

AIGC 2023-11-08 人工智能

1284阅读

你知道程序员再过几年会没落？

《Computer World》杂志曾经写过一篇文章，说“编程到1960年就会消失”，因为IBM开发了一种新语言FORTRAN，这种新语言可以让工程师写出他们所需的数学公式，然后提交给计算机运行，所以编程就会终结。图片又过了几年，我们听到了一种新...

人工智能 2023-11-08 人工智能

882阅读

百度智能云千帆大模型平台推出千帆SDK开源版本

百度智能云千帆大模型平台再次升级，推出千帆 SDK，全面开源并免费下载使用。该 SDK 提供了从数据集管理、模型训练、模型评估到服务部署等一系列功能，用户可以通过代码接入并调用百度智能云千帆大模型平台的能力，轻松实现 LLMOps 全流程的落地，快速构建...

AIGC 2023-11-08 人工智能

830阅读

北大推出首个多轮多模态PPT任务完成基准PPTC GPT-4完成正确率仅6%

北大和微软亚洲研究院的研究人员提出了一项新的评估基准PPTC，旨在评估大型语言模型在复杂多轮多模态PPT任务中的表现。他们通过创建包含数百个多模态指令的数据集，挑战大模型在多轮人机对话中生成PPT文档的能力。结果显示，GPT-4在创建新PPT文档任务中表...

人工智能 2023-11-07 人工智能

849阅读

GPT-4完成正确率仅6%！北大等提出首个「多轮、多模态」PPT任务完成基准PPTC

【新智元导读】为了填补LLM在复杂多模态环境中利用复杂工具完成多轮、多模态指令的评估空白，研究人员引入了PowerPoint任务完成（PPTC）基准测试，以评估LLM创建和编辑PPT文档的能力。最近对大型语言模型（例如ChatGPT和GPT-4）进行的评...

人工智能 2023-11-07 人工智能

911阅读

AI视野：OpenAI发布GPT-4Turbo；xAI推出PromptIDE工具；美团首个AI产品“Wow”亮相；百家号AI笔记功能将下线

???AI新鲜事 OpenAI发布GPT-4Turbo和自定义GPTs服务在OpenAI首届开发者大会DevDay活动上，OpenAI发布了GPT-4Turbo模型和自定义GPTs服务，以及其他新功能和API，如Assistants API和新的模态AP...

AIGC 2023-11-07 人工智能

877阅读

微软推出 “从错误中学习” 模型训练法，号称可“模仿人类学习过程，改善 AI 推理能力”

IT之家 11 月 7 日消息，微软亚洲研究院联合北京大学、西安交通大学等高校，提出了一项名为“从错误中学习（Learning from Mistake，LeMA）”的 AI 训练方法，号称可以通过模仿人类学习知识的过程，来改进 AI 推理能力。当下...

人工智能 2023-11-07 人工智能

824阅读

生成式AI喧嚣之下：CIO选择谨慎行事尚未全力投入

大多数CIO已经开始探索生成式AI，以确保他们跟上发展步伐，但很多人发现市场上的技术尚未达到宣传的效果。米其林全球首席信息官Yves Caseau表示：“在对GitHub copilot和ChatGPT进行了六个多月的试验后，我对生成式AI的发展速度感...

AIGC 2023-11-07 人工智能

904阅读

目标检测标注的时代已经过去了？

在快速发展的机器学习领域，有一个方面一直保持不变：繁琐和耗时的数据标注任务。无论是用于图像分类、目标检测还是语义分割，长期以来人工标记的数据集一直是监督学习的基础。然而，由于一个创新性的工具 AutoDistill，这种情况可能很快会发生改变。 G...

人工智能 2023-11-07 人工智能

935阅读

让大模型自主探索开放世界，北大&智源提出训练框架LLaMA-Rider

大语言模型因其强大而通用的语言生成、理解能力，展现出了成为通用智能体的潜力。与此同时，在开放式的环境中探索、学习则是通用智能体的重要能力之一。因此，大语言模型如何适配开放世界是一个重要的研究问题。北京大学和北京智源人工智能研究院的团队针对这个问题提出了...

人工智能 2023-11-07 人工智能

1246阅读

北大&智源提出训练框架LLaMA-Rider 让大模型自主探索开放世界

北京大学和北京智源人工智能研究院的团队提出了名为LLaMA-Rider的训练框架，旨在让大型语言模型在开放世界中具备自主探索和学习任务的能力。这个框架通过反馈-修改机制来实现主动探索，使模型在环境中接收反馈信息，不断调整决策，从而逐渐适应开放环境。项目...

人工智能 2023-11-07 人工智能

1157阅读

想快速进入人工智能领域的Java程序员？你准备好了吗？

引言今天我们来探讨一下作为Java程序员，如何迅速融入人工智能的领域。，当前有一些流行的LLMs选择，例如ChatGPT、科大讯飞的星火、通义千问和文心一言等。如果你还没有尝试过这些工具，那么现在也不失为一个很好的机会，赶快体验一下吧。这些工具不仅能够...

人工智能 2023-11-07 人工智能

941阅读

AI视野：xAI首个大模型Grok炸场;李开复官宣开源大模型Yi-34B;ChatGPT原型Gizmo新功能曝光;百度网盘引入大模型智能助理

????大模型动态李开复官宣全球最强开源大模型Yi-34B 一次可处理40万汉字零一万物发布全球最强的开源大模型Yi-34B，具备超强的语言理解和处理能力，支持处理40万汉字，在中文指标上表现卓越，标志着中国在大模型领域的重大突破。项目地址:htt...

AIGC 2023-11-06 人工智能

939阅读

李开复领队开源大模型 Yi，40万字上下文窗口破纪录

由李开复博士亲自下场创办的零一万物（01.ai），自3月底官宣成立后，于近日发布并开源了两个版本的中英文大模型 Yi-6B 和 Yi-34B。在线上发布环节，李开复博士重点介绍了 Yi 系列大模型的三处性能亮点: 全球最长200K 上下文窗口，免费开...

AIGC 2023-11-06 人工智能

991阅读

蚂蚁集团CodeFuse代码大模型开源ModelCache大模型语义缓存

蚂蚁集团旗下CodeFuse 代码大模型宣布开源了 ModelCache 大模型语义缓存，可以降低大型模型应用的推理成本，提升用户体验。 ModelCache 的架构包括 adapter、embedding、similarity 和 data_manage...

人工智能 2023-11-06 人工智能

918阅读

DB-GPT:使用专有LLM技术改变与数据库互操作的方式

DB-GPT是一个开源项目，旨在改变与数据库的互操作方式，它采用了本地化的大型GPT模型，为处理各种数据库相关情境提供了全面的解决方案。这个工具强调了隐私和数据安全，通过业务模块的定制化实施和分割，确保了LLM功能的完全机密性、安全性和可管理性。随着大...

AIGC 2023-11-06 人工智能

1205阅读

元象XVERSE开源650亿参数通用大模型XVERSE-65B

元象XVERSE宣布开源650亿参数高性能通用大模型XVERSE-65B，无条件免费商用。 XVERSE-65B 是由深圳元象科技开发的一种支持多语言的大型语言模型。它采用了 Transformer 网络结构，参数规模达到了650亿。模型通过训练了2....

人工智能 2023-11-06 人工智能

850阅读

国内最大开源模型发布，无条件免费商用！参数650亿，基于2.6万亿token训练

国内规模最大的开源大模型来了：参数650亿、基于2.6-3.2万亿token训练。排名仅次于“猎鹰”和“羊驼”，性能媲美GPT3.5，现在就能无条件免费商用。它就是来自深圳元象公司的XVERSE。根据算力、资源限制和具体任务需求的不同，我们能对...

人工智能 2023-11-06 人工智能

857阅读

Together AI发布RedPajama v2：包内30万亿token数据集，用于训练大型语言模型

Together AI最近发布了RedPajama v2，这是一个庞大的在线数据集，包含了30万亿token，成为目前公开可用的最大数据集之一，专门用于学习型机器学习系统的培训。对于像Llama、Mistral、Falcon、MPT和RedPajama等...

人工智能 2023-11-06 人工智能

969阅读

全球首发！总结七十余种开源数据集，一览自动驾驶开源数据体系

本文经自动驾驶之心公众号授权转载，转载请联系出处。基于数据驱动的各类深度学习模型任务，近年来随着数据集规模的不断扩大，性能逐渐被提升，国内外各大自动驾驶公司都在不断建立自己的数据库，以及数据闭环系统，期待数据的丰富能够解决下半场自动驾驶问题，那么如何...

AIGC 2023-11-06 人工智能

920阅读

GitHub黑市曝光，高档刷星6元一颗，最奇葩开源项目97%都是刷的

在黑市买GitHub星星多少钱？最贵的高达6元一颗。有创业者Yassin Eldeeeb自掏腰包测试了一把。他足足花20欧元（约156人民币），只买到25颗“高级星星”。没错，在黑市上刷GitHub星星也是分高低贵贱的。高级的都是注册一年以上的...

人工智能 2023-11-05 人工智能

911阅读

大模型落地最后一公里：111页全面综述大模型评测

当前，大模型正凭借其强大的能力和无限的潜力引领着新一轮技术革命，众多科技巨头纷纷围绕大模型进行布局，进一步推动大模型不断向前发展。然而，尽管大模型能够协助我们完成各种任务，改变我们的生产和生活的方式，提高生产力，为我们带来便利，但大模型的发展也伴随着诸多...

人工智能 2023-11-05 人工智能

959阅读

CMU清华MIT引爆全球首个Agent无限流，机器人「007」加班自学停不下来！具身智能被革命

全球首个生成式机器人Agent发布了！长久以来，相比于语言或者视觉模型可以在大规模的互联网数据上训练，训练机器人的策略模型需要带有动态物理交互信息的数据，而这些数据的匮乏一直是具身智能发展的最大瓶颈。最近，来自CMU、清华、MIT，UMass等机构的...

AIGC 2023-11-05 人工智能

893阅读