博客园

Dinky集成Paimon数据源!可视化读取paimon元数据,支持HDFS,S3, Hive

这是一篇关于使用 Dinky 操作 Paimon 的教程。包括通过 Docker 快速部署 Dinky、准备 Paimon 依赖、初始化 Paimon 表、注册 Paimon 数据源、查看HDFS Paimon 元数据以及在 S3/OSS/COS/OBS 上使用 Paimon 的方法。
Dinky
头像墨无痕 发布于2024年09月26日
911浏览 1点赞 1收藏

Dinky集成Doris CdcTool 进行数据同步

本教程介绍使用 Dinky 运行 CDC pipeline 任务实现整库同步 Doris 并自动建表。包括前置条件、Docker 部署 Dinky、部署 Doris 与 MySQL 测试环境及具体操作步骤等内容。
Dinky
头像墨无痕 发布于2024年09月26日
686浏览 1点赞

大型企业与中小型企业的数据治理做法差异

在当今数字化时代,数据已成为企业最宝贵的资产之一,数据治理的重要性日益凸显。然而,由于企业规模、业务模式及资源状况的差异,大型企业与中小型企业在数据治理方面的做法存在显著不同。
数据治理
头像忆往昔 发布于2024年09月25日
93浏览

​Lambda架构和Kappa架构

随着每天都会出现不同的应用场景,数据管理者会相应地评估他们的架构设计。 无论您代表哪个团队,都有一个共同的问题:数据处理。数据处理模式和工具正在不断变化和发展。在本文中,我将介绍Lambda和Kappa数据处理架构作为数据处理架构决策的基础。
数据平台架构
头像忆往昔 发布于2024年09月24日
184浏览

构建湖仓一体架构关键:统一元数据管理

湖仓一体架构作为一种新兴的数据管理解决方案,通过整合数据湖的灵活性和数据仓库的高性能,为企业提供了一个统一的数据平台。统一元数据管理作为湖仓一体架构的基石,它确保了数据的一致性、可发现性和治理性。
数据平台架构数据湖数据仓库/中台
头像忆往昔 发布于2024年09月23日
302浏览 1收藏

支付宝架构是真的牛逼 !

哈喽,大家好,我是黑板报君,一个资深的软件开发工程师,致力于为大家分享各领域优质开源项目,开发前沿技术以及互联网技术圈动态。
头像随风 发布于2024年09月19日
80浏览

怎么办?用DolphinScheduler调度执行复杂的HiveSQL时无法正确识别符号

在使用Apache DolphinScheduler调度执行复杂的HiveSQL时,HQL包含多种DolphinScheduler无法正确识别的符号,怎么办?本文提供了可行的思路和方法,供用户参考。
DolphinschedulerHive实践
头像随风 发布于2024年09月19日
180浏览

什么是 Apache StreamPark™

实时即未来,在实时处理流域 Apache Spark™ 和 Apache Flink® 是一个伟大的进步,尤其是 Flink 被普遍认为是下一代大数据流计算引擎。
StreamparkFlinkSpark
头像忆往昔 发布于2024年09月12日
432浏览

Hello 算法 第0章 前言

算法犹如美妙的交响乐,每一行代码都像韵律般流淌。愿这本书在你的脑海中轻轻响起,留下独特而深刻的旋律。
数据结构和算法
头像忆往昔 发布于2024年09月12日
154浏览

饿了么基于Flink+Paimon+StarRocks的实时湖仓探索

本文整理自饿了么大数据架构师、Apache Flink Contributor 王沛斌老师在8月3日 Streaming Lakehouse Meetup Online(Paimon x StarRocks,共话实时湖仓架构)上的分享。主要分为以下三个内容:1. 饿了么实时数仓演进之路2. 实时湖仓方案选型与探3. 实时湖仓规划及展望。
FlinkPaimonStarRocks
头像数智先锋 发布于2024年09月10日
1053浏览

记一次Hiveserver2连接异常的解决-腾讯云-emr

离线任务跑的好好的,忽然有一天失败了,查看海豚上的任务执行日志发现是hiveserver2连接超时了。 查看监控发现了几个问题一个是GC变得频繁,另一个是连接数达到上限了。
Hive
头像随风 发布于2024年09月10日
370浏览 1收藏

shell 文件打开情况工具 lsof

lsof(list open files)是一个列出当前系统打开文件的工具。在linux环境下,任何事物都以文件的形式存在,通过文件不仅仅可以访问常规数据,还可以访问网络连接和硬件。
Linux
头像随风 发布于2024年09月10日
161浏览

shell 网络工具 netstat

Linux netstat 命令用于显示网络状态。利用 netstat 指令可让你得知整个 Linux 系统的网络情况.
Linux
头像随风 发布于2024年09月10日
214浏览 1收藏

StarRocks 培训课程重磅上线!专家出品,助你升级打怪不走弯路!

今年已过了大半,大家的学习进度条进展如何?如果你对 StarRocks 的基础知识还有疑惑,或在寻找系统性的学习方法,不必灰心,因为 Rocky 要来助你一臂之力啦!
StarRocks
头像巨人肩膀小编 发布于2024年09月10日
234浏览

1 简介

中文,免费,零起点,完整示例,基于最新的Python 3版本。 Python是一种计算机程序设计语言。你可能已经听说过很多种流行的编程语言,比如非常难学的C语言,非常流行的Java语言,适合初学者的Basic语言,适合网页编程的JavaScript语言等等。
Python开发
头像忆往昔 发布于2024年09月09日
226浏览

一篇文搞定消息队列选型-内容有点长

消息队列是重要的分布式系统组件,在高性能、高可用、低耦合等系统架构中扮演着重要作用。可用于异步通信、削峰填谷、解耦系统、数据缓存等多种业务场景。本文是关于消息队列(MQ)选型和常见问题的精心整理。在这篇文章中,我们将详细介绍消息队列的概念、作用以及如何选择适合自己需求的消息队列系统。
Kafka
头像忆往昔 发布于2024年09月06日
132浏览

大数据技术选型问卷内容征集~~~

计划下周做一个针对大数据技术选型的问卷,写了10个问题,欢迎各位大数据同仁针对这份文件内容提出你的宝贵建议,先谢过了。
数据平台架构数据仓库/中台数据治理PowerData
头像巨人肩膀小编 发布于2024年09月06日
221浏览 2点赞 1收藏

一个专为引导用户而设计的轻量级前端库,让你的产品更懂用户,Star 22.7K+!

一个专为引导用户而设计的轻量级前端库,让你的产品更懂用户,Star 22.7K+!
有趣的开源集市
头像开源集市 发布于2024年09月06日
387浏览 2点赞 1收藏

大数据运维实战:Spark作业的监控与深度诊断

Apache Spark是一个强大的大数据处理框架,广泛应用于数据分析、机器学习和实时数据处理等领域。然而,随着数据规模的扩大和作业复杂性的增加,如何有效地监控和诊断Spark作业的资源使用状态变得尤为重要。本文将探讨Spark作业的常用监控工具、任务的资源状态诊断。
Spark
头像忆往昔 发布于2024年09月05日
549浏览

安装PDF转Markdown工具-Marker-阿里云-centos7

一个开源、先进的PDF转换工具,它利用深度学习技术将PDF文件高保真地转换成Markdown格式。能够处理多种语言,自动去除页眉页脚等非内容元素,并支持表格、代码块和图像的格式化。Marker在保持原有文档结构的同时,提供了快速准确的转换效果。
Python开发Linux
头像忆往昔 发布于2024年09月05日
506浏览
1 373839404182

微信(交流/反馈)

巨人肩膀初心:站在巨人肩膀上,避免无谓的重复劳动。 生产和汇聚行业技术、 知识经验、 工具组件 、案例产品,提供相关环境,为开发者提高生产效率提供切实有效的支持和帮助。并在这一进程中实现多方共赢。

©2023-2026 - 巨人肩膀 - 粤ICP备2025395551号-1