1.DataX概述DataX是阿里巴巴开源的一个异构数据源离线同步工具,致力于实现包括关系型数据库(Mysql、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。
2.DataX作用
3.DataX支持的数据源DataX目前已经有了比较全面的插件体系,主流的RDBMS数据库、NoSQL、大数据计算系统都已经接入,支持如下:
类型
数据源
Reader(读)
Writer(写)
RDBMS 关系型数据库
MySQL
✔
✔
Oracle
✔
✔
OceanBase
✔
✔
SQLServer
✔
✔
PostgreSQL
✔
✔
DRDS
✔
✔
通用 RDBMS
✔
✔
阿里云数仓数据库
ODPS
✔
✔
ADS
✔
✔
OSS
✔
✔
OCS
✔
✔
NoSQL 数据存储
OTS
✔
✔
Hbase0.94
✔
✔
Hbase1.1
✔
✔
Phoenix4.x
✔
✔
Phoenix5.x
✔
✔
MongoDB
✔
✔ ...
1.Maxwell概述:Maxwell是使用Java编写(可以使用jps查看进程)的MySQL变更数据抓取软件。他会实时监控Mysql数据库的数据变更操作(包括insert、update、delete),并将变更数据以JSON的格式发送给Kafka、Kinesi等流数据处理平台。
Maxwell输出数据格式
操作
SQL语句
数据格式
插入
insert into gmall.student values(1, 'zhangsan');
```json
{
“database”: “gmall”,
“table”: “student”,
“type”: “insert”,
“ts”: 1634004537,
“xid”: 1530907,
“commit”: true,
“data”: {
“id”: 1,
“name”: “zhangsan”
}
}
```
更新
update gmall.student ...
.video-container {
position: relative;
width: 100%;
padding-top: 56.25%; /* 16:9 aspect ratio (height/width = 9/16 * 100%) */
}
.video-container iframe {
position: absolute;
top: 0;
left: 0;
width: 100%;
height: 100%;
}
博客预览
hexo cl; hexo s
推送
hexo cl; hexo g; hexo d
基本语法基本语法基本语法引用
hjjk
jkdsfjl
skolfakashjd
kdsfjfjljdsdjlksgjdfjksldfjl
sakllflj
sakhaklfhk
lsalk
表头 1
表头 2
内容 1
内容 2
内容 3
内容 4
kalfl
ldskkfldg
lslfjkk
kdjfglk
服务名称
子服务
hadoop102
hadoop103
hadoop104
HDFS
NameNode
√
HDFS
DataNode
√
√
√
HDFS
SecondaryNameNode
√
Yarn
NodeManager
√
√
√
Yarn
Resourcemanager
√
Zookeeper
Zookeeper Server
√
√
√
Flume(采集日志)
Flume
√
√
Kafka
Kafka
√
√
√
Flume(消费 ...
数仓数据治理平台介绍点击此链接可访问本项目:数据治理考评平台(此链接仅供展示,里面数据不全,某些功能也因为服务器配置原因未实现)
一、元数据模块1、点击元数据管理选项
2、输入表名,输入库名,选择层级,点击查询可以看到各表的基本信息,点击清空会清除查询条件,表名和库名支持模糊匹配
3、点击手动更新元数据库数据,填入时间和库名会跟新各表的元数据但一般不会手动更新,因为元数据更新耗时也挺久,所有会在前一天数仓数据更新完以后自动更新,如果元数据更新出错可以手动更新,否则不建议手动更新(重复更新不会数据重复,会先删除再更新,sql注入问题也处理过)
4、点击表名可以查看元数据详细信息
5、可对附加信息进行更改
二、 考评模块1、点击数据治理考评查看数仓各表,各人问题,排名和分数
2、点击重新评估选择评估日期可以重新评估当日的数仓各表,各人问题,排名和分数当然也不建议手动评定,每日的评估会在后台定时调度,手动评估可以在评估出错的情况或人员对其表所展现出的错误进行改动后重新评估
3、人员对表的辅助信息进行改动
三、文章结尾1、该项目具体技术看这2、该项目免费部署看这
1. 集群执行命令脚本:1234567#! /bin/bash for i in hadoop102 hadoop103 hadoop104do echo --------- $i ---------- ssh $i "$*"done
2. 集群同步脚本123456789101112131415161718192021222324252627282930#!/bin/bash#1. 判断参数个数if [ $# -lt 1 ]then echo Not Enough Arguement! exit;fi#2. 遍历集群所有机器for host in hadoop102 hadoop103 hadoop104do echo ==================== $host ==================== #3. 遍历所有目录,挨个发送 for file in $@ do #4 判断文件是否存在 if [ -e $file ] then #5. 获取父目录(dirname获取绝对路径父目录,相对路径获取 ...
大数据开发项目之在线教育离线数仓从零到一(学习项目)本文详细介绍了大数据开发项目之在线教育离线数仓的开发过程,从零到一,包括项目背景、需求分析、设计思路、技术选型、开发环境搭建、数据采集、数仓搭建、
项目整体流程该项目是一个在线教育大数据开发项目,旨在构建离线数仓,对在线教育业务数据进行分析处理,以支持企业决策。以下是项目的详细流程:
1. 业务流程与数据来源
业务流程:用户从在线教育网站首页开始浏览课程,可通过分类查询或全文检索寻找课程,找到后可添加到购物车、登录、结算,生成订单和支付数据,订单生成后会进行跟踪处理。
数据来源:包括用户行为数据(通过前端埋点采集,存储在 HDFS 文件中)和业务数据(存储在 MySQL 中)。(因为本项目为学习项目,所以数据来源均为数据模拟器模拟的虚拟数据)
2. 系统数据流程设计
集群流程图:业务服务器与 App 业务交互,通过 Nginx 进行数据传输。日志数据经日志服务器采集,可采用 flume 采集方式,部分数据经消息缓存后存入 Kafka。业务数据通过 DataX 每日同步从 MySQL 数据库导入。数据在集群中经过 ODS、DWD、DW ...






