MySQL数据库与HDFS的实时数据同步

通过Map/Reduce进行批处理递送到Apache Hadoop仍然是中枢环节。,但随着要从“超思维速度“分析方面获取竞争优势的压力递增，因此Hadoop(分布式文件系统)自身经历重大的发展。科技的发展允许实时查询，如Apache Drill, Cloudera Impala和Stinger Initiative正

为了支持这

本文来源gaodai.ma#com搞##代!^码@网3

种日渐强调实时性操作,我们正发布一个新MySQL Applier for Hadoop(用于Hadoop的MySQL Applier)组件。它能够把MySQL中变化的事务复制到Hadoop / Hive / HDFS。Applier 组件补充现有基于批处理Apache Sqoop的连接性。

这个组件(MySQL Applier for Hadoop)的复制是通过连接MySQL主服务，一旦二进制日志被提交，就读取二进制日志事务，并且把它们写到HDFS.

这个组件使用libhdfs提供的API，一个C库操作HDFS中的文件。这库由Hadoop版本预编译生成的。

它连接MySQL主服务读二进制日志，然后：

?提取发生在主服务上的行插入事件

?解码事件,提取插入到行的每个字段的数据,并使用满意的处理程序得到被要求的格式数据。

?把它追加到HDFS 中一个文本文件。

数据库被映射为单独的目录,它们的表映射为子目录，保存在数据仓库目录。每个表的数据被写到Hive/ HDFS中文本文件(称为datafile1.txt)。数据可以用逗号格式分隔;或其他格式,那可用命令行参数来配置的。

原文地址：MySQL数据库与HDFS的实时数据同步, 感谢原作者分享。

搞代码网（gaodaima.com）提供的所有资源部分来自互联网，如果有侵犯您的版权或其他权益，请说明详细缘由并提供版权或权益证明然后发送到邮箱[email protected]‍，我们会在看到邮件的第一时间内为您处理，或直接联系QQ：872152909。本网站采用BY-NC-SA协议进行授权
转载请注明原文链接：MySQL数据库与HDFS的实时数据同步

Hi，您需要填写昵称和邮箱！