• 将 PolarDB-X 与 ClickHouse 大数据等系统互通

    2023.01.04 in Ju4t

    安装PolarDB-X 本步骤将指导您如何安装PolarDB-X。 安装并启动Docekr。 执行如下命令,安装Docker。 $ curl -fsSL https://get.docker.com | bash -s docker --mirror Aliyun 启动Docker。 $ systemctl start docker 安装PolarDB-X。 $ docker run -d --name some-polardb-x -p 8527:8527 polardbx/polardb-x:2.1.0 Unable to find image 'polardbx/polar

    更多

  • HDFS 生产环境参数调优

    2022.11.10 in Ju4t

    HDFS参数调优 jps # 查看进行内存使用 jmap -heap PID HDFS核心参数 NameNode内存计算 每个文件块150byte,一台服务器128G内存为例,能存储多少文件块呢? 128 * 1024 * 1024 * 1024 / 150Byte 大约 9.1亿 G MB KB Byte Hadoop3.x系列,配置NameNode内存 具体修改:hadoop-env.sh export HDFS_NAMENODE_OPTS = "-Dhadoop.security.logger=INFO,RFAS -Xmx1024m

    更多

  • DataX 同步数据

    2022.10.29 in Ju4t

    DataX 是阿里云 DataWorks数据集成 的开源版本,在阿里巴巴集团内被广泛使用的离线数据同步工具/平台。DataX 实现了包括 MySQL、Oracle、OceanBase、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、Hologres、DRDS 等各种异构数据源之间高效的数据同步功能。 下载地址 https://gitee.com/mirrors/DataX https://datax-opensource.oss-cn-hangzhou.aliyuncs.com/datax.tar.

    更多

  • SparkStreaming Kafka

    2022.10.17 in Ju4t

    package com.ju4t.bigdata.spark.streaming import org.apache.kafka.clients.consumer.ConsumerConfig import org.apache.spark.SparkConf import org.apache.spark.storage.StorageLevel import org.apache.spark.streaming.kafka010.{ConsumerStrategies, KafkaUtils, LocationStrategies} import org.apache.spark.str

    更多

  • SparkSQL Hive

    2022.10.17 in Ju4t

    package com.ju4t.bigdata.spark.sql import org.apache.spark.SparkConf import org.apache.spark.sql.SparkSession object Spark_SparkSQL_HIVE { def main(args: Array[String]): Unit = { // TODO 创建SparkSQL的运行环境 // 如果出现没有权限的话,加上如下内容 // System.setProperty("HADOOP_USER_NAME", "

    更多

  • Spark wordcount Java版

    2022.10.17 in Ju4t

    完整版 package com.ju4t.bigdata.spark.core.wc import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} object Spark_WordCount { def main(args: Array[String]): Unit = { // Application // Spark框架 // TODO 建立和Spark框架的连接 // JDBC : Connection val sparkConf = n

    更多

  • Spark wordcount Python版

    2022.10.12 in Ju4t

    main.py from pyspark import SparkConf, SparkContext def wordcount(input="dataset/word.txt"): """ wordCount :param input: :return: """ # lines = sc.textFile(input) # word = lines.flatMap(lambda line: line.split(" "))

    更多

  • Hadoop 集群启动脚本

    2022.09.07 in Ju4t

    假设你已经具备以下条件 SSH免密登录 修改HOSTS 根据hadoop集群规划修改启动脚本的 hadoopXX 核心内容 /etc/hosts ## # Host Database # # localhost is used to configure the loopback interface # when the system is booting. Do not change this entry. ## 192.168.1.81 hadoop81 192.168.1.82 hadoop82 # ... myhadoop.sh #!/bin/bash if [

    更多