LabDoc | 晓兵实验

将 PolarDB-X 与 ClickHouse 大数据等系统互通

2023.01.04 in Ju4t

安装PolarDB-X 本步骤将指导您如何安装PolarDB-X。安装并启动Docekr。执行如下命令，安装Docker。 $ curl -fsSL https://get.docker.com | bash -s docker --mirror Aliyun 启动Docker。 $ systemctl start docker 安装PolarDB-X。 $ docker run -d --name some-polardb-x -p 8527:8527 polardbx/polardb-x:2.1.0 Unable to find image 'polardbx/polar

更多

HDFS 生产环境参数调优

2022.11.10 in Ju4t

HDFS参数调优 jps # 查看进行内存使用 jmap -heap PID HDFS核心参数 NameNode内存计算每个文件块150byte，一台服务器128G内存为例，能存储多少文件块呢？ 128 * 1024 * 1024 * 1024 / 150Byte 大约 9.1亿 G MB KB Byte Hadoop3.x系列，配置NameNode内存具体修改:hadoop-env.sh export HDFS_NAMENODE_OPTS = "-Dhadoop.security.logger=INFO,RFAS -Xmx1024m

更多

DataX 同步数据

2022.10.29 in Ju4t

DataX 是阿里云 DataWorks数据集成的开源版本，在阿里巴巴集团内被广泛使用的离线数据同步工具/平台。DataX 实现了包括 MySQL、Oracle、OceanBase、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、Hologres、DRDS 等各种异构数据源之间高效的数据同步功能。下载地址 https://gitee.com/mirrors/DataX https://datax-opensource.oss-cn-hangzhou.aliyuncs.com/datax.tar.

更多

SparkStreaming Kafka

2022.10.17 in Ju4t

package com.ju4t.bigdata.spark.streaming import org.apache.kafka.clients.consumer.ConsumerConfig import org.apache.spark.SparkConf import org.apache.spark.storage.StorageLevel import org.apache.spark.streaming.kafka010.{ConsumerStrategies, KafkaUtils, LocationStrategies} import org.apache.spark.str

更多

SparkSQL Hive

2022.10.17 in Ju4t

package com.ju4t.bigdata.spark.sql import org.apache.spark.SparkConf import org.apache.spark.sql.SparkSession object Spark_SparkSQL_HIVE { def main(args: Array[String]): Unit = { // TODO 创建SparkSQL的运行环境 // 如果出现没有权限的话，加上如下内容 // System.setProperty("HADOOP_USER_NAME", "

更多

Spark wordcount Java版

2022.10.17 in Ju4t

完整版 package com.ju4t.bigdata.spark.core.wc import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} object Spark_WordCount { def main(args: Array[String]): Unit = { // Application // Spark框架 // TODO 建立和Spark框架的连接 // JDBC : Connection val sparkConf = n

更多

Spark wordcount Python版

2022.10.12 in Ju4t

main.py from pyspark import SparkConf, SparkContext def wordcount(input="dataset/word.txt"): """ wordCount :param input: :return: """ # lines = sc.textFile(input) # word = lines.flatMap(lambda line: line.split(" "))

更多

Hadoop 集群启动脚本

2022.09.07 in Ju4t

假设你已经具备以下条件 SSH免密登录修改HOSTS 根据hadoop集群规划修改启动脚本的 hadoopXX 核心内容 /etc/hosts ## # Host Database # # localhost is used to configure the loopback interface # when the system is booting. Do not change this entry. ## 192.168.1.81 hadoop81 192.168.1.82 hadoop82 # ... myhadoop.sh #!/bin/bash if [

更多