基于k8s的家用大数据集群设计与实现 使用3台废旧笔记本搭建k8s集群,部署大数据组件,利用路由器进行异地组网,配合wsl作为管理和客户端,实现随时随地,在工作笔记本上以本地访问的体验使用自建家庭大数据平台进行学习、开发、测试。 2021-10-24 大数据 #生产力 #大数据 #WSL
个人博客系统设计(支持hexo和halo同步) 本文主要介绍自己的博客系统是如何设计的,并使用Halo博客同步器 将hexo(git pages: https://linshenkx.github.io )文章自动同步到halo( http://linshenkx.cn )。实现一次编写、两套博客系统并存、多个网址访问的效果。2023 更新:放弃halo,单纯使用hexo2022.11 更新:因其审核问题删除gitee个人主页(无标准无原因,你 2021-09-13 程序员杂记 #生产力 #博客 #hexo #halo
WSL开发系列-idea篇(WSL2配置与结合IDEA2021使用体验(及wsl-gui踩坑)) 2023.2更新:因更新较多,将大部分内容迁移至 WSL开发系列。随着版本的迭代完善,加上本人丰富的踩坑经验,本人已放弃使用wslg版idea。更推荐直接使用windows-idea的wsl功能。 本文给出相关使用建议。 2021-04-13 程序员杂记 #生产力 #WSL
大数据通用计算平台(支持flink、spark、storm)-系统调研及设计 项目源于对flink_sql流计算任务的实际使用需求,最初目标是设计一个系统可以在线提交sql生成flink流式计算任务,并进行监控监测。 后延申至支持在线jar包提交的方式,同时支持批式计算任务。并以模块化开发的思路,引入对spark的支持。 2021-01-09 大数据 #flink #spark #storm
hive使用bulkLoad批量导入数据到hbase 本文主要参考了hbase和hive官方文档的说明,并结合cdh和hdp的一些教程以及个人在生产中的实践进行记录。主要内容有hbase bulkload的原理以及对应hive的操作步骤,最后基于cdh进行完整实验提供参考实例。不过整个操作确实很复杂繁琐,不是很建议使用。现在有挺多使用Spark Bulkload,下次有机会尝试一下。之前是遇到一个需求,源表在hbase上,需要重新生成rowkey并提 2020-11-23 大数据 #hbase #hive #bulkload
hive编写udf实践记录 官方教程:https://cwiki.apache.org/confluence/display/Hive/HivePlugins简单使用查看上面官方的文档即可。这里记录一下我使用的实践和一点注意事项。 2020-11-10 大数据 #hive
CDH客户端环境搭建 最近遇到一个需求:要使用azkaban对接客户的CDH集群,CDH用的是oozie,azkaban只能部署在我们客户端的机器上,所以需要在客户机上手动搭建CDH的hadoop环境。操作很简单,过程比较麻烦,这里记录一下。 2020-11-10 大数据 #CDH