商务服务
38.大数据之旅——网站流量统计项目之实时业务系统(Kafka,storm,Hbase)
2024-11-10 09:52

概述 对于上述的工作,我们发现需要手动去写hql语句从而完成离线数据的ETL,但每天都手动来做显然是不合适的,所以可以利用hive的文件调用与占位符来解决这个问题。

38.大数据之旅——网站流量统计项目之实时业务系统(Kafka,storm,Hba<em></em>se)

Hive文件的调用 实现步骤: 1)编写一个文件,后缀名为 .hive, 比如我们现在我们创建一个01.hive文件 目的是在 hive的weblog数据库下,创建一个tb1表

01.hive 文件编写示例:

 

2)进入hive安装目录的bin目录 执行: 注:-f 参数后跟的是01.hive文件的路径

3)测试hive的表是否创建成功

Hive占位符的使用 我们现在想通过hive执行文件,将 "tb1"这个表删除 则我们可以这样做

1)创建02.hive文件 编写示例:

 

2)在bin目录下,执行:

 

结合业务的实现 在hive最后插入数据时,涉及到一个日志的分区是以每天为单位,所以我们需要手动去写这个日期,比如 2017-8-20。

现在,我们学习了Hive文件调用和占位符之后,我们可以这样做

1)将hql语句里的日期相关的取值用占位符来表示,并写在weblog.hive文件里 编写示例:

 

2.在hive 的bin目录下执行:

 

对于日期,如果不想手写的话,可以通过linux的指令来获取:

 

所以我们可以这样来执行hive文件的调用: date “+%G-%m-%d” (注:是键盘左上方的反引号) 也可以写为:

 

Linux Crontab 定时任务 在工作中需要数据库在每天零点自动备份所以需要建立一个定时任务。 crontab命令的功能是在一定的时间间隔调度一些命令的执行。

可以通过 crontab -e 进行定时任务的编辑

crontab文件格式:

  •  

minute hour day month week command 分 时 天 月 星期 命令 在这里插入图片描述

 

每隔1分钟,执行一次任务 编写示例:

 

每隔一分钟,删除指定目录的 1.txt文件


实现步骤: 1.启动zk集群 2.启动kafka集群 指令: 3.配置flume的agent

 

配置示例:

 

启动 4.创建kafka的topic 执行:

 

5.创建kafak的consumer,测试是否能够收到消息 执行: 6.执行测试: 访问页面——>flume——>kafka


实现步骤:

  1. 创建java工程
  2. 导入storm依赖jar包、kafka依赖包、storm-kafka依赖包及相关依赖 在这里插入图片描述 3.移除重复的jar包 在这里插入图片描述 注意:删除1.75,留1.72的
  3. 开发代码

Storm业务处理说明 数据清洗: 去除多余的字段 只保留 有用的字段 并且对于ss字段做拆分 url、urlname、uvid、ssid、sscount、sstime、cip

WebLogTopology代码:

 

PrintBolt代码:

    以上就是本篇文章【38.大数据之旅——网站流量统计项目之实时业务系统(Kafka,storm,Hbase)】的全部内容了,欢迎阅览 ! 文章地址:http://sicmodule.kub2b.com/news/301.html 
     资讯      企业新闻      行情      企业黄页      同类资讯      首页      网站地图      返回首页 企库往资讯移动站 http://changmeillh.kub2b.com/ , 查看更多   
最新新闻
关于抖音怎么核销团购的知识,学到便是赚到!
1.打开抖音App,点击“我的”,进入我的页面;2.在我的页面点击“社群”,进入社群页面;3.点击“我的社群-团购”,进入团购页面
快手抖音B站秒刷业务全网最便宜低价自助下单平台软件
快手和抖音的战争还要持续,未来它们或许会像B站一样探索出变现之法,但现在讲游戏联运的故事未免还太早。互联网各大APP软件平台
刘震云“一句顶一万句”:写作的幽默,得把词语剔去
  作家刘震云 (人民网记者陈苑 摄)  【文艺星青年按】“用最幽默的方式在说最深邃的哲学;用最简约的方式在说最复杂的事物
中国十大90后帅哥明星排名榜单揭晓!张艺兴名列榜首!
有些男生“天生丽质”,生来就是一副好皮囊,皮肤白皙、五官秀气,简直比女生还好看。这样的男生有人说是娘炮,有人说是秀气,有
国产AI海外爆火,有“黑马”产品访问量大涨860% !外国网友:我们不再需要Sora了
在全球人工智能(AI)竞争日趋激烈的背景下,中国AI企业正在海外市场崭露头角。近期,以AI初创企业MiniMax旗下视频生成应用“海
hi3593 Arinc429协议芯片使用及维护说明
     最近使用Arinc429协议中,由于之前一直是逻辑实现的功能,但最近外接项目原因使用hi3593芯片,发现
外贸常用英语和外贸必备英文单词两篇(18页)
S/O 装货单 是Shipping Order 的简写!PO purchase order 订单PR 价格 Inv invoice 发票s/c sales contract 销售确认书在来些常
为什么抖音视频总被限流?dou+不让投放的原因是什么?
如果你经常发布短视频,相信你一定有个烦恼,就是经常会被莫名其妙限流,甚至有时你想花钱投dou+都不让你投放,理由也是千奇百怪
使用s3c2440芯片对外挂的nor flash进行读写擦除操作
学习目标:1、了解nor flash存储芯片的概念和特性2、掌握使用s3c2440芯片对外挂的nor flash进行读写擦除操作1、NOR Flash的简单
《2024年游戏行业抖音经营白皮书》发布,洞察行业趋势、共创营销未来
  历经多年发展,游戏行业市场规模增速有所放缓、竞争格局趋于稳固,行业进入发展成熟期。2023年,随着版号重新发放、云游戏/小游
本企业新闻