Laurence的技术博客

// 风尘仆仆,终有归途

Spark Structured Streaming: 自维护(任意)状态流的“超时”(Timeout)问题

此“超时”非彼“超时” 在我们开始这篇文章之前,我们必须要先弄清除一下问题:为什么流的上的状态会有“超时”问题?超时机制是为什么样的业务场景而设计的?通常情形下,人们一种直白的想法是:某种状态在长时间没有得到来自新数据的更新时,我们可以认为这个状态是“超时”了,它应该不复存在了,应该永远的被移除...

2018-06-28 15:42:41

阅读数 918

评论数 0

Spark基于事件时间的“状态”流的深层分析 - withWatermark与mapGroupsWithState的关系

不管是基于watermark的窗口计算还是自维护的状态流,它们都是有状态的,watermark只是规定了数据进入“状态”(有资格参与状态计算)的条件,并没有(也不适合)声明状态的“退出”机制。对于watermark的窗口计算来说,它们的“退出”机制是:如果最近某个还处于active状态的窗口它的E...

2018-06-27 09:48:27

阅读数 1548

评论数 0

Spark性能调优系列二:Spark流计算重要性能参数测试与分析

参数介绍 spark.scheduler.mode spark.streaming.concurrentJobs scheduler线程池 测试用例 Test Case Group 1: FIFO vs. FAIR Test Case 1-1: FIFO Test Case 1-2: F...

2018-06-21 09:39:41

阅读数 1776

评论数 1

Spark性能调优系列一:Spark的作业模型

Job Spark的整个作业体系中,处于顶层的是Job, Job和Spark中的Action是一一对应的,每一个Action都会触发一个Job的执行,这个Job包含的处理逻辑是Action以及Action之前的所有Transformation, 所有这些逻辑会被Spark转换成一张关于RDD的D...

2018-06-11 16:12:44

阅读数 553

评论数 0

Spark Structured Streaming多流multiple streams)多查询(multiple queryies)问题

Structured Streaming作为Spark新一代的流计算编程模型,针对流计算提供了很多新的的高级的API进行支持,这使得它比DStream要好用的多,同时编码量也大幅度地减少,但是在当前版本V2.3下, Structured Streaming无法支持 多流(multiple stre...

2018-06-08 09:56:32

阅读数 1202

评论数 3

提示
确定要删除当前文章?
取消 删除