大数据Flink(八十八):Interval Join(时间区间 Join)
有曝光又有点击的数据,条件是曝光关联之后发生 4 小时之内的点击,并且补充点击的扩展参数(show inner interval click): 下面为 Inner Interval Join: Flink SQL> CREATE TABLE show_log_table ( log_id BIGINT, show_params STRING, `timestamp` bigint, row_time ...
Flink 环境对象
前言 本文隶属于专栏《大数据技术体系》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢! 思维导图 总览 StreamExecutionEnvironment 是Flink 应用开发时的概念,表示流计算作业的执行环境, 是作业开发的入口、数据源接口、生成和转换 DataStream 的接口、数据 Sink 的接口、作业配置接口、作业启动执行的入口。 Environment 是运行...
【Flink实战】Flink自定义的Source 数据源案例-并行度调整结合WebUI
目录导航 什么是Flink的并行度Flink自定义的Source 数据源案例-并行度调整结合WebUI 什么是Flink的并行度 Flink的并行度是指在Flink应用程序中并行执行任务的级别或程度。它决定了任务在Flink集群中的并发执行程度,即任务被划分成多少个并行的子任务。 在Flink中,可以通过设置并行度来控制任务的并行执行。并行度是根据数据或计算的特性来确定的,可以根据任务的特点和所需的处理能...
【Flink实战】玩转Flink里面核心的Sink Operator实战
目录导航 Flink Sink Operator简介Flink 核心知识 Sink Operator速览Flink 自定义的Sink 连接Mysql存储商品订单案例实战 Flink Sink Operator简介 在Flink中,Sink Operator(也称为Sink Function或Sink)是指负责将DataStream或DataSet的数据发送到外部存储或外部系统的操作符。Sink Opera...
【Flink实战】Flink 商品销量统计-实战Bahir Connetor实战存储 数据到Redis6.X
目录导航 Flink怎么操作RedisFlink 商品销量统计-转换-分组-聚合-存储自定义的Redis Sink实战 Flink怎么操作Redis Flink怎么操作redis? 方式一:自定义sink方式二:使用connector Redis Sink 核心是RedisMapper 是一个接口,使用时要编写自己的redis操作类实现这个接口中的三个方法 getCommandDescription 选择...
【Flink实战】Flink对接Kafka Connetor使用docker部署kafka
er localhost:9092 --topic xdclass-topic --from-beginning #开两个窗口可测试生产者消费者成功链接 测试案例 import org.apache.flink.api.common.serialization.SimpleStringSchema;import org.apache.flink.streaming.api.datastream.DataS...
【Flink实战】玩转Flink里面核心的Source Operator实战
目录导航 Flink 的API层级介绍Source Operator速览Flink 预定义的Source 数据源 案例实战Flink自定义的Source 数据源案例-订单来源实战 Flink 的API层级介绍Source Operator速览 Flink的API层级 为流式/批式处理应用程序的开发提供了不同级别的抽象 第一层是最底层的抽象为有状态实时流处理,抽象实现是 Process Function,用...
【Flink实战系列】Hash collision on user-specified ID “Kafka Source”
Hash collision on user-specified ID “Kafka Source” 在使用 fromSource 构建 Kafka Source 的时候,遇到下面的报错,下面就走进源码,分析一下原因。 Exception in thread "main" java.lang.IllegalArgumentException: Hash collision on user-specifie...
【Flink实战】新老用户方案优化使用状态与布隆过滤器的方式
目录导航 什么是布隆过滤器新的需求:使用Flink 新老用户->状态+布隆过滤器标识核心代码代码详解结果字段截取 什么是布隆过滤器 布隆过滤器(Bloom Filter)是一种经过哈希函数处理的数据结构,用于快速判断一个元素是否可能存在于一个集合中。它可以用来检索大规模数据集中的元素,过滤掉不存在的元素,从而减少昂贵的磁盘或网络访问操作。 布隆过滤器的核心思想是使用一个位数组(通常由二进制位组成)和多个哈...
Flink DataStream 体系
前言 本文隶属于专栏《大数据技术体系》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢! 思维导图 正文 对 Flink 这种以流为核心的分布式计算引擎而言,数据流是核心数据抽象,表示一个持续产生的数据流,与 Apache Beam 中的 PCollection 的概念类似。 在 Flink 中使用 DataStream 表示数据流, DataStream 是一种逻辑概念,并不是...