在线精品99_中国九九盗摄偷拍偷看_91免费版在线观看_91.app_91高清视频在线_99热最新网站

DStreams上的输出操作是怎样的

138次阅读
没有评论

共计 1977 个字符,预计需要花费 5 分钟才能阅读完成。

本篇文章给大家分享的是有关 DStreams 上的输出操作是怎样的,丸趣 TV 小编觉得挺实用的,因此分享给大家学习,希望大家阅读完这篇文章后可以有所收获,话不多说,跟着丸趣 TV 小编一起来看看吧。

dstream.foreachRDD 是一个强大的原语,发送数据到外部系统中。然而,明白怎样正确地、有效地用这个原语是非常重要的。下面几点介绍了如何避免一般错误。

经常写数据到外部系统需要建一个连接对象(例如到远程服务器的 TCP 连接),用它发送数据到远程系统。为了达到这个目的,开发人员可能不经意的在 Spark 驱动中创建一个连接对象,但是在 Spark worker 中 尝试调用这个连接对象保存记录到 RDD 中,如下:

 dstream.foreachRDD(rdd =  { val connection = createNewConnection() // executed at the driver
 rdd.foreach(record =  { connection.send(record) // executed at the worker
 })
 })

这是不正确的,因为这需要先序列化连接对象,然后将它从 driver 发送到 worker 中。这样的连接对象在机器之间不能传送。它可能表现为序列化错误(连接对象不可序列化)或者初始化错误(连接对象应该 在 worker 中初始化)等等。正确的解决办法是在 worker 中创建连接对象。

然而,这会造成另外一个常见的错误 - 为每一个记录创建了一个连接对象。例如:

dstream.foreachRDD(rdd =  {
 rdd.foreach(record =  { val connection = createNewConnection()
 connection.send(record)
 connection.close()
 })
 })

通常,创建一个连接对象有资源和时间的开支。因此,为每个记录创建和销毁连接对象会导致非常高的开支,明显的减少系统的整体吞吐量。一个更好的解决办法是利用 rdd.foreachPartition 方法。为 RDD 的 partition 创建一个连接对象,用这个两件对象发送 partition 中的所有记录。

dstream.foreachRDD(rdd =  {
 rdd.foreachPartition(partitionOfRecords =  { val connection = createNewConnection()
 partitionOfRecords.foreach(record =  connection.send(record))
 connection.close()
 })
 })

这就将连接对象的创建开销分摊到了 partition 的所有记录上了。

最后,可以通过在多个 RDD 或者批数据间重用连接对象做更进一步的优化。开发者可以保有一个静态的连接对象池,重复使用池中的对象将多批次的 RDD 推送到外部系统,以进一步节省开支。

dstream.foreachRDD(rdd =  {
 rdd.foreachPartition(partitionOfRecords =  {
 // ConnectionPool is a static, lazily initialized pool of connections
 val connection = ConnectionPool.getConnection()
 partitionOfRecords.foreach(record =  connection.send(record))
 ConnectionPool.returnConnection(connection) // return to the pool for future reuse
 })
 })

需要注意的是,池中的连接对象应该根据需要延迟创建,并且在空闲一段时间后自动超时。这样就获取了最有效的方式发生数据到外部系统。

其它需要注意的地方:

输出操作通过懒执行的方式操作 DStreams,正如 RDD action 通过懒执行的方式操作 RDD。具体地看,RDD actions 和 DStreams 输出操作接收数据的处理。因此,如果你的应用程序没有任何输出操作或者 用于输出操作 dstream.foreachRDD(),但是没有任何 RDD action 操作在 dstream.foreachRDD() 里面,那么什么也不会执行。系统仅仅会接收输入,然后丢弃它们。

默认情况下,DStreams 输出操作是分时执行的,它们按照应用程序的定义顺序按序执行。

以上就是 DStreams 上的输出操作是怎样的,丸趣 TV 小编相信有部分知识点可能是我们日常工作会见到或用到的。希望你能通过这篇文章学到更多知识。更多详情敬请关注丸趣 TV 行业资讯频道。

正文完
 
丸趣
版权声明:本站原创文章,由 丸趣 2023-08-04发表,共计1977字。
转载说明:除特殊说明外本站除技术相关以外文章皆由网络搜集发布,转载请注明出处。
评论(没有评论)
主站蜘蛛池模板: 韩国特级一级毛片免费网站 | 看全色黄大色大片免费久黄久 | 欧美中文综合在线视频 | 日韩福利在线 | 国产91在线 | 欧美 | 素人259luxu在线观看暴露 | 性欧美一级毛片欧美片 | 亚洲一级电影 | 午夜福利电影 | 一级毛片完整免费版 | 色婷婷国产精品欧美毛片 | 日韩av在线观看免费 | 男人又粗又硬桶女人免费 | 亚洲色图片区 | 青青草原在线播放 | 日韩免费不卡视频 | 国产精品免费看久久久香蕉 | 日韩精品福利视频一区二区三区 | 欧美性猛交xxxx免费看蜜桃 | 亚洲欧美综合视频 | 男女一边摸一边做爽爽的免费阅读 | 国产精品视频免费看 | 9久re在线观看视频精品 | 亚洲精品午夜级久久久久 | 国产美女一级高清免费观看 | 国产成人a在一区线观看高清 | 日日狠狠久久8888偷偷色 | 妞干网视频在线观看 | 日本无遮挡真人祼交视频 | 亚洲国产成人久久综合野外 | 午夜影院免费视频 | 亚洲 精品 综合 精品 自拍 | 成人综合婷婷国产精品久久蜜臀 | 成人国产三级精品 | 日韩精品国产自在欧美 | 中文字幕乱 | 青青青国产成人久久111网站 | 分享一个无毒不卡免费国产 | 天堂在线最新版资源www | 青青青国产免费一夜七次郎 | 人与嘼交av免费 |