守护之鲨

Sharkdtu's blog site


  • 首页

  • 归档

  • 标签

  • 关于

  • 搜索
close

Lance-面向AI场景的数据存储格式

发表于 2025-08-10   |   分类于 数据湖

Lance 是一种专为向量和多模态数据设计的数据存储格式,其内置高效索引,支持快速随机访问、向量检索、全文检索等。它包含两种格式:列式 File Format(对标 Parquet) 和 Table Format(对标 Iceberg),其中 Table Format 是在 File Format 基础上组织的数据集。

阅读全文 »

Flink 均衡调度

发表于 2022-10-27   |   分类于 flink

Flink 当前的计算任务调度是完全随机的,直接后果是各个 taskmanager 上运行的计算任务分布不均,进而导致 taskmanagers 之间的负载不均衡,用户在配置 taskmanager 资源时不得不预留较大的资源 buffer,带来不必要的浪费。为此,我们扩展了一种均衡调度策略,尽量保证每个 flink 算子的子任务均匀分布在所有的 taskmanagers 上,使得 taskmanagers 之间的负载相对均衡。

阅读全文 »

Flink RPC 详解

发表于 2021-07-20   |   分类于 flink

要理解 Flink 内部各组件交互的源码实现,首先必须要理解其 RPC 的工作机制。与 Hadoop、Spark 等系统类似,作为一个独立的分布式系统框架,Flink 也抽象了自己的一套 RPC 框架,本文尝试尽可能详尽地阐述其设计及实现原理。

阅读全文 »

TensorFlow 迁移学习实践小记

发表于 2020-12-02   |   分类于 机器学习

在我们的很多推荐业务场景中,通常一个模型可能是一直不断增量训练的,如果哪天业务需要调整模型结构,去训练一个新模型,但是又不想完全从0开始,希望复用原来模型里面的部分参数,这样冷启动的代价就小很多了。

阅读全文 »

分布式TensorFlow编程模型演进

发表于 2019-04-05   |   分类于 深度学习

TensorFlow从15年10月开源至今,可谓是发展迅猛,从v0.5到如今的v2.0.0-alpha,经历了无数个功能特性的升级,性能、可用性、易用性等都在稳步提升。相对来说,对于我们工业界,大家可能更关注分布式TensorFlow的发展,本文尝试梳理下分布式TensorFlow从问世到现在经历过的变迁。

阅读全文 »

12…7
sharkdtu

sharkdtu

No pains, no gain.

33 日志
11 分类
50 标签
RSS
weibo github
© 2016 - 2025 sharkdtu
由 Hexo 强力驱动
主题 - NexT.Mist