系统日知录

作者

青藤木鸟

350

读者

116

内容

《系统日知录》会持续更新数据库、分布式系统、存储、ML System 相关的想法、翻译、笔记和文章，通过深入浅出的持续解析，帮助业务开发程序员建立底层知识体系。写代码不是全部，系统是综合学问。不谋全局者，不足谋一域；不学系统者，不足学编程。专栏是买断制，在保证每篇文章的知识密度的基础上，持续不定期更新。会随缘将一些文章分享到公众号：“木鸟杂记”。关注该公众号后回复：“优惠券”，可以领取本专栏八折优惠券。关于专栏内容，想交流可以留言、也可加我微信 qtmuniao。有个交流群，如果想加群可备注。

全部文章

作者青藤木鸟头像

青藤木鸟

【每天学点数据库】Lecture #15：并发控制

内容主要来自 CMU 15445 Fall 2022 的课程讲义和授课视频，结合笔者的一些内核开发实践，形成一系列相对独立、但又相对勾连的小文。如果你对数据库内核开发感兴趣，......

作者青藤木鸟头像

青藤木鸟

在云上进行大规模数据处理的一些实践

随着云基础设施的不断成熟，新兴的公司为了快速实现业务目标，一般都会让基础设施上云。而在云上进行开发与传统上直接使用物理机开发其实有很大不同。云上更强调共享和弹性，此外，规模变大又会带来隔离性。这......

作者青藤木鸟头像

青藤木鸟

t-SNE ：一种“降维不扰邻”的有趣算法

考虑这样一个场景，你有一大堆千奇百怪的图片，想将其分门别类，并能够在分类好之后证明你分的类确实不错。

当数据量很小时（比如几百个），你可以定个分类的标准，然后找些人来按照标准分一......

作者青藤木鸟头像

青藤木鸟

深度学习入门小话 —— 卷积的由来

从上学时开始就多次尝试入门深度学习，但总徘徊门外而不得入。近来有一些工作上的体感，加之李沐老师的这门好课，终于对以前困惑的点有所感悟。

因此，本系列定位是 b 站上李沐老师主讲的《动......

作者青藤木鸟头像

青藤木鸟

数据可视化利器—— streamlit 的有趣哲学

streamlit 是一款可以快速进行简单网页开发的 Python 库，其 slogan 是：

A faster way to build and share data apps

作者青藤木鸟头像

青藤木鸟

【每天学点数据库】Lecture #14：代价估计

内容主要来自 CMU 15445 Fall 2022 的课程讲义和授课视频，结合笔者的一些内核开发实践，形成一系列相对独立、但又相对勾连的小文。如果你对数据库内核开发感兴趣，欢迎关注。

作者青藤木鸟头像

青藤木鸟

Memgraph 系列（三）：高效扫描和垃圾回收

Memgraph 是一个内存型图数据库，使用 OpenCypher 作为查询语言，主打小数据量、低延迟的图场景。由于 Memgraph 是开源的（repo 在这，使用 C++ 实现）我们可以一窥......

作者青藤木鸟头像

青藤木鸟

从“丰巢”快递柜看 jemalloc 的内存管理

在某些工作负载中，随着时间的推移，内存的使用会逐渐增长，直到 OOM。后面发现是内存碎片问题，而将系统默认的内存分配器（glibc malloc）换成 jemalloc ，能有效控制内存的增......

作者青藤木鸟头像

青藤木鸟

Snowflake：云原生数仓的开创者

Snowflake 由甲骨文的两位员工在 2012 年出来创办，一开始就瞄准云原生数仓，因此架构设计（在当时看来）非常“激进”。超前的视野带来超额的回报，Snowflake 在 2020 年正式......

作者青藤木鸟头像

青藤木鸟

Spark：如何在云上做缩容

在云上进行大规模的数据处理时，做扩容很容易——只要觉得负载过高，加机器，调度新任务即可；但是缩容相对较麻烦，因为通常来说，一个节点通常不会只运行一个任务、还可能会有状态。

为......