0%

有关编码和分布式计算的几篇论文

学长找的几篇论文,列在下面了。之前读《网络编码研究基础》应该只是大体介绍了一下编码在网络传输的应用,以及可行性的论证。这几篇论文主要关注点是利用编码来优化分布式计算的性能。一共以下六篇。

Songze Li, Mohammad Ali Maddah-Ali, and A. Salman Avestimehr, “Coding for Distributed Fog Computing”
Kangwook Lee, Maximilian Lam, Ramtin Pedarsani, Dimitris Papailiopoulos, and Kannan Ramchandran, “Speeding Up Distributed Machine Learning Using Codes”
Songze Li, Mohammad Ali Maddah-Ali, Qian Yu, and A. Salman Avestimehr, “A Fundamental Tradeoff Between Computation and Communication in Distributed Computing”
Songze Li, Mohammad Ali Maddah-Ali, and A. Salman Avestimehr, “A Unified Coding Framework for Distributed Computing with Straggling Servers”
Geewon Suh, Kangwook Lee, Changho Suh, “Matrix Sparsification for Coded Matrix Multiplication”
Heecheol Yang, and Jungwoo Lee, “Secure Distributed Computing With Straggling Servers Using Polynomial Codes”

这篇博客主要记录一下这些论文大致的工作(读摘要)。详细阅读可能要等到期末周之后。

Coding for Distributed Fog Computing

多计算结点和多存储结点的网络被称为雾状网络,它的冗余一般随网络规模线性增长。编码可以利用这些冗余来充分减少带宽消耗和时延。最小带宽编码和最小时延编码以及可能的混合应用(统一的编码方案),和在计算时延(复杂度)和传输负载之间的取舍。

雾状网络似乎是云的下属结构(边缘部分的计算/存储集合)。

Speeding Up Distributed Machine Learning Using Codes

编码在分布式机器学习中的矩阵乘法和 data shuffling(一种数据屏蔽方式,在保留数据可分析性的前提下移除数据来源的特征)。通过编码减缓矩阵计算集群中落后结点的影响,和 data shuffling 中数据传输的瓶颈。分析优化方案的复杂度。

A Fundamental Tradeoff Between Computation and Communication in Distributed Computing

在分布式计算中用算力换传输效率。编码分布式计算(CDC)通过增加 MapReduce 中 map 函数的计算负担,来提升结点之间的传输效率,效率下界与信息论计算结果相“匹配”。用编码方案优化的 TeraSort 算法,在某些情况下对整体工作效率有因数 2~3 的提升。

A Unified Coding Framework for Distributed Computing with Straggling Servers

带落后结点的分布式计算集群处理线性计算的一种编码框架,通过提升计算负担来减少传输时延,有较强的泛用性。一个厉害的方法,与理论的误差比较小。

Matrix Sparsification for Coded Matrix Multiplication

一般的编码计算优化:从原始矩阵导出编码矩阵,利用编码矩阵参与运算,一部分计算完成后即可从结果中提取出原计算结果。存在将编码矩阵稀疏化的方法来加速运算。与最大距离可分矩阵相关的新编码方案,可以构造严格大于原方案的稀疏度,且给出了理论上界。

Secure Distributed Computing With Straggling Servers Using Polynomial Codes

编码在保护矩阵特征的应用,同时对落后结点有较好的兼容。还原结果所需的子结果更少(order-optimal?)。