Decima(Robustness Analysis and Enhancement of Deep Reinforcement Learning-Based Schedulers)

解决的问题

我们设计了黑盒扰动系统,其中训练了一个代理模型来模仿基于 DRL 的调度策略,并且表明,高可信代理模型可以帮助制作有效的扰动。扰动的意思是对作业的节点特性或依赖性进行轻微调整,同时不改变其功能。

最终,我们研究了提高基于 DRL 的调度程序对此类扰动的鲁棒性的解决方案:我们提出了一种对抗性训练框架,以强制神经模型在训练过程中适应扰动模式,从而消除应用过程中的潜在损害。

python强化学习

Decima(Learning Scheduling Algorithms for Data Processing Clusters):用强化学习解决调度问题

解决的问题

解决了在云上的多个以DAG图表示的任务在多个Executor上运行时的调度问题。该问题为NP-Hard难度的问题,在该论文中,作者使用RL和GNN来解决它。

python强化学习

题目

编写一个算法来判断一个数 n 是不是快乐数。

「快乐数」 定义为:

  • 对于一个正整数,每一次将该数替换为它每个位置上的数字的平方和。
  • 然后重复这个过程直到这个数变为 1,也可能是 无限循环 但始终变不到 1。
  • 如果这个过程 结果为 1,那么这个数就是快乐数。

如果 n快乐数 就返回 true ;不是,则返回 false

leetcode算法

题目

给定两个字符串 st ,编写一个函数来判断 t 是否是 s 的字母异位词。

注意:st 中每个字符出现的次数都相同,则称 st 互为字母异位词。

leetcode算法

Shapley Values是博弈论大师Lloyd Stowell Shapley基于合作博弈理论(cooperative game theory)提出来的解决方案,通常被翻译为夏普利值、沙普利值,是一种基于贡献的分配方式。

python机器学习基础博弈论基础