Decima-Robustness Analysis and Enhancement of Deep Reinforcement Learning-Based Schedulers

2023-01-10- 2023-01-17

4.5k- 16m

Decima(Robustness Analysis and Enhancement of Deep Reinforcement Learning-Based Schedulers)

解决的问题

我们设计了黑盒扰动系统，其中训练了一个代理模型来模仿基于 DRL 的调度策略，并且表明，高可信代理模型可以帮助制作有效的扰动。扰动的意思是对作业的节点特性或依赖性进行轻微调整，同时不改变其功能。

最终，我们研究了提高基于 DRL 的调度程序对此类扰动的鲁棒性的解决方案：我们提出了一种对抗性训练框架，以强制神经模型在训练过程中适应扰动模式，从而消除应用过程中的潜在损害。

Decima-Learning Scheduling Algorithms for Data Processing Clusters

2023-01-09- 2023-06-27

5.1k- 18m

Decima(Learning Scheduling Algorithms for Data Processing Clusters):用强化学习解决调度问题

解决的问题

解决了在云上的多个以DAG图表示的任务在多个Executor上运行时的调度问题。该问题为NP-Hard难度的问题，在该论文中，作者使用RL和GNN来解决它。

python 强化学习

leetcode:202.快乐数

2023-01-09- 2023-01-10

389- 1m

题目

编写一个算法来判断一个数 n 是不是快乐数。

「快乐数」 定义为：

对于一个正整数，每一次将该数替换为它每个位置上的数字的平方和。
然后重复这个过程直到这个数变为 1，也可能是 无限循环 但始终变不到 1。
如果这个过程 结果为 1，那么这个数就是快乐数。

如果 n 是 快乐数 就返回 true ；不是，则返回 false 。

leetcode 算法

leetcode:242.有效的字母异位词

2023-01-08- 2023-01-10

453- 1m

题目

给定两个字符串 s 和 t ，编写一个函数来判断 t 是否是 s 的字母异位词。

注意：若 s 和 t 中每个字符出现的次数都相同，则称 s 和 t 互为字母异位词。

leetcode 算法

A_Bi-Level_Framework_for_Learning_to_Solve_Combinatorial_Optimization_on_Graph

2022-11-05

1.9k- 6m

一种双层优化方法

引言:

论文题目:A Bi-Level Framework for Learning to Solve Combinatorial Optimization on Graphs

论文对应代码: https://github.com/Thinklab-SJTU/PPO-BiHyb.

python 强化学习

在macOS上为自己的Latex安装LaTeX.sty文件

2022-11-04

131- 1m

当latex编译报错提醒“xxxx.sty文件不存在”时,mac用户可参考此方法

macOS LaTeX

MAPPO源代码分析

2022-09-30- 2022-10-31

3.5k- 15m

代码地址：https://github.com/marlbenchmark/on-policy

官方出品轻量化mappo代码：https://github.com/tinyzqh/light_mappo

对应论文：The Surprising Effectiveness of MAPPO in Cooperative, Multi-Agent Games

python 强化学习

强化学习_PPO算法(Proximal Policy Optimization)

2022-09-20- 2022-10-30

4.2k- 18m

本文介绍强化学习中的PPO(Proximal Policy Optimization)算法。

python 强化学习

用SHAP解释机器学习

2022-08-09- 2022-09-23

1.2k- 4m

python 机器学习基础博弈论基础

Shapley_Values

2022-08-09- 2022-08-10

4.6k- 17m

Shapley Values是博弈论大师Lloyd Stowell Shapley基于合作博弈理论(cooperative game theory)提出来的解决方案，通常被翻译为夏普利值、沙普利值，是一种基于贡献的分配方式。

python 机器学习基础博弈论基础