如何使用HPX库在c++中进行大规模并行计算？ (分布式运行时)_技术教程

HPX不是MPI替代品，而是需插件支持的分布式运行时；开箱仅支持单机NUMA并行，跨节点需手动配置TCP parcelport、hpx_run启动、locality显式声明及远程async调用。

HPX 是分布式运行时，不是 MPI 替代品

HPX 本身不直接提供跨节点的网络通信层；它默认只在单机多核上调度 hpx::future 和 hpx::async 任务。所谓“分布式”，是指它支持通过插件（如 hpx::parcelport）对接底层传输，但生产级跨节点能力需额外配置和验证——多数用户实际用的是本地 NUMA-aware 并行，而非真正分布式。

开箱即用的 HPX 构建（cmake -DHPX_WITH_PARCELPORT_TCP=ON）仅启用 TCP parcelport，但默认不自动启用跨节点调度
节点间任务迁移需显式调用 hpx::find_here() + hpx::create_component + 远程 hpx::async，且组件必须是 hpx::components::component_base 派生并导出
没有类似 MPI 的 MPI_Init 全局初始化；每个节点启动独立 hpx::init，靠 parcelport 发现彼此

启动多节点 HPX 应用的关键命令

必须用 hpx_run（或手动拼 ssh + hpx::init 参数），不能靠普通 mpirun。节点发现依赖 --hpx:node 和 --hpx:localities。

hpx_run -l 2 --hpx:node=0,1 --hpx:localities=2 \
  --hpx:config=node0.cfg \
  ./my_app --hpx:node=0 --hpx:localities=2 &
hpx_run -l 2 --hpx:node=1 --hpx:localities=2 \
  --hpx:config=node1.cfg \
  ./my_app --hpx:node=1 --hpx:localities=2

--hpx:node=N 告诉当前进程它是第 N 个 locality，必须全局唯一
--hpx:localities=K 声明整个拓扑共 K 个 locality，所有节点必须一致
hpx_run 自动设置 HPX_PARCEL_DESTINATIONS 环境变量，漏掉会导致 parcelport 连接失败
若用 TCP parcelport，需确保各节点防火墙放行 --hpx:parcelport-port 指定端口（默认 7910）

远程任务执行必须绕过本地调度器

直接写 hpx::async(f, args...) 总是在当前 locality 执行。要发到远端，得用 hpx::async 的重载版本，传入目标 locality ID 或 hpx::id_type。

hpx::id_type target = hpx::find_here(1); // 获取 locality 1 的 ID
auto f = []() { return 42; };
auto fut = hpx::async(target, f); // 显式指定目标 locality
int result = fut.get();

hpx::find_here(N) 返回 locality N 的 hpx::id_type，N 必须在 --hpx:localities 范围内
不能对任意函数指针做远程调用：lambda 必须无捕获，或捕获内容可序列化（需 HPX_WITH_CXX17_STD_FILESYSTEM 等支持）
参数和返回值类型必须注册序列化（HPX_SERIALIZATION_REGISTER），否则运行时报 hpx::exception: unsupported type

常见崩溃点：资源泄漏与 parcelport 超时

HPX 分布式模式下最常遇到的不是计算错误，而是连接卡死或 std::bad_alloc —— 根本原因是 parcelport 缓冲区未及时 flush 或 locality 间心跳失败。

避免在循环中高频创建 hpx::async 远程任务：改用批量 hpx::dataflow 或预分配 hpx::lcos::local::channel
检查 hpx::get_config_entry("hpx.parcel.max_message_size")，默认 1MB，大数组传参需调大并重启
加 --hpx:dump-config 启动看是否加载了 tcp parcelport；若输出含 no parcelport available，说明构建时没开 -DHPX_W ITH_PARCELPORT_TCP=ON
调试时加 --hpx:debug-parcel，但会显著拖慢速度；生产环境禁用