c++中如何使用std::sample_c++从容器中随机采样元素【详解】

C++17标准库中正确函数名为std::sample,定义于,用于无放回随机采样;需传入UniformRandomBitGenerator引擎(如std::mt19937)、预先分配输出空间,采样数超源大小时自动取全部元素。

std::sample 不存在,正确函数名是 std::sample

标准库中没有 std::sample_c++,这是常见误写。C++17 引入的是 std::sample,定义在 头文件中。它用于从输入范围中**无放回随机采样**指定数量的元素,结果写入输出迭代器。

基本用法:需要提供随机数生成器

std::sample 不自己管理随机性,必须显式传入一个符合 UniformRandomBitGenerator 要求的引擎(如 std::mt19937),否则行为未定义——编译可能通过,但运行时采样不随机或崩

溃。

  • 必须包含
  • 不能用 std::rand() 或默认构造的 std::mt19937{}(后者种子为 0,每次结果相同)
  • 输出容器需预先分配足够空间,或使用 std::back_inserter
std::vector src = {1, 2, 3, 4, 5, 6, 7, 8, 9, 10};
std::vector dst;
dst.reserve(3); // 推荐:避免多次重分配

std::random_device rd;
std::mt19937 g(rd()); // 正确:用硬件熵初始化

std::sample(src.begin(), src.end(),
            dst.begin(), 3,
            g);

采样数量超过源容器大小时的行为

当请求采样数 n 大于输入范围长度时,std::sample 会复制全部元素(即退化为全量拷贝),不会报错或抛异常。这和直觉可能不符——它不是“最多取 n 个”,而是“取 min(n, distance(first, last)) 个”。

  • src.size() == 5,调用 std::sample(..., 10, ...)dst 得到全部 5 个元素
  • 若需严格限制上限并拒绝超量请求,必须手动检查:if (n > std::distance(begin, end)) throw std::invalid_argument("sample size exceeds range");
  • 不支持“有放回采样”;要实现有放回,得用循环 + std::uniform_int_distribution

性能与迭代器类型限制

std::sample 要求输入迭代器至少是 ForwardIterator,不接受 InputIterator(比如某些流式迭代器)。内部算法复杂度平均为 O(N),其中 N 是输入范围长度,与采样数无关——它必须遍历全部元素以保证均匀性(采用 Reservoir Sampling 变种)。

  • std::liststd::vectorstd::array 均适用
  • std::istream_iterator 不可用:编译失败,提示缺少 operator++operator== 的完备实现
  • 若只采少量元素但源容器极大,且允许近似均匀,可考虑先用 std::shuffle 再取前 k 个——但需额外 O(N) 空间和时间
实际用的时候,最容易漏掉的是随机引擎的正确初始化和输出空间预留。没设 reserve 又用 back_inserter 看似省事,但在高频调用场景下可能引发频繁内存分配。