一个单独的循环减慢了一个独立的早期循环?
单独的循环如何影响独立早期循环的性能?
我的第一个循环读取一些大文本文件并计算行/行数。 在malloc之后,第二个循环填充分配的矩阵。
如果第二个循环被注释掉,则第一个循环需要1.5秒。 但是,编译第二个循环会减慢第一个循环,现在需要30-40秒!
换句话说:第二个循环以某种方式减慢了第一个循环。 我试图改变范围,更改编译器,更改编译器标志,更改循环本身,将所有内容放入main(),使用boost :: iostream,甚至在共享库中放置一个循环,但在每次尝试中都会遇到同样的问题!
在第二个循环编译程序之前,第一个循环是快速的。
编辑:这里是我的问题------------>的完整例子
#include <iostream>
#include <vector>
#include "string.h"
#include "boost/chrono.hpp"
#include "sys/mman.h"
#include "sys/stat.h"
#include "fcntl.h"
#include <algorithm>
unsigned long int countLines(char const *fname) {
static const auto BUFFER_SIZE = 16*1024;
int fd = open(fname, O_RDONLY);
if(fd == -1) {
std::cout << "Open Error" << std::endl;
std::exit(EXIT_FAILURE);
}
posix_fadvise(fd, 0, 0, 1);
char buf[BUFFER_SIZE + 1];
unsigned long int lines = 0;
while(size_t bytes_read = read(fd, buf, BUFFER_SIZE)) {
if(bytes_read == (size_t)-1) {
std::cout << "Read Failed" << std::endl;
std::exit(EXIT_FAILURE);
}
if (!bytes_read)
break;
int n;
char *p;
for(p = buf, n=bytes_read ; n > 0 && (p = (char*) memchr(p, 'n', n)) ; n = (buf+bytes_read) - ++p)
++lines;
}
close(fd);
return lines;
}
int main(int argc, char *argv[])
{
// initial variables
int offset = 55;
unsigned long int rows = 0;
unsigned long int cols = 0;
std::vector<unsigned long int> dbRows = {0, 0, 0};
std::vector<std::string> files = {"DATA/test/file1.csv", // large files: 3Gb
"DATA/test/file2.csv", // each line is 55 chars long
"DATA/test/file3.csv"};
// find each file's number of rows
for (int x = 0; x < files.size(); x++) { // <--- FIRST LOOP **
dbRows[x] = countLines(files[x].c_str());
}
// define matrix row as being the largest row found
// define matrix col as being 55 chars long for each csv file
std::vector<unsigned long int>::iterator maxCount;
maxCount = std::max_element(dbRows.begin(), dbRows.end());
rows = dbRows[std::distance(dbRows.begin(), maxCount)]; // typically rows = 72716067
cols = dbRows.size() * offset; // cols = 165
// malloc required space (11998151055)
char *syncData = (char *)malloc(rows*cols*sizeof(char));
// fill up allocated memory with a test letter
char t[]= "x";
for (unsigned long int x = 0; x < (rows*cols); x++) { // <--- SECOND LOOP **
syncData[x] = t[0];
}
free(syncData);
return 0;
}
我也注意到,降低列数可以加速第一个循环。
探查者将手指指向这条线:
while(size_t bytes_read = read(fd, buf, BUFFER_SIZE))
该程序在该行上空闲30秒或等待23万次。 在汇编中,等待计数发生在:
Block 5:
lea 0x8(%rsp), %rsi
mov %r12d, %edi
mov $0x4000, %edx
callq 0x402fc0 <------ stalls on callq
Block 6:
mov %rax, %rbx
test %rbx, %rbx
jz 0x404480 <Block 18>
我的猜测是,从流中读取时发生API块,但我不知道为什么?
我的理论:
分配和触碰所有内存会将大文件从磁盘缓存中逐出,因此下一次运行必须从磁盘读取它们。
如果您运行不带loop2的版本来预热磁盘缓存,然后运行带有loop2的版本,我预测它会在第一时间快速运行,但对于进一步运行而言速度很慢,而不会再次预热磁盘缓存。
内存消耗发生在文件被读取之后。 这会在页面缓存(也称为磁盘缓存)上导致“内存压力”,导致它从缓存中逐出数据,为进程写入页面腾出空间。
你的电脑可能只有足够的可用RAM来缓存你的工作集。 关闭你的网络浏览器可能会释放出足够的影响力! 或者不是,因为你的11998151055
是11.1GiB,而你正在写它的每一页。 (每个字节,甚至可以用memset
来实现更高的性能,尽管我假设你所展示的只是一个虚拟版本)
顺便说一句,另一个调查工具的工具将是time ./a.out
。 它可以显示你的程序是否将所有CPU时间花费在用户空间与内核(“系统”)时间之间。
如果用户+ sys实时添加,则您的进程受CPU限制。 如果没有,它是I / O绑定的,并且你的进程在磁盘I / O上被阻塞(这是正常的,因为计数换行应该是快的)。
从这页:
“函数close关闭文件描述符filedes。关闭文件有以下后果:
文件描述符被解除分配。 文件上的进程拥有的任何记录锁都将被解锁。 当所有与管道或FIFO关联的文件描述符都关闭时,任何未读数据都将被丢弃。“
我认为你可能有被上一次读取锁定的资源。 尝试关闭文件并让我们知道结果。
链接地址: http://www.djcxy.com/p/93893.html上一篇: A separate loop slows down an independent earlier loop?