-
Notifications
You must be signed in to change notification settings - Fork 135
GPU训练 #29
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
Comments
可以贴一下详细的错误信息吗 |
一个简单粗暴的方法是在mydataset.py文件中把__getitem__中的代码加一个try catch,就比如用下面的代码替换一下 |
emmm插入的代码不知道为啥排版不太好,重新发一下吧: 就是在原来的基础上加一个try catch如果有异常则重新换一个 |
这个问题应该是在验证集上测试的时候报的错,看着似乎是模型时cpu上的 输入的图像是gpu上的造成的,你是在cpu上训练的吗? |
不好意思,我发现config没有调回来,这应该是CPU上训练的结果,我如果在CPU上训练需要对测试的代码进行什么改动呢?我现在GPU出现了一些状况没办法输出运行结果,等拿到出错信息后我再给您看。 |
在训练代码中找到这一行num_correct, num_all = val_model(config.val_infofile,net,True,log_file='compare-'+config.saved_model_prefix+'.log'), |
从图片上看不出问题啊,报的什么错呢?异常处理也解决不了吗? |
因为我是连服务器上运行的,一到这种图片服务器就把我kill了,而且没有错误信息,用nohup指令也没法把错误信息输出来。您能否试一下这张图片有没有什么问题?非常感谢! |
你好,我这边暂时也没有空余的GPU服务器没法再GPU上测试,不过我在本地测试了一下这张图似乎没啥问题,我在想是不是因为路径什么的有错误,其他的我也说不上来什么原因。 |
好的,谢谢您的帮助,我再想想办法。不过奇怪的是这张图片在CPU模型里没有问题,到了GPU就出问题了。 |
作者大佬您好,我在cpu上训练时基本上不会出现错误,但是在训练到第二个epoch时速度就会变得非常慢,基本上处在停滞状态,这可能是因为什么引起的? |
作者您好,我使用您的crnn训练代码在cpu上运行会出现valueerror(weight或height需要大于0),经过修改trans.py中的参数可以解决这一问题。但使用相同的参数在GPU上训练仍会出现valueerror,请问这是什么原因?
The text was updated successfully, but these errors were encountered: