博客
关于我
工程实践_LFFD模型训练过程疑难杂症debug
阅读量:537 次
发布时间:2019-03-08

本文共 2359 字,大约阅读时间需要 7 分钟。

1.MxNet版本的LFFD需要安装CUDA10.1版本和CuDNN

若不满足会出现如下问题:

安装的CUDA版本太低或没有安装:

raceback (most recent call last):  File "configuration_10_320_20L_5scales_v2.py", line 17, in 
import mxnet File "/usr/local/lib/python3.6/dist-packages/mxnet/__init__.py", line 24, in
from .context import Context, current_context, cpu, gpu, cpu_pinned File "/usr/local/lib/python3.6/dist-packages/mxnet/context.py", line 24, in
from .base import classproperty, with_metaclass, _MXClassPropertyMetaClass File "/usr/local/lib/python3.6/dist-packages/mxnet/base.py", line 213, in
_LIB = _load_lib() File "/usr/local/lib/python3.6/dist-packages/mxnet/base.py", line 204, in _load_lib lib = ctypes.CDLL(lib_path[0], ctypes.RTLD_LOCAL) File "/usr/lib/python3.6/ctypes/__init__.py", line 348, in __init__ self._handle = _dlopen(self._name, mode)OSError: libcudart.so.10.1: cannot open shared object file: No such file or directory

没有安装CuDNN:

terminate called after throwing an instance of 'dmlc::Error'  what():  [20:48:36] ../include/mshadow/./stream_gpu-inl.h:173: Check failed: err == CUDNN_STATUS_SUCCESS (4 vs. 0) : CUDNN_STATUS_INTERNAL_ERRORAborted (core dumped)

2.正确使用Python和正确安装MxNet版本

若已经正确安装CUDA和CUDNN,仍然出现:

terminate called after throwing an instance of 'dmlc::Error'  what():  [20:48:36] ../include/mshadow/./stream_gpu-inl.h:173: Check failed: err == CUDNN_STATUS_SUCCESS (4 vs. 0) : CUDNN_STATUS_INTERNAL_ERRORAborted (core dumped)

有两种可能:首先查看MxNet版本是否正确,再在configuration_10_560_25L_8scales_v1.py代码中将如下代码注释:

# add mxnet python path to path env if needmxnet_python_path = '/home/heyonghao/libs/incubator-mxnet/python'sys.path.append(mxnet_python_path)

我们只需要使用我们本地默认的Python就行。

3.正确安装OpenCV

如出现如下问题:

During handling of the above exception, another exception occurred:Traceback (most recent call last):  File "_ctypes/callbacks.c", line 234, in 'calling callback function'  File "/root/work/mxnet/python/mxnet/operator.py", line 1052, in backward_entry    print('Error in CustomOp.backward: %s' % traceback.format_exc())UnicodeEncodeError: 'ascii' codec can't encode characters in position 369-376: ordinal not in range(128)

说明OpenCV版本没有正确安装,删除旧版本之后安装如下版本:

pip install opencv-python==3.4.5.20

4.正确设置batch_size

遇到如下问题,很可能是batch_size设置的太大:

MXNetError: cudaMalloc retry failed: out of memory

可以设置batch_size=16

转载地址:http://gsbiz.baihongyu.com/

你可能感兴趣的文章
Nacos发布0.5.0版本,轻松玩转动态 DNS 服务
查看>>
Nacos启动异常
查看>>
Nacos命名空间配置_每个人用各自自己的命名空间---SpringCloud Alibaba_若依微服务框架改造---工作笔记001
查看>>
Nacos和Zookeeper对比
查看>>
Nacos在双击startup.cmd启动时提示:Unable to start embedded Tomcat
查看>>
Nacos基础版 从入门到精通
查看>>
Nacos如何实现Raft算法与Raft协议原理详解
查看>>
Nacos安装教程(非常详细)从零基础入门到精通,看完这一篇就够了
查看>>
Nacos实战攻略:从入门到精通,全面掌握服务治理与配置管理!(上)
查看>>
Nacos实战攻略:从入门到精通,全面掌握服务治理与配置管理!(下)
查看>>
Nacos心跳机制实现快速上下线
查看>>
nacos报错com.alibaba.nacos.shaded.io.grpc.StatusRuntimeException: UNAVAILABLE: io exception
查看>>
nacos服务提供和发现及客户端负载均衡配置
查看>>
Nacos服务注册与发现demo
查看>>
Nacos服务注册与发现的2种实现方法!
查看>>
nacos服务注册和发现原理简单实现案例
查看>>
Nacos服务注册总流程(源码分析)
查看>>
nacos服务注册流程
查看>>
Nacos服务部署安装
查看>>
nacos本地可以,上服务器报错
查看>>