maskrcnn-benchmark安装记录

xiaoxiao2022-07-02 171

前言

因为学校里有个工程实训的课程，正好老师就说让跑一下maskrcnn benchmark看看识别效果怎么样。然后我就去下了，这里来记录一下安装过程中遇到的困难和问题。本来是让试用一下seg_every_thing那个框架的，结果因为本人显存不够大所以并没有运行成功。最后下了facebookresearch的那个改良版的（？）。链接在这里：

https://github.com/facebookresearch/maskrcnn-benchmark

先从成功的配置环境开始讲，遇到的问题都在“试错”标题下。

配置

系统：Pop_os! 19.04 https://system76.com/pop

硬件：GTX 970M

CUDA10.0、cudnn7.5.1，gcc6.5、pytorch1.1.0，pytorch-nightly

选择pop_os这个系统的原因是它是基于ubuntu的，而且自己下载好了nvidia驱动（不用再自己费劲巴拉的安装），而且我是windows10下一直都无法编译apex那个包（后面会提到），初步估计是因为我vs的版本太高了（2017的15.9.11），导致cuda环境与之不匹配（windows下因为要跑maskrcnn，所以装的是cuda9+cudnn7）。

但是要注意的是，这个系统选好了安装盘就直接在那个盘里安装了，如果装双系统的话我也不清楚，因为我自己是装在硬盘下的。这个系统确实挺友好的，反正我挺喜欢~就是有些许一些小bug，比如说没法切换大小写（我还没找到解决方法）。而且它出了18.04LTS版本的。再往下的版本是没有的，反正我翻遍了论坛和官网，pop_os是本来是有一个17.04版的，后来不提供了。

安装过程

一、安装cuda10.0和cudnn7.5.1

首先下载cuda10.0和cudnn7.5.1。这里借鉴了这个博主的安装过程：

https://blog.csdn.net/wanzhen4330/article/details/81699769

非常简单，下好了cuda10.0的.run文件，安装时用

sudo sh (你下的版本).run --override

就可以了。至于为啥要加override，我时因为它提示了才加，我也不知道是什么原因……（比较小白）

然后设置环境变量。我贴的那个链接真的讲的很详细！大家看一看就知道了。

然后下载cudnn的压缩包，解压完了按照上个博主的方法把文件复制过去就可以啦。

二、按INSTALL.md安装

网址在这里

https://github.com/facebookresearch/maskrcnn-benchmark/blob/master/INSTALL.md

# first, make sure that your conda is setup properly with the right environment # for that, check that `which conda`, `which pip` and `which python` points to the # right path. From a clean conda env, this is what you need to do conda create --name maskrcnn_benchmark 解释：如果你在ubuntu中下好了conda，就建立一个conda的虚拟环境。我比较推荐建立虚拟环境哈，因为如果出错了你可以直接删不用耽误其他环境。当然名字你可以改我用的语句是conda create -n mask python=3.7 conda activate maskrcnn_benchmark 解释：然后激活这个环境啦~ # this installs the right pip and dependencies for the fresh python conda install ipython # maskrcnn_benchmark and coco api dependencies pip install ninja yacs cython matplotlib tqdm opencv-python 解释：上面两个install没啥好解释的，运行就是了。 # follow PyTorch installation in https://pytorch.org/get-started/locally/ # we give the instructions for CUDA 9.0 conda install -c pytorch pytorch-nightly torchvision cudatoolkit=10.0 解释：重头戏来了！今天是5.22日，清华源是5.16关闭的，所以pytorch会下载的非常非常慢，反正我试图下载了n次，都以失败告终。所以这里推荐一个离线下载的方式，那个博主的博文地址如下所示： https://blog.csdn.net/jasonzhoujx/article/details/83242385 ————！！！！！！！！！！！千万要看这里！！！！！！！！！！！！———— 注意，我下载的是10.0的，因为我cuda是10.0的版本，所以上面指令改成了10.0。源地址给的是cudatoolkit=9.0，千万要注意区别~ 而且上面我给的地址这个博主下的是pytorch-nightly的cpu版本的。这里下面的试错部分会说到，gpu版本的网址在这里： pytorch的 https://anaconda.org/pytorch/pytorch/files pytorch-nightly的 https://anaconda.org/pytorch/pytorch-nightly/files 然后用上面博主给的这个方法： conda install -n 环境名字 --use-local 下载的包名就可以安装啦。至于在链接里寻找要安装的什么版本，我到后面修改博文的时候会详细解释的~~ export INSTALL_DIR=$PWD # install pycocotools cd $INSTALL_DIR git clone https://github.com/cocodataset/cocoapi.git cd cocoapi/PythonAPI python setup.py build_ext install # install apex cd $INSTALL_DIR git clone https://github.com/NVIDIA/apex.git cd apex python setup.py install --cuda_ext --cpp_ext # install PyTorch Detection cd $INSTALL_DIR git clone https://github.com/facebookresearch/maskrcnn-benchmark.git cd maskrcnn-benchmark # the following will install the lib with # symbolic links, so that you can modify # the files if you want and won't need to # re-build it python setup.py build develop 解释：如果你上面的环境搭的正确，上述代码运行的时候就不会报错。 unset INSTALL_DIR

三、demo运行

我跑了下面这个demo

cd demo # by default, it runs on the GPU # for best results, use min-image-size 800 python webcam.py --min-image-size 800

这个demo跑起来之后，就会弹出一个框，那个框就是你的电脑摄像头！然后他就可以通过你的电脑摄像头进行各种识别~

我因为在ubuntu下，就用手机录了个视频，渣渣画质，我就只截个图吧

到此为止，你也已经和我一样跑起来了，就祝贺你~如果有BUG，可以看我下面的试错部分有没有你遇到的一些bug

试错

问题一：cuda9.0和gcc6.5无法运行！

我一开始下载的是cuda9.0和cudnn7.0.5版本的。结果在我运行到

python setup.py install --cuda_ext --cpp_ext

和最后一句

python setup.py build develop

的时候报错什么nvcc的各种error。包括这个问题在我windows的环境下也会报，这个时候我意识到可能是我g++和gcc的版本太高了！

然后我降到了6.5，因为现在sudo apt-get install只能下载到6的版本了。

结果还是会报错。具体的错误我现在找不到截图了，回头有找到了再贴上来。

然后看到issues里有人是用了cuda9.2+gcc6.5运行成功了，也有人是用cuda9.0+gcc5.4运行成功了。但是我试图自己手工编译gcc5.4，报错报到我怀疑人生还各种不能解决……所以……算了算了，我就下了cuda10.0。没想到cuda10.0+gcc6.5就成功啦！

等我报错的内容找到之后我要贴上来，然后如果你们遇到同样的错误，可能就是gcc版本和cuda不合适的原因。

问题二：到apex步骤的时候出现问题

报错是这个

AttributeError: 'NoneType' object has no attribute 'split'

我的解决方法是，我一开始下错了pytorch-nightly本地的压缩包，下成了cpu版本的，所以一直说找不到我的GPU。后来我换成了GPU版本的，就是我上面两个链接贴的地址是GPU版本的，然后就运行成功了。

问题三：python setup.py build develop报undefined symbol的错

上面balabala一堆然后拉到底部是

File "/home/nova/mask-rcnn/maskrcnn-benchmark/maskrcnn_benchmark/layers/nms.py", line 3, in from maskrcnn_benchmark import _C ImportError: /home/nova/mask-rcnn/maskrcnn-benchmark/maskrcnn_benchmark/_C.cpython-37m-x86_64-linux-gnu.so: undefined symbol: __cudaRegisterFatBinaryEnd

我的报错和这个不一样，我当时也忘记保存了，大体问题就是没定义这个symbol。这个是我在issues里借鉴的，解决方法也是里面教我的：

cd到maskrcnn-benchmark，执行

rm -rf build python setup.py build develop

就是把之前build的删除掉重新build一遍！

因为之前我环境搭的挺乱的吧，就遇到这个情况了。

结语

如果有其他问题希望大家来指正和补充，我要开始研究怎么训练它了……后面如果我有想起来的还会补充的！

最新回复(0)