我的博客

在 multimodal Twitter dataset 上使用 LXMERT

目录
  1. 数据预处理
    1. 下载模型
    2. 启动并进入 docker 容器

LXMERT 代码仓库:https://github.com/airsplay/lxmert

论文:LXMERT: Learning Cross-Modality Encoder Representations from Transformers

支持的数据集:VQA、GQA、NLVR2

数据预处理

Faster R-CNN

安装 nvidia-docker:https://github.com/NVIDIA/nvidia-docker

先建立一个存放处理后的特征的文件夹:mkdir /tmp/sarcasm_image

把特征提取代码复制过去:cp data/vg_gqa_imgfeat/extract_gqa_image.py /tmp/sarcasm_image/

下载模型

1
wget 'https://www.dropbox.com/s/nu6jwhc88ujbw1v/resnet101_faster_rcnn_final_iter_320000.caffemodel?dl=1' -O data/nlvr2_imgfeat/resnet101_faster_rcnn_final_iter_320000.caffemodel

但是我得到的是 404 错误。

所以我到这里(https://github.com/peteanderson80/bottom-up-attention#demo)下载了模型 ,这个模型的 md5 是 53dec87566b0efc9648ffdfa8b81a6ee,我后来在 issue 里发现百度网盘的链接里有这个文件,于是又到百度网盘里下载, md5 是:6edf1e9f7a6e0bd7ca2af53390000b05,文件名 resnet101_faster_rcnn_final_iter_320000.caffemodel

再把模型拷贝过去:

1
cp resnet101_faster_rcnn_final_iter_320000.caffemodel /tmp/sarcasm_image/

启动并进入 docker 容器

1
docker run --gpus all -v /home/sxw/jupyter_workspace/Data/sarcasm/dataset_image/:/workspace/images:ro -v /tmp/sarcasm_image:/workspace/features --rm -it airsplay/bottom-up-attention bash

进入容器后,确认正确挂在了需要的文件:

root@800084edae63:/workspace# ls

features images

root@800084edae63:/workspace# ls features/ -lht

total 259M
-rw-rw-r– 1 1002 1002 259M Apr 11 06:18 resnet101_faster_rcnn_final_iter_320000.caffemodel
-rw-r–r– 1 root root 6.4K Apr 11 04:41 extract_gqa_image.py

root@800084edae63:/workspace# ls images/ -lht | head

total 2.6G
-rw-rw-r– 1 1002 1002 137K Mar 9 06:33 940985374565953537.jpg
-rw-rw-r– 1 1002 1002 157K Mar 9 06:33 941003843675942913.jpg
-rw-rw-r– 1 1002 1002 47K Mar 9 06:33 941028485794955264.jpg
-rw-rw-r– 1 1002 1002 31K Mar 9 06:33 941062957185744896.jpg
-rw-rw-r– 1 1002 1002 42K Mar 9 06:33 941083385396695041.jpg
-rw-rw-r– 1 1002 1002 79K Mar 9 06:33 941430864038174720.jpg
-rw-rw-r– 1 1002 1002 79K Mar 9 06:33 941434627436302336.jpg
-rw-rw-r– 1 1002 1002 28K Mar 9 06:33 941443078115774464.jpg
-rw-rw-r– 1 1002 1002 40K Mar 9 06:33 941756290635665408.jpg

然后开始提取特征:

cd features/

CUDA_VISIBLE_DEVICES=0 python extract_gqa_image.py --caffemodel ./resnet101_faster_rcnn_final_iter_320000.caffemodel

评论无需登录,可以匿名,欢迎评论!