4.6 KiB
FineTune
一、项目内容 利用提供的已标注的数据集,使用 PaddleHub 的 FineTune 功能载入预训练模型,组建Finetune Task,对图片进行训练,最终实现图片分类。 二、项目方法和步骤 步骤一:安装并导入安装paddlehub库 !pip install paddlehub==1.8.1 -i https://pypi.tuna.tsinghua.edu.cn/simple import paddlehub as hub 步骤二:选择并加载预训练模型 进入飞桨官网https://www.paddlepaddle.org.cn/hublist查看PaddleHub支持的所有预训练模型,这里选择mobilenet_v2_imagenet作为预训练模型。 module = hub.Module(name="mobilenet_v2_imagenet") 步骤三:读取数据集中的数据 !unzip -o /data/shixunfiles/26a2e3c3b2c50fe54e2fcab6e031a141_1607408726958.zip 步骤四:加载自定义数据集 继承基类BaseNLPDatast,修改数据集存放地址以及类别 from paddlehub.dataset.base_cv_dataset import BaseCVDataset class DemoDataset(BaseCVDataset): def init(self): self.dataset_dir = "car_datasets" super(DemoDataset, self).init( base_path=self.dataset_dir, train_list_file="train_list.txt", validate_list_file="validate_list.txt", test_list_file="test_list.txt", label_list_file="label_list.txt", ) dataset = DemoDataset() 步骤五:生成一个图像分类的reader 生成一个图像分类的 reader,reader 负责将 dataset 的数据进行预处理,接着以特定格式组织并输入给模型进行训练。 data_reader = hub.reader.ImageClassificationReader( image_width=module.get_expected_image_width(), image_height=module.get_expected_image_height(), images_mean=module.get_pretrained_images_mean(), images_std=module.get_pretrained_images_std(), dataset=dataset) 步骤六:选择运行配置 使用CPU进行训练;Finetune的任务遍历10次训练集;每次训练的时候,给模型输入的每批数据大小为32;每隔50 step在验证集上进行一次性能评估;使用DefaultFinetuneStrategy策略进行finetune。 config = hub.RunConfig( use_cuda=False, num_epoch=10, batch_size=32, eval_interval=50, strategy=hub.finetune.strategy.DefaultFinetuneStrategy()) 步骤七:组建Finetune Task 获取module的上下文环境,从输出变量中找到特征图提取层feature_map;在feature_map后面接入一个全连接层,生成Task。 input_dict, output_dict, program = module.context(trainable=True) img = input_dict["image"] feature_map = output_dict["feature_map"] feed_list = [img.name] task = hub.ImageClassifierTask( data_reader=data_reader, feed_list=feed_list, feature=feature_map, num_classes=dataset.num_labels, config=config) 步骤八:开始Finetune 选择finetune_and_eval接口来进行模型训练,这个接口在finetune的过程中,会周期性的进行模型效果的评估。 run_states = task.finetune_and_eval() 步骤九:模型预测 首先从数据集中拿出测试集数据,然后进行预测,并计算预测正确率 label_map = dataset.label_dict() index = 0 true=0 run_states = task.predict(data=data) results = [run_state.run_results for run_state in run_states] for batch_result in results: batch_result = np.argmax(batch_result, axis=2)[0] for result in batch_result: index += 1 result = label_map[result] actual=os.path.dirname(data[index - 1]) actual=actual.split('/') if actual[-1]==result: true+=1 print("input %i is %s, and the predict result is ( %s )" % (index, data[index - 1], result)) print( '预测正确率为{:.2%}'.format(true/index)) 三、实训结果和分析 模型预测的正确率达到了100%,说明了我们的模型在车辆预测这一任务上具有很高的准确性和可靠性。 模型准确率高的原因可能是数据集质量较高,有助于模型在学习过程中捕捉到关键特征。并且微调策略选择比较适当。 四、讨论与心得 在这次实训中,我们了解到了机器学习和深度学习的概念,并且基于迁移学习这种思想,通过案例分析,学会了使用PaddleHub 的 FineTune功能进行图像分类。 在学习的过程中,我们深刻地体会到了预训练模型的强大和微调策略的重要性。预训练模型可以减少训练时间,提高训练的效率和模型的性能。合适的微调策略可以帮助模型快速收敛,同时避免过拟合现象。 在今后的学习中,我们也会持续关注深度学习这一领域,关注finetune技术的发展,不断提升自己的技能水平,寻求这一技术在化学专业中的运用,做到学科交叉融合。