构建自己的图像分类数据集【两天搞定AI毕设】_哔哩哔哩_bilibili

数据科学中有一句话:Garbage in, garbage out。

A1 图像前爬虫

A2 图像数据集的前期处理和注意事项

数据分布:

多样性、代表性、一致性

其他注意事项:

删除无法读入的文件(如 GIF 文件)

for label in os.listdir(DATASET_DIR):
    for imgfile in tqdm(os.listdir(os.path.join(DATASET_DIR, label))):
        imgpath = os.path.join(DATASET_DIR, label, imgfile)
        img = cv2.imread(imgpath)
        if img is None:
            print(imgpath + "无法读取,予以删除")
            os.remove(imgpath)

将 PNG-RGBA32 图像转为 PNG-RGB24 图像

A3 学习方法

有的是傻瓜式的(但是你要给钱)。

Untitled