• 党务问答:党组与党委有何区别? 2018-02-21
  • 杨浦区贯彻实施长护险 春节加班满足老人护理需求 2018-02-21
  •  “不打烊”不等于“全配送” 快递如何保障春节网购 2018-02-21
  • 冬奥观察:奥林匹克在“云”间 2018-02-20
  •  “不打烊”不等于“全配送” 快递如何保障春节网购 2018-02-20
  • 开创生态文明新时代 绘出美丽中国新图景 2018-02-20
  • 人民网驻阿尔及利亚记者报道集 2018-02-19
  • 党务问答:党组与党委有何区别? 2018-02-19
  • MINI车联网服务3月起升级至4G网络 增加新功能 2018-02-18
  • 以色列警方:已有足够的证据可以用于起诉以总理 2018-02-18
  • 冬奥会短节目第四 金博洋:伤病令我更强大 2018-02-18
  • 天津市北辰区委书记冯卫华:强化政治担当 把主体责任落实落细 2018-02-17
  • 正月初一客流继续回落 全国铁路预计发送旅客389万人次 2018-02-17
  • 送别余光中:诗人虽远行,乡愁永流传 2018-02-17
  • 集团原董事长违纪被查 人员伤亡事故频发 湖北宜化:去年亏损额超过公司市值 2018-02-17
  • python3的文件去重

    栏目: IT技术资讯 发布于: 2017-07-22 02:37:13

    由于各种原因现在开始使用3.6来代替原来的2.7版本,在此分享一段Python3的文件去重代码。如下:

    import hashlib
    import os


    class DirProc():
    ??? def __init__(self):
    ??????? self.main_dir = "C://software//导数据//mtm//imgs"

    ??? def md5(self, fname):
    ??????? if os.path.exists(fname):
    ??????????? hash_md5 = hashlib.md5()
    ??????????? with open(fname, "rb") as f:
    ??????????????? for chunk in iter(lambda: f.read(4096), b""):
    ??????????????????? hash_md5.update(chunk)
    ??????????? return hash_md5.hexdigest()

    ??? def remove(self, fpath1, fpath2):
    ??????? md51 = self.md5(fpath1)
    ??????? md52 = self.md5(fpath2)
    ??????? if md51 == md52:
    ??????????? os.remove(fpath1)
    ??????????? print("去重", fpath1)

    ??? def remove_duplicate(self):
    ??????? dir_list = os.listdir(self.main_dir)
    ??????? for name in dir_list:
    ??????????? sub_dir = self.main_dir + "http://" + name;
    ??????????? file_list = os.listdir(sub_dir)
    ??????????? for fname in file_list:
    ??????????????? for sub_fname in file_list:
    ??????????????????? if fname == sub_fname:
    ??????????????????????? continue
    ??????????????????? f_dir = sub_dir + "http://" + fname;
    ??????????????????? f_sub_dir = sub_dir + "http://" + sub_fname;
    ??????????????????? self.remove(f_dir, f_sub_dir)


    dirProc = DirProc()
    dirProc.remove_duplicate()





    本站文章除注明转载外,均为本站原创或编译?;队魏涡问降淖?,但请务必注明出处。
    转载请注明:文章转载自 七星彩票平台
    本文标题:python3的文件去重
    IT技术书籍推荐:
    Java编程思想(第4版)
    Java编程思想(第4版)
    埃史尔 (作者), 陈昊鹏 (译者)
    《Java编程思想(第4版)》书共22章,包括操作符、控制执行流程、访问权限控制、复用类、多态、接口、通过异常处理错误、字符串、泛型、数组、容器深入研究、Iava’UO系统、枚举类型、并发以及图形化用户界面等内容。这些丰富的内容,包含了Java语言基础语法以及高级特性,适合各个层次的Java程序员阅读,同时也是高等院校讲授面向对象程序设计语言以及Java语言的绝佳教材和参考书。 从《Java编程思想(第4版)》一书获得的各项大奖以及来自世界各地的读者评论中,不难看出这是一本经典之作。本书的作者拥有多年教学经验,对c、c++以及Java语言都有独到、深入的见解,以通俗易懂及小而直接的示例解释了一个个晦涩抽象的概念。