• 不能让所谓的收视率愚弄观众 2018-10-18
  • 新希望!中超19岁新星半年增重十斤 曾戏耍恒大两国脚 2018-10-17
  • 迎丰收 晒丰收 庆丰收 2018-10-15
  • “捂脸表情”被注册成商标?申请人不认为商标侵权 2018-10-15
  • 战巡南海、绕岛巡航…空军有“飞出去”的主心骨 2018-10-14
  • 幼儿园要求家长写一万字读后感:不能这样玩家长|幼儿园|家长-教育时讯 2018-10-13
  • 中国故宫文物展在希腊举行 2018-10-13
  • 車·晓 第26期 車企官方降价真相幾何? 2018-10-12
  • 宝沃总裁杨嵩:曾和奔驰宝马同水平 已不能同日而语 2018-10-11
  • 新时代党员干部要有更大的担当和作为 2018-10-10
  • “2018-雷霆”专项行动破获百余起台湾间谍案 2018-10-09
  • 朝韩首脑今起在平壤会晤 “金文会”将聚焦三大议题 2018-10-09
  • 2018顺义啤酒节--北京频道--人民网 2018-10-08
  • 台湾遭遇的“断交潮”有无化解之道? 2018-10-08
  • 习近平会见爱沙尼亚总统卡柳莱德 2018-10-08
  • python3的文件去重

    栏目: IT技术资讯 发布于: 2017-07-22 02:37:13

    由于各种原因现在开始使用3.6来代替原来的2.7版本,在此分享一段Python3的文件去重代码。如下:

    import hashlib
    import os


    class DirProc():
    ??? def __init__(self):
    ??????? self.main_dir = "C://software//导数据//mtm//imgs"

    ??? def md5(self, fname):
    ??????? if os.path.exists(fname):
    ??????????? hash_md5 = hashlib.md5()
    ??????????? with open(fname, "rb") as f:
    ??????????????? for chunk in iter(lambda: f.read(4096), b""):
    ??????????????????? hash_md5.update(chunk)
    ??????????? return hash_md5.hexdigest()

    ??? def remove(self, fpath1, fpath2):
    ??????? md51 = self.md5(fpath1)
    ??????? md52 = self.md5(fpath2)
    ??????? if md51 == md52:
    ??????????? os.remove(fpath1)
    ??????????? print("去重", fpath1)

    ??? def remove_duplicate(self):
    ??????? dir_list = os.listdir(self.main_dir)
    ??????? for name in dir_list:
    ??????????? sub_dir = self.main_dir + "http://" + name;
    ??????????? file_list = os.listdir(sub_dir)
    ??????????? for fname in file_list:
    ??????????????? for sub_fname in file_list:
    ??????????????????? if fname == sub_fname:
    ??????????????????????? continue
    ??????????????????? f_dir = sub_dir + "http://" + fname;
    ??????????????????? f_sub_dir = sub_dir + "http://" + sub_fname;
    ??????????????????? self.remove(f_dir, f_sub_dir)


    dirProc = DirProc()
    dirProc.remove_duplicate()





    本站文章除注明转载外,均为本站原创或编译?;队魏涡问降淖?,但请务必注明出处。
    转载请注明:文章转载自 七星彩票平台
    本文标题:python3的文件去重
    IT技术书籍推荐:
    Java编程思想(第4版)
    Java编程思想(第4版)
    埃史尔 (作者), 陈昊鹏 (译者)
    《Java编程思想(第4版)》书共22章,包括操作符、控制执行流程、访问权限控制、复用类、多态、接口、通过异常处理错误、字符串、泛型、数组、容器深入研究、Iava’UO系统、枚举类型、并发以及图形化用户界面等内容。这些丰富的内容,包含了Java语言基础语法以及高级特性,适合各个层次的Java程序员阅读,同时也是高等院校讲授面向对象程序设计语言以及Java语言的绝佳教材和参考书。 从《Java编程思想(第4版)》一书获得的各项大奖以及来自世界各地的读者评论中,不难看出这是一本经典之作。本书的作者拥有多年教学经验,对c、c++以及Java语言都有独到、深入的见解,以通俗易懂及小而直接的示例解释了一个个晦涩抽象的概念。