• 四部门调整完善新能源汽车推广应用财政补贴政策 2018-08-15
  • 两男子在吉大美食城“百元找零”诈骗? 2018-08-12
  • 突破!郑鹏创中国队冬残奥会个人项目最好成绩 2018-08-12
  • 今年铜陵市将治理水土流失面积36平方公里 2018-08-11
  • 篮球投注技巧 2018-08-11
  • 威海马上就可以接种四价宫颈癌疫苗 附接种地点 2018-08-10
  • 德赫亚暗示博格巴,像我这样才能在曼联取得成功! 2018-08-10
  • 广州出台“红棉计划”吸引海外人才来穗创新创业 2018-08-10
  • 不敌吉林队 四川男篮赛季排名倒数第二收官 2018-08-10
  • 北京榜样,我为你点一个大大的赞 2018-08-09
  • 石家庄空气质量排名"后十"的乡镇将被约谈 2018-08-08
  • 日本公布秘密文件:美日曾密谋“瓜分”中国(图) 2018-08-08
  • 秦岭户外救援现状调查 志愿者组队救援费用AA制均摊 2018-08-08
  • 皇台酒业为证券虚假陈述案埋单,8名投资者将获赔近62万元 2018-08-08
  • 中科大揭示酵母酶的“钻戒”结构 可优化癌症的个性化治疗 2018-08-08
  • python3的文件去重

    栏目: IT技术资讯 发布于: 2017-07-22 02:37:13

    由于各种原因现在开始使用3.6来代替原来的2.7版本,在此分享一段Python3的文件去重代码。如下:

    import hashlib
    import os


    class DirProc():
    ??? def __init__(self):
    ??????? self.main_dir = "C://software//导数据//mtm//imgs"

    ??? def md5(self, fname):
    ??????? if os.path.exists(fname):
    ??????????? hash_md5 = hashlib.md5()
    ??????????? with open(fname, "rb") as f:
    ??????????????? for chunk in iter(lambda: f.read(4096), b""):
    ??????????????????? hash_md5.update(chunk)
    ??????????? return hash_md5.hexdigest()

    ??? def remove(self, fpath1, fpath2):
    ??????? md51 = self.md5(fpath1)
    ??????? md52 = self.md5(fpath2)
    ??????? if md51 == md52:
    ??????????? os.remove(fpath1)
    ??????????? print("去重", fpath1)

    ??? def remove_duplicate(self):
    ??????? dir_list = os.listdir(self.main_dir)
    ??????? for name in dir_list:
    ??????????? sub_dir = self.main_dir + "http://" + name;
    ??????????? file_list = os.listdir(sub_dir)
    ??????????? for fname in file_list:
    ??????????????? for sub_fname in file_list:
    ??????????????????? if fname == sub_fname:
    ??????????????????????? continue
    ??????????????????? f_dir = sub_dir + "http://" + fname;
    ??????????????????? f_sub_dir = sub_dir + "http://" + sub_fname;
    ??????????????????? self.remove(f_dir, f_sub_dir)


    dirProc = DirProc()
    dirProc.remove_duplicate()





    本站文章除注明转载外,均为本站原创或编译?;队魏涡问降淖?,但请务必注明出处。
    转载请注明:文章转载自 七星彩票平台
    本文标题:python3的文件去重
    IT技术书籍推荐:
    Java编程思想(第4版)
    Java编程思想(第4版)
    埃史尔 (作者), 陈昊鹏 (译者)
    《Java编程思想(第4版)》书共22章,包括操作符、控制执行流程、访问权限控制、复用类、多态、接口、通过异常处理错误、字符串、泛型、数组、容器深入研究、Iava’UO系统、枚举类型、并发以及图形化用户界面等内容。这些丰富的内容,包含了Java语言基础语法以及高级特性,适合各个层次的Java程序员阅读,同时也是高等院校讲授面向对象程序设计语言以及Java语言的绝佳教材和参考书。 从《Java编程思想(第4版)》一书获得的各项大奖以及来自世界各地的读者评论中,不难看出这是一本经典之作。本书的作者拥有多年教学经验,对c、c++以及Java语言都有独到、深入的见解,以通俗易懂及小而直接的示例解释了一个个晦涩抽象的概念。