• 国家国际发展合作署举行揭牌仪式 2018-04-21
  • 春潮涌动,千余青少年相约科技馆 2018-04-21
  • 英俄用“关闭电视台”互相威胁 双边关系雪上加霜 2018-04-21
  • 拔不拔赖清德?蔡英文何去何从 2018-04-21
  • 我国阅读指数首次发布 人均纸书阅读量为4.66本 2018-04-20
  • 《夏目的美丽日记》绿色度测评报告 2018-04-20
  • 只要打动人心,文艺片也可以很好看 2018-04-19
  • 《荒城纪》揭幕北京大学生电影节 2018-04-19
  • 贵州桐梓:困难群众打工差点错过“移民搬迁”之后 2018-04-19
  • 《英雄联盟》2018年季中冠军赛入围赛抽签将4月24日举行 2018-04-19
  • 全国最美志愿者黄梅生:孤儿的“校长爸爸” 2018-04-19
  • 《荒城纪》揭幕北京大学生电影节 2018-04-18
  • 贵州桐梓:困难群众打工差点错过“移民搬迁”之后 2018-04-18
  • 老布什夫人芭芭拉放弃治疗,余生将在家中“颐养” 2018-04-18
  • 音乐剧《朝暮有情人》演绎港穗两地三代情 2018-04-18
  • python3的文件去重

    栏目: IT技术资讯 发布于: 2017-07-22 02:37:13

    由于各种原因现在开始使用3.6来代替原来的2.7版本,在此分享一段Python3的文件去重代码。如下:

    import hashlib
    import os


    class DirProc():
    ??? def __init__(self):
    ??????? self.main_dir = "C://software//导数据//mtm//imgs"

    ??? def md5(self, fname):
    ??????? if os.path.exists(fname):
    ??????????? hash_md5 = hashlib.md5()
    ??????????? with open(fname, "rb") as f:
    ??????????????? for chunk in iter(lambda: f.read(4096), b""):
    ??????????????????? hash_md5.update(chunk)
    ??????????? return hash_md5.hexdigest()

    ??? def remove(self, fpath1, fpath2):
    ??????? md51 = self.md5(fpath1)
    ??????? md52 = self.md5(fpath2)
    ??????? if md51 == md52:
    ??????????? os.remove(fpath1)
    ??????????? print("去重", fpath1)

    ??? def remove_duplicate(self):
    ??????? dir_list = os.listdir(self.main_dir)
    ??????? for name in dir_list:
    ??????????? sub_dir = self.main_dir + "http://" + name;
    ??????????? file_list = os.listdir(sub_dir)
    ??????????? for fname in file_list:
    ??????????????? for sub_fname in file_list:
    ??????????????????? if fname == sub_fname:
    ??????????????????????? continue
    ??????????????????? f_dir = sub_dir + "http://" + fname;
    ??????????????????? f_sub_dir = sub_dir + "http://" + sub_fname;
    ??????????????????? self.remove(f_dir, f_sub_dir)


    dirProc = DirProc()
    dirProc.remove_duplicate()





    本站文章除注明转载外,均为本站原创或编译?;队魏涡问降淖?,但请务必注明出处。
    转载请注明:文章转载自 七星彩票平台
    本文标题:python3的文件去重
    IT技术书籍推荐:
    Java编程思想(第4版)
    Java编程思想(第4版)
    埃史尔 (作者), 陈昊鹏 (译者)
    《Java编程思想(第4版)》书共22章,包括操作符、控制执行流程、访问权限控制、复用类、多态、接口、通过异常处理错误、字符串、泛型、数组、容器深入研究、Iava’UO系统、枚举类型、并发以及图形化用户界面等内容。这些丰富的内容,包含了Java语言基础语法以及高级特性,适合各个层次的Java程序员阅读,同时也是高等院校讲授面向对象程序设计语言以及Java语言的绝佳教材和参考书。 从《Java编程思想(第4版)》一书获得的各项大奖以及来自世界各地的读者评论中,不难看出这是一本经典之作。本书的作者拥有多年教学经验,对c、c++以及Java语言都有独到、深入的见解,以通俗易懂及小而直接的示例解释了一个个晦涩抽象的概念。