• 特朗普再与世界"为敌" 多国斥其关于耶路撒冷决定 2018-06-22
  • 严防“两节”期间“四风”反弹 持续保持高压态势 2018-06-22
  • 反转!华南理工大学否认向莱阳14岁神童发送考察函 2018-06-21
  • 中国出版集团公司总裁谭跃委员:唱响新时代的好声音 2018-06-21
  • 新華網評:分享經濟,別演成分享的“獨角戲” 2018-06-20
  • 红薯会越放越甜吗 如何保存红薯最科学? 2018-06-20
  • 猪肉创八年新低部分养殖户巨亏离场 行业加速洗牌 2018-06-19
  • 招商证券:创业板反弹压力逐渐显现 2018-06-19
  • “一拖二快三”足球比分直400余名应届大学毕业生成为部队“准警官” 2018-06-19
  • 男子累计献血20万毫升 获选江苏"最美志愿者" 2018-06-19
  • 欧米茄全新推出新西兰酋长队腕表 2018-06-19
  • 財政部發文要求清理“有照無證”會計師事務所 2018-06-19
  • 八旬老人街头贴纸条求收养 称儿子同意其找人抚养 2018-06-18
  • 全国政协委员许鸿飞:让中国文化走出去 2018-06-18
  • 《谈判官》杨幂曝爱情观金句 演绎独立新女性获赞 2018-06-18
  • python3的文件去重

    栏目: IT技术资讯 发布于: 2017-07-22 02:37:13

    由于各种原因现在开始使用3.6来代替原来的2.7版本,在此分享一段Python3的文件去重代码。如下:

    import hashlib
    import os


    class DirProc():
    ??? def __init__(self):
    ??????? self.main_dir = "C://software//导数据//mtm//imgs"

    ??? def md5(self, fname):
    ??????? if os.path.exists(fname):
    ??????????? hash_md5 = hashlib.md5()
    ??????????? with open(fname, "rb") as f:
    ??????????????? for chunk in iter(lambda: f.read(4096), b""):
    ??????????????????? hash_md5.update(chunk)
    ??????????? return hash_md5.hexdigest()

    ??? def remove(self, fpath1, fpath2):
    ??????? md51 = self.md5(fpath1)
    ??????? md52 = self.md5(fpath2)
    ??????? if md51 == md52:
    ??????????? os.remove(fpath1)
    ??????????? print("去重", fpath1)

    ??? def remove_duplicate(self):
    ??????? dir_list = os.listdir(self.main_dir)
    ??????? for name in dir_list:
    ??????????? sub_dir = self.main_dir + "http://" + name;
    ??????????? file_list = os.listdir(sub_dir)
    ??????????? for fname in file_list:
    ??????????????? for sub_fname in file_list:
    ??????????????????? if fname == sub_fname:
    ??????????????????????? continue
    ??????????????????? f_dir = sub_dir + "http://" + fname;
    ??????????????????? f_sub_dir = sub_dir + "http://" + sub_fname;
    ??????????????????? self.remove(f_dir, f_sub_dir)


    dirProc = DirProc()
    dirProc.remove_duplicate()





    本站文章除注明转载外,均为本站原创或编译?;队魏涡问降淖?,但请务必注明出处。
    转载请注明:文章转载自 七星彩票平台
    本文标题:python3的文件去重
    IT技术书籍推荐:
    Java编程思想(第4版)
    Java编程思想(第4版)
    埃史尔 (作者), 陈昊鹏 (译者)
    《Java编程思想(第4版)》书共22章,包括操作符、控制执行流程、访问权限控制、复用类、多态、接口、通过异常处理错误、字符串、泛型、数组、容器深入研究、Iava’UO系统、枚举类型、并发以及图形化用户界面等内容。这些丰富的内容,包含了Java语言基础语法以及高级特性,适合各个层次的Java程序员阅读,同时也是高等院校讲授面向对象程序设计语言以及Java语言的绝佳教材和参考书。 从《Java编程思想(第4版)》一书获得的各项大奖以及来自世界各地的读者评论中,不难看出这是一本经典之作。本书的作者拥有多年教学经验,对c、c++以及Java语言都有独到、深入的见解,以通俗易懂及小而直接的示例解释了一个个晦涩抽象的概念。