如果对于文件有一定了解,比如网络传输,上传、下载文件的话,那么对于md5值一定不会陌生,这是一个文件的标示或者记录,每个文件有自身的md5值,如果对文件做了修改,那么其md5值是一定会改变,所以我们可以看到在下载系统文件的时候都会提示核对md5值,以确认下载的系统文件是否缺失或者修改!
什么是md5码?
MD5(Message Digest Algorithm 5)是一种用于信息摘要算法的加密哈希函数。它将输入的任意长度的消息压缩成一串128位的哈希值,并且不同的输入一般会产生不同的哈希值。
md5码的应用领域
在计算机领域中,一般使用MD5算法来验证文件的完整性。
还有一种应用广泛的领域,那就是去重,早几年网络上传分享内容,比如优酷视频上传,只需要更改视频文件的md5码值,即能通过平台的重复内容初筛,这是比较简单的去重机制。
当然随着现在的短视频的飞速发展,视频去重早已经不会那么粗糙,在视频内容审核上,早已经相当智能,尤其是版权上,盗版视频,重复视频早已经能飞速审核,并结合平台内的数据过审。
Python 读取文件md5码去重操作应用
在计算机领域,md5是常见的加密算法之一,而Python自带了hashlib库,这个库包含用于安全哈希和消息摘要的许多方法。
- Python 读取文件md5码操作
import hashlib def get_md5(filename): if (filename): print(filename) fp = open(filename, 'rb') contents = fp.read() fp.close() print(hashlib.md5(contents).hexdigest()) else: print('file not exists') if __name__=="__main__": filename=r'C:\Users\Administrator\Desktop/1.jpg' get_md5(filename) filename = r'C:\Users\Administrator\Desktop/1 - 副本.jpg' get_md5(filename)
讯享网
- Python 修改文件md5码操作
讯享网import os, glob def fileAppend(filename): myfile = open(filename,'a') myfile.write("&&&&*") myfile.close if __name__ == '__main__': dirname = r'D:\\videos\look' #需要修改的视频的文件目录 allFile = glob.glob(dirname + os.sep + '*.mp4') for filename in allFile: fileAppend(filename) print(filename + 'is Changed.')
- Python 批量修改文件md5码操作
#https://blog.csdn.net/coastline_s/article/details/ # 该.py文件与待修改文件置于同一文件夹下,操作运行即可实现功能。注意观察操作台反馈。 import os import random import sys import hashlib # 获取当前"文件"的绝对路径 path1 = __file__ # 获取当前"文件夹"的绝对路径 path = path1.replace('!!!_md5_change.py', '') # 获取当前文件的文件名 # print(os.path.basename(__file__)) def md5_change(file_name): file = open(file_name, 'a') file.write('&&&') file.close() _FILE_SLIM = 100*1024*1024 def md5_search(filepath): calltimes = 0 hmd5 = hashlib.md5() fp = open(filepath, "rb") f_size = os.stat(filepath).st_size if f_size > _FILE_SLIM: while (f_size > _FILE_SLIM): hmd5.update(fp.read(_FILE_SLIM)) f_size /= _FILE_SLIM calltimes += 1 if (f_size > 0) and (f_size <= _FILE_SLIM): hmd5.update(fp.read()) else: hmd5.update(fp.read()) return hmd5.hexdigest() # 获取文件夹下所有的文件名称,以列表的形式呈现 file_name_list = os.listdir(path) # 在列表元素个数范围内取随机数 random_x = random.randint(0, len(file_name_list)) # 获取到文件夹内某个随机文件的绝对路径(为结尾验证做准备) file_name_path = path + file_name_list[random_x] # 获取该随机选取到的文件的md5值(md5值修改之前) md5 = md5_search(file_name_path) print('"' + file_name_list[random_x] + '"原md5: ' + md5) # 开始遍历含有文件名的列表 for x in range(0, len(file_name_list)): filename = file_name_list[x] # 剔除目标文件之外的元素 if filename == '!!!_md5_change.py': pass elif filename == '.DS_Store': pass else: # 对文件进行md5修改 md5_change(filename) # 获取该随机选取到的文件的md5值(md5值修改之后) new_md5 = md5_search(file_name_path) print('"' + file_name_list[random_x] + '"修改后的md5: ' + new_md5) # 对随机挑选到的文件进行修改前后比对验证 if md5 != new_md5: print('md5值的修改验证通过!') else: print('"' + file_name_list[random_x] + '"' + '验证未通过,该文件夹下所有文件的md5值可能均修改失败')
- Python 读取文件md5码去重操作
讯享网#两层判断: #1.先判断文件大小是否为相同,大小不同则不是重复文件,予以保留; #2.文件大小相同再判断文件md5,md5相同,则是重复文件,予以删除。 #两层判断: #1.先判断文件大小是否为相同,大小不同则不是重复文件,予以保留; #2.文件大小相同再判断文件md5,md5相同,则是重复文件,予以删除。 from pathlib import Path import hashlib def getmd5(filename): # 接收文件路径,返回文件md5值 with open(filename, 'rb') as f: data = f.read() file_md5 = hashlib.new("md5", data).hexdigest() return file_md5 def main(): path = r"F:\FileRecv\删除文件测试" all_size = {} total_file = 0 total_delete = 0 # 获取路径内的所有文件名,默认是升序排列,相同文件将会保留日期时间最新的 all_files = Path(path).glob('*.*') # 降序排列,相同文件将会保留文件名最短的(即日期时间最久的) all_files = sorted(all_files, reverse=True) # 遍历文件路径内的所有文件 for file in all_files: # 获取文件所占字节大小,作为数据字典的键 size = file.stat().st_size # name_and_md5列表用于存储文件绝对路径和md5值,作为数据字典的值 name_and_md5 = [file, ''] # 针对重复文件进行处理,生成字典存储相关信息 # 字典all_size中key是size,value是name_and_md5列表 # 针对相同size的文件,再调用getmd5函数,获取文件的md5值 # 文件size不同(不在all_size.keys()中),则自动判断为不同的文件,予以保留 if size in all_size.keys(): # 调用getmd5函数,获取文件的md5值 new_md5 = getmd5(file) if all_size[size][1] == '': all_size[size][1] = getmd5(all_size[size][0]) # 判断md5值存在,即文件重复,则删除文件。md5值不存在,则把md5值加入列表中 if new_md5 in all_size[size]: file.unlink() total_delete += 1 else: all_size[size].append(new_md5) else: all_size[size] = name_and_md5 total_file += 1 print(f'文件总数:{total_file}') print(f'删除个数:{total_delete}') if __name__=="__main__": main()
运行效果:

附所有代码demo打包获取

链接:
https://pan.baidu.com/s/1h9-l5vsc6dwLnpVGGiBllg?pwd=cyxr
提取码:
cyxr
详解如何使用Python实现删除重复文件 https://www.jb51.net/article/264574.htm
利用python实现批量修改文件的md5值 https://blog.csdn.net/coastline_s/article/details/
python批量修改视频md5值 https://zhuanlan.zhihu.com/p/
python实现MD5进行文件去重的示例代码 https://www.jb51.net/article/217069.htm
你好,我是二大爷,
革命老区外出进城务工人员,
互联网非早期非专业站长,
喜好python,写作,阅读,英语
不入流程序,自媒体,seo . . .
公众号不挣钱,交个网友。
读者交流群已建立,找到我备注 “交流”,即可获得加入我们~
听说点 “在看” 的都变得更好看呐~
关注关注二大爷呗~给你分享python,写作,阅读的内容噢~
扫一扫下方二维码即可关注我噢~


关注我的都变秃了
说错了,都变强了!
不信你试试

扫码关注最新动态
公众号ID:eryeji


版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/22486.html