2025年什么是md5码?如何使用Python读取文件md5码去重操作?

什么是md5码?如何使用Python读取文件md5码去重操作?如果对于文件有一定了解 比如网络传输 上传 下载文件的话 那么对于 md5 值一定不会陌生 这是一个文件的标示或者记录 每个文件有自身的 md5 值 如果对文件做了修改 那么其 md5 值是一定会改变 所以我们可以看到在下载系统文件的时候都会提示核对 md5 值

大家好,我是讯享网,很高兴认识大家。

如果对于文件有一定了解,比如网络传输,上传、下载文件的话,那么对于md5值一定不会陌生,这是一个文件的标示或者记录,每个文件有自身的md5值,如果对文件做了修改,那么其md5值是一定会改变,所以我们可以看到在下载系统文件的时候都会提示核对md5值,以确认下载的系统文件是否缺失或者修改!

8757bdd6e22643f9585c922528b37037.png
讯享网

什么是md5码?

MD5(Message Digest Algorithm 5)是一种用于信息摘要算法的加密哈希函数。它将输入的任意长度的消息压缩成一串128位的哈希值,并且不同的输入一般会产生不同的哈希值。

md5码的应用领域

在计算机领域中,一般使用MD5算法来验证文件的完整性。

还有一种应用广泛的领域,那就是去重,早几年网络上传分享内容,比如优酷视频上传,只需要更改视频文件的md5码值,即能通过平台的重复内容初筛,这是比较简单的去重机制。

当然随着现在的短视频的飞速发展,视频去重早已经不会那么粗糙,在视频内容审核上,早已经相当智能,尤其是版权上,盗版视频,重复视频早已经能飞速审核,并结合平台内的数据过审。

Python 读取文件md5码去重操作应用

在计算机领域,md5是常见的加密算法之一,而Python自带了hashlib库,这个库包含用于安全哈希和消息摘要的许多方法。

  1. Python 读取文件md5码操作
import hashlib def get_md5(filename):     if (filename):         print(filename)         fp = open(filename, 'rb')         contents = fp.read()         fp.close()         print(hashlib.md5(contents).hexdigest())     else:         print('file not exists') if __name__=="__main__":     filename=r'C:\Users\Administrator\Desktop/1.jpg'     get_md5(filename)     filename = r'C:\Users\Administrator\Desktop/1 - 副本.jpg'     get_md5(filename)

讯享网
  1. Python 修改文件md5码操作
讯享网import os, glob def fileAppend(filename): myfile = open(filename,'a') myfile.write("&&&&*") myfile.close if __name__ == '__main__': dirname = r'D:\\videos\look' #需要修改的视频的文件目录 allFile = glob.glob(dirname + os.sep + '*.mp4') for filename in allFile: fileAppend(filename) print(filename + 'is Changed.')
  1. Python 批量修改文件md5码操作
#https://blog.csdn.net/coastline_s/article/details/ # 该.py文件与待修改文件置于同一文件夹下,操作运行即可实现功能。注意观察操作台反馈。 import os import random import sys import hashlib # 获取当前"文件"的绝对路径 path1 = __file__ # 获取当前"文件夹"的绝对路径 path = path1.replace('!!!_md5_change.py', '') # 获取当前文件的文件名 # print(os.path.basename(__file__)) def md5_change(file_name):     file = open(file_name, 'a')     file.write('&&&')     file.close() _FILE_SLIM = 100*1024*1024 def md5_search(filepath):     calltimes = 0     hmd5 = hashlib.md5()     fp = open(filepath, "rb")     f_size = os.stat(filepath).st_size     if f_size > _FILE_SLIM:         while (f_size > _FILE_SLIM):             hmd5.update(fp.read(_FILE_SLIM))             f_size /= _FILE_SLIM             calltimes += 1         if (f_size > 0) and (f_size <= _FILE_SLIM):             hmd5.update(fp.read())     else:         hmd5.update(fp.read())     return hmd5.hexdigest() # 获取文件夹下所有的文件名称,以列表的形式呈现 file_name_list = os.listdir(path) # 在列表元素个数范围内取随机数 random_x = random.randint(0, len(file_name_list)) # 获取到文件夹内某个随机文件的绝对路径(为结尾验证做准备) file_name_path = path + file_name_list[random_x] # 获取该随机选取到的文件的md5值(md5值修改之前) md5 = md5_search(file_name_path) print('"' + file_name_list[random_x] + '"原md5:  ' + md5) # 开始遍历含有文件名的列表 for x in range(0, len(file_name_list)):     filename = file_name_list[x]     # 剔除目标文件之外的元素     if filename == '!!!_md5_change.py':         pass     elif filename == '.DS_Store':         pass     else:         # 对文件进行md5修改         md5_change(filename) # 获取该随机选取到的文件的md5值(md5值修改之后) new_md5 = md5_search(file_name_path) print('"' + file_name_list[random_x] + '"修改后的md5:  ' + new_md5) # 对随机挑选到的文件进行修改前后比对验证 if md5 != new_md5:     print('md5值的修改验证通过!') else:     print('"' + file_name_list[random_x] + '"' + '验证未通过,该文件夹下所有文件的md5值可能均修改失败')
  1. Python 读取文件md5码去重操作
讯享网#两层判断: #1.先判断文件大小是否为相同,大小不同则不是重复文件,予以保留; #2.文件大小相同再判断文件md5,md5相同,则是重复文件,予以删除。 #两层判断: #1.先判断文件大小是否为相同,大小不同则不是重复文件,予以保留; #2.文件大小相同再判断文件md5,md5相同,则是重复文件,予以删除。 from pathlib import Path import hashlib def getmd5(filename):     # 接收文件路径,返回文件md5值     with open(filename, 'rb') as f:         data = f.read()     file_md5 = hashlib.new("md5", data).hexdigest()     return file_md5      def main():     path = r"F:\FileRecv\删除文件测试"     all_size = {}     total_file = 0     total_delete = 0     # 获取路径内的所有文件名,默认是升序排列,相同文件将会保留日期时间最新的     all_files = Path(path).glob('*.*')     # 降序排列,相同文件将会保留文件名最短的(即日期时间最久的)     all_files = sorted(all_files, reverse=True)     # 遍历文件路径内的所有文件     for file in all_files:         # 获取文件所占字节大小,作为数据字典的键         size = file.stat().st_size         # name_and_md5列表用于存储文件绝对路径和md5值,作为数据字典的值         name_and_md5 = [file, '']         # 针对重复文件进行处理,生成字典存储相关信息         # 字典all_size中key是size,value是name_and_md5列表         # 针对相同size的文件,再调用getmd5函数,获取文件的md5值         # 文件size不同(不在all_size.keys()中),则自动判断为不同的文件,予以保留         if size in all_size.keys():             # 调用getmd5函数,获取文件的md5值             new_md5 = getmd5(file)             if all_size[size][1] == '':                 all_size[size][1] = getmd5(all_size[size][0])             # 判断md5值存在,即文件重复,则删除文件。md5值不存在,则把md5值加入列表中             if new_md5 in all_size[size]:                 file.unlink()                 total_delete += 1             else:                 all_size[size].append(new_md5)         else:             all_size[size] = name_and_md5         total_file += 1     print(f'文件总数:{total_file}')     print(f'删除个数:{total_delete}') if __name__=="__main__":     main()

运行效果:

7cf580ec707634a630eff26f5da69df2.png

附所有代码demo打包获取

9ec1f88ce85f6f93cc72cfe918b2d043.png

链接: 

https://pan.baidu.com/s/1h9-l5vsc6dwLnpVGGiBllg?pwd=cyxr 

提取码: 

cyxr 

详解如何使用Python实现删除重复文件 https://www.jb51.net/article/264574.htm

利用python实现批量修改文件的md5值 https://blog.csdn.net/coastline_s/article/details/

python批量修改视频md5值 https://zhuanlan.zhihu.com/p/

python实现MD5进行文件去重的示例代码 https://www.jb51.net/article/217069.htm

你好,我是二大爷,

革命老区外出进城务工人员,

互联网非早期非专业站长,

喜好python,写作,阅读,英语

不入流程序,自媒体,seo . . .

公众号不挣钱,交个网友。

读者交流群已建立,找到我备注 “交流”,即可获得加入我们~

听说点 “在看” 的都变得更好看呐~

关注关注二大爷呗~给你分享python,写作,阅读的内容噢~

扫一扫下方二维码即可关注我噢~

218a2fe57caa20727be3f729f78c049e.jpeg

056b9a85a7720f64104e0d654afb6323.png

关注我的都变秃了

说错了,都变强了!

不信你试试

0784ab5aae781c7155626ae6e32abc8c.jpeg

扫码关注最新动态

公众号ID:eryeji

小讯
上一篇 2025-01-13 18:43
下一篇 2025-01-16 07:39

相关推荐

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/22486.html