python3 语言翻译相关库

python3 语言翻译相关库最近有个需求 要将几万条数据从日语翻译成中文 因为数据的获取和处理用的是 python 代码 所以想先尝试翻译部分也用 python 实现 目前网上查到的翻译方法有百度 有道以及谷歌翻译 下面会对这三个方法进行简单的测试和分析 如果大家知道有更好的方法 速度快 结果准确 还请分享

大家好,我是讯享网,很高兴认识大家。

最近有个需求,要将几万条数据从日语翻译成中文。因为数据的获取和处理用的是python代码,所以想先尝试翻译部分也用python实现。

目前网上查到的翻译方法有百度、有道以及谷歌翻译,下面会对这三个方法进行简单的测试和分析。如果大家知道有更好的方法(速度快、结果准确),还请分享!

 

模块导入

import re import urllib.parse, urllib.request import hashlib import urllib import random import json import time from translate import Translator

讯享网

非python自带的库,如python google translator,需要手动安装,命令pip install module_name。

 

1. 百度翻译

讯享网appid = 'your_appid' secretKey = 'your_secretKey' url_baidu = 'http://api.fanyi.baidu.com/api/trans/vip/translate' def translateBaidu(text, f='ja', t='zh'): salt = random.randint(32768, 65536) sign = appid + text + str(salt) + secretKey sign = hashlib.md5(sign.encode()).hexdigest() url = url_baidu + '?appid=' + appid + '&q=' + urllib.parse.quote(text) + '&from=' + f + '&to=' + t + \ '&salt=' + str(salt) + '&sign=' + sign response = urllib.request.urlopen(url) content = response.read().decode('utf-8') data = json.loads(content) result = str(data['trans_result'][0]['dst']) print(result)

参数:text--待翻文本,f--初始语言,t--目标语言,后面方法类似。

 

2. 有道翻译

url_youdao = 'http://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule&smartresult=ugc&sessionFrom=' \ 'http://www.youdao.com/' dict = {} dict['type'] = 'AUTO' dict['doctype'] = 'json' dict['xmlVersion'] = '1.8' dict['keyfrom'] = 'fanyi.web' dict['ue'] = 'UTF-8' dict['action'] = 'FY_BY_CLICKBUTTON' dict['typoResult'] = 'true' def translateYoudao(text): global dict dict['i'] = text data = urllib.parse.urlencode(dict).encode('utf-8') response = urllib.request.urlopen(url_youdao, data) content = response.read().decode('utf-8') data = json.loads(content) result = data['translateResult'][0][0]['tgt'] print(result)

参数主要由字典dict指定,发现没有地方可以指定语言(可能是我没找到),测试结果是不管输入什么语言的文本,输出均是中文。

 

3. 谷歌翻译

讯享网url_google = 'http://translate.google.cn' reg_text = re.compile(r'(?<=TRANSLATED_TEXT=).*?;') user_agent = r'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) ' \ r'Chrome/44.0.2403.157 Safari/537.36' def translateGoogle(text, f='ja', t='zh-cn'): values = {'hl': 'zh-cn', 'ie': 'utf-8', 'text': text, 'langpair': '%s|%s' % (f, t)} value = urllib.parse.urlencode(values) req = urllib.request.Request(url_google + '?' + value) req.add_header('User-Agent', user_agent) response = urllib.request.urlopen(req) content = response.read().decode('utf-8') data = reg_text.search(content) result = data.group(0).strip(';').strip('\'') print(result)

和上面两种方法一样,采用的是访问网页的形式来进行翻译。

还有一种是利用python谷歌翻译模块Translator:

def translateGoogle2(text): result = translator.translate(text) print(result)

 

4. 测试代码

测试过程:

翻译5个字串为一个小的单位,输出消耗时间;


讯享网

循环10次为一个大的单位,输出消耗时间;

对不同的语言字串和循环次数做过多次测试,发现情况基本类似,所以这里选择了10次。

讯享网text_list = ['こんにちは', 'こんばんは', 'おはようございます', 'お休(やす)みなさい', 'お元気(げんき)ですか'] time_baidu = 0 time_youdao = 0 time_google = 0 time_google2 = 0 for i in list(range(1, 11)): time1 = time.time() for text in text_list: translateBaidu(text) time2 = time.time() print('百度翻译第%s次时间:%s' % (i, time2 - time1)) time_baidu += (time2 - time1) time1 = time.time() for text in text_list: translateYoudao(text) time2 = time.time() print('有道翻译第%s次时间:%s' % (i, time2 - time1)) time_youdao += (time2 - time1) time1 = time.time() for text in text_list: translateGoogle(text) time2 = time.time() print('谷歌翻译第%s次时间:%s' % (i, time2 - time1)) time_google += (time2 - time1) time1 = time.time() for text in text_list: translateGoogle2(text) time2 = time.time() print('谷歌2翻译第%s次时间:%s' % (i, time2 - time1)) time_google2 += (time2 - time1) print('百度翻译时间:%s' % (time_baidu / 10)) print('有道翻译时间:%s' % (time_youdao / 10)) print('谷歌翻译时间:%s' % (time_google / 10)) print('谷歌2翻译时间:%s' % (time_google2 / 10))

 

5. 结果分析

日语字串原意为['你好', '晚上好', '早上好', '晚安', '您还好吧']。

测试代码输出结果:

您好
晚上好
早上好!
请您休息。
您身体好吗?
百度翻译第1次时间:0.03223
你好
晚安
早上好。
您休息吧、)
好(身体)好吗?
有道翻译第1次时间:0.
您好
晚上好
早上好
看看你的假期(康)
小心(元气)是
谷歌翻译第1次时间:3.937
你好
问候
问候
请休息
照顾 (玄龟) 吗?
谷歌2翻译第1次时间:6.9326
您好
晚上好
早上好!
请您休息。
您身体好吗?
百度翻译第2次时间:0.60449
你好
晚安
早上好。
您休息吧、)
好(身体)好吗?
有道翻译第2次时间:0.59717
您好
晚上好
早上好
看看你的假期(康)
小心(元气)是
谷歌翻译第2次时间:3.43213
你好
问候
问候
请休息
照顾 (玄龟) 吗?
谷歌2翻译第2次时间:6.9888
您好
晚上好
早上好!
请您休息。
您身体好吗?
百度翻译第3次时间:0.07666
你好
晚安
早上好。
您休息吧、)
好(身体)好吗?
有道翻译第3次时间:0.
您好
晚上好
早上好
看看你的假期(康)
小心(元气)是
谷歌翻译第3次时间:3.1294
你好
问候
问候
请休息
照顾 (玄龟) 吗?
谷歌2翻译第3次时间:5.5381
您好
晚上好
早上好!
请您休息。
您身体好吗?
百度翻译第4次时间:0.78662
你好
晚安
早上好。
您休息吧、)
好(身体)好吗?
有道翻译第4次时间:0.60205
您好
晚上好
早上好
看看你的假期(康)
小心(元气)是
谷歌翻译第4次时间:3.12207
你好
问候
问候
请休息
照顾 (玄龟) 吗?
谷歌2翻译第4次时间:7.0685
您好
晚上好
早上好!
请您休息。
您身体好吗?
百度翻译第5次时间:0.35303
你好
晚安
早上好。
您休息吧、)
好(身体)好吗?
有道翻译第5次时间:0.
您好
晚上好
早上好
看看你的假期(康)
小心(元气)是
谷歌翻译第5次时间:3.9956
你好
问候
问候
请休息
照顾 (玄龟) 吗?
谷歌2翻译第5次时间:4.0835
您好
晚上好
早上好!
请您休息。
您身体好吗?
百度翻译第6次时间:0.28076
你好
晚安
早上好。
您休息吧、)
好(身体)好吗?
有道翻译第6次时间:0.41992
您好
晚上好
早上好
看看你的假期(康)
小心(元气)是
谷歌翻译第6次时间:3.36865
你好
问候
问候
请休息
照顾 (玄龟) 吗?
谷歌2翻译第6次时间:4.2842
您好
晚上好
早上好!
请您休息。
您身体好吗?
百度翻译第7次时间:0.33447
你好
晚安
早上好。
您休息吧、)
好(身体)好吗?
有道翻译第7次时间:0.99219
您好
晚上好
早上好
看看你的假期(康)
小心(元气)是
谷歌翻译第7次时间:3.5835
你好
问候
问候
请休息
照顾 (玄龟) 吗?
谷歌2翻译第7次时间:6.4556
您好
晚上好
早上好!
请您休息。
您身体好吗?
百度翻译第8次时间:0.16406
你好
晚安
早上好。
您休息吧、)
好(身体)好吗?
有道翻译第8次时间:0.30664
您好
晚上好
早上好
看看你的假期(康)
小心(元气)是
谷歌翻译第8次时间:3.85986
你好
问候
问候
请休息
照顾 (玄龟) 吗?
谷歌2翻译第8次时间:5.8799
您好
晚上好
早上好!
请您休息。
您身体好吗?
百度翻译第9次时间:0.
你好
晚安
早上好。
您休息吧、)
好(身体)好吗?
有道翻译第9次时间:0.78076
您好
晚上好
早上好
看看你的假期(康)
小心(元气)是
谷歌翻译第9次时间:3.6963
你好
问候
问候
请休息
照顾 (玄龟) 吗?
谷歌2翻译第9次时间:6.7202
您好
晚上好
早上好!
请您休息。
您身体好吗?
百度翻译第10次时间:0.71191
你好
晚安
早上好。
您休息吧、)
好(身体)好吗?
有道翻译第10次时间:0.
您好
晚上好
早上好
看看你的假期(康)
小心(元气)是
谷歌翻译第10次时间:3.45166
你好
问候
问候
请休息
照顾 (玄龟) 吗?
谷歌2翻译第10次时间:6.6309
百度翻译时间:0.22974
有道翻译时间:0.55371
谷歌翻译时间:3.55763
谷歌2翻译时间:6.0682

从打印的内容分析,耗时情况为有道<百度<谷歌<谷歌2,准确度情况为百度>有道>谷歌>谷歌2。

速度先不管,对后面两个文本的翻译结果,谷歌的准确度是较低的,网页版的翻译结果为:

其实像有道或百度,5条字串耗时400毫秒左右,对于大量数据是不太可取的。如20万条数据,需要约4.4个小时。

所以,如果你知道python中有更好的翻译方法,欢迎分享。或许,这种大量数据的翻译操作用其他语言实现比较合适?

 

6. 改进 & 感谢

谷歌翻译,灿烂千阳建议日语->英语->中文的顺序,结果的准确度改进了很多(只是多了一步,速度下降了些);

耗时问题,codegay提出多线程方案,可以将速度提升几倍,取决于线程或服务器的个数;

具体改进的代码就不贴出来了,在原来的基础上做调整即可。

 

 

小讯
上一篇 2025-02-19 11:45
下一篇 2025-02-09 20:29

相关推荐

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/64825.html