怎么用python正则表达式去除中文文本多余空格

这篇文章主要介绍“怎么用python正则表达式去除中文文本多余空格”，在日常操作中，相信很多人在怎么用python正则表达式去除中文文本多余空格问题上存在疑惑，小编查阅了各式资料，整理出简单好用的操作方法，希望对大家解答”怎么用python正则表达式去除中文文本多余空格”的疑惑有所帮助！接下来，请跟着小编一起来学习吧！

创新互联建站是一家成都网站设计、成都网站制作，提供网页设计，网站设计，网站制作，建网站，按需搭建网站，网站开发公司，于2013年创立是互联行业建设者，服务者。以提升客户品牌价值为核心业务，全程参与项目的网站策划设计制作，前端开发，后台程序制作以及后期项目运营并提出专业建议和思路。

在pdf转为文本的时候，经常会多出空格，影响数据观感，因此需要去掉文本中多余的空格，而文本中的英文之间的正常空格需要保留，输入输出如下：

input：我今天赚了 10 个亿，老百姓very happy。

output：我今天赚了10个亿，老百姓very happy。

代码

def clean_space(text): """" 处理多余的空格 """ match_regex = re.compile(u'[\u4e00-\u9fa5。\.,，:：《》、\(\)（）]{1} +(?<![a-zA-Z])|\d+ +| +\d+|[a-z A-Z]+') should_replace_list = match_regex.findall(text) order_replace_list = sorted(should_replace_list,key=lambda i:len(i),reverse=True) for i in order_replace_list: if i == u' ': continue new_i = i.strip() text = text.replace(i,new_i) return text

python去除英文单词之间多余的空格

re.sub(" +", " ", s)

import re s = " info has been found (+/- 100 pages, and 4.5 mb of .pdf files) now i have to wait untill our team leader has processed it and learns html. "re.sub(" +", " ", s)

' '.join(s.split())

s = " info has been found (+/- 100 pages, and 4.5 mb of .pdf files) now i have to wait untill our team leader has processed it and learns html. "s = ' '.join(s.split())s

到此，关于“怎么用python正则表达式去除中文文本多余空格”的学习就结束了，希望能够解决大家的疑惑。理论与实践的搭配能更好的帮助大家学习，快去试试吧！若想继续学习更多相关知识，请继续关注创新互联网站，小编会继续努力为大家带来更多实用的文章！

分享名称：怎么用python正则表达式去除中文文本多余空格
文章URL：https://www.cdcxhl.com/article18/ieeddp.html

成都网站建设公司_创新互联，为您提供网站收录、建站公司、网站建设、网站制作、关键词优化、搜索引擎优化

声明：本网站发布的内容（图片、视频和文字）以用户投稿、用户转载内容为主，如果涉及侵权请尽快告知，我们将会在第一时间删除。文章观点不代表本网站立场，如需处理请联系客服。电话：028-86922220；邮箱：631063699@qq.com。内容未经允许不得转载，或转载时需注明来源：创新互联

猜你还喜欢下面的内容