str 的一些处理
- 去除字符串中的
\n
content = handle_text(page_content).replace('\n', '')
- 断句(正则表达式)
pattern = r"[。!?!?\n]" # 中英文 !?正则表达式
text_list = re.split(pattern, content)
\n
content = handle_text(page_content).replace('\n', '')
pattern = r"[。!?!?\n]" # 中英文 !?正则表达式
text_list = re.split(pattern, content)