import copy
import re # 导入正则库
from elasticsearch import Elasticsearch, helpers
es = Elasticsearch(
"http://localhost:1200",
basic_auth=("elastic", "infini_rag_flow"),
verify_certs=False,
timeout=600
)
def create_table_bak_index(index_table_name:str):
mapping = {
"settings":{
"analysis":{
"analyzer":{
"my_whitespace_analyzer":{
"tokenizer":"whitespace"
}
}
}
},
"mappings": {
"properties": {
"full_text": {
"type": "text",
"store": True,
"analyzer": "my_whitespace_analyzer",
},
"html": {"type": "keyword","index":False} # "index":False 不参与搜索
}
}
}
if es.indices.exists(index=index_table_name):
es.indices.delete(index=index_table_name)
es.indices.create(index=index_table_name, body=mapping)
print(f"Index `{index_table_name}` created.")
def bulk_index_tables_bak(index_table_name,table_docs):
actions = [{"_index": index_table_name, "_source": doc} for doc in table_docs]
try:
helpers.bulk(es, actions)
es.indices.refresh(index=index_table_name) # 强制刷新索引
except Exception as e:
print(f"批量插入失败: {e}")
print(f"Indexed {len(actions)} documents.")
def search_table_bak(index_table_name,query_terms):
body = {
"size":1,
"query": {
"match_phrase": {
"full_text": {
"query": query_terms,
"slop": 10 #允许词项之间的最大“跳跃”距离
}
}
}
}
print("查询条件:", body)
res = es.search(index=index_table_name, body=body)
print("返回结果:", res)
hits = res["hits"]["hits"]
return [
{
"html": hit["_source"]["html"],
"score": hit["_score"]
}
for hit in hits
]
# 使用示例
if __name__ == "__main__":
index_name="tables1"
create_table_bak_index(index_name)
docs = [
"<table><tr><td>未出席董事职务 </td><td>未出席董事姓名 </td><td>未出席董事的原因说明 </td><td>被委托人姓名 </td></tr><tr><td>独立董事 </td><td>薛澜 </td><td>工作原因 </td><td>耿玮 </td></tr></table> ",
"<table><tr><td>第一节 第二节 第三节 第四节 第五节 第六节 第七节 第八节 第九节 第十节 </td><td>释义 ........................................................... 6 公司简介和主要财务指标 .......................................... 9 管理层讨论与分析 ............................................... 13 公司治理 ...................................................... 33 环境与社会责任................................................. 53 重要事项 ...................................................... 55 股份变动及股东情况 ............................................. 61 优先股相关情况................................................. 67 债券相关情况 .................................................. 67 财务报告 ...................................................... 68 </td></tr></table> ",
"<table><tr><td>备查文件目录 </td><td>载有董事长刘积仁签名和公司盖章的2023 年年度报告文本; </td></tr><tr><td>备查文件目录 </td><td>载有董事长刘积仁、高级副总裁兼首席财务官张晓鸥、会计机构负责人(会计主管人员)宋林晏签名并盖章的财务报告文本; </td></tr><tr><td>备查文件目录 </td><td>载有会计师事务所盖章、注册会计师签名并盖章的审计报告原件。 </td></tr></table> ",
"<table><tr><td colspan='3'>常用词语释义 </td></tr><tr><td>中国证监会 </td><td>指 </td><td>中国证券监督管理委员会 </td></tr><tr><td>证券交易所 </td><td>指 </td><td>上海证券交易所 </td></tr><tr><td>东软、公司、母公司 </td><td>指 </td><td>东软集团股份有限公司 </td></tr><tr><td>集团 </td><td>指 </td><td>东软集团股份有限公司及其分子公司 </td></tr><tr><td>会计师事务所 </td><td>指 </td><td>立信会计师事务所(特殊普通合伙) </td></tr><tr><td>报告期 </td><td>指 </td><td>2023 年度,即2023 年1 月1 日至2023 年12 月31 日 </td></tr><tr><td>元、万元、亿元 </td><td>指 </td><td>人民币元、人民币万元、人民币亿元 </td></tr><tr><td>AI </td><td>指 </td><td>Artificial Intelligence,即人工智能,是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学 </td></tr><tr><td>数字人 </td><td>指 </td><td>基于CG(Computer Graphics,计算机图形)技术与人工智能技术打造出的数字化虚拟人物 </td></tr><tr><td>大数据 </td><td>指 </td><td>一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征 </td></tr><tr><td>云计算 </td><td>指 </td><td>一种通过通信网络以服务的方式提供动态可伸缩的虚拟化的资源的计算模式 </td></tr><tr><td>区块链 </td><td>指 </td><td>本质上是一个去中心化的数据库,通过去中心化和去信任的方式集体维护一个可靠数据库的技术方案 </td></tr><tr><td>物联网 </td><td>指 </td><td>通过感知设备,按照约定协议,连接物、人、系统和信息资源,实现对物理和虚拟世界的信息进行处理并做出反应的智能服务系统 </td></tr><tr><td>5G </td><td>指 </td><td>Fifth-Generation,即第五代移动通信技术 </td></tr><tr><td>数据要素 </td><td>指 </td><td>参与到社会生产经营活动、为使用者或所有者带来经济效益、以电子方式记录的数据资源 </td></tr><tr><td>数据中台 </td><td>指 </td><td>是依据企业特有的业务模式和组织架构,通过有形的产品和实施方法论支撑,构建一套持续不断把数据变成资产并服务于业务的机制 </td></tr><tr><td>数字孪生 </td><td>指 </td><td>充分利用物理模型、传感器更新、运行历史等数据,集成多学科、多物理量、多尺度、多概率的仿真过程,在虚拟空间中完成映射,从而反映相对应的实体装备的全生命周期过程 </td></tr><tr><td>云原生 </td><td>指 </td><td>基于分布部署和统一运管的分布式云,以容器、微服务、DevOps 等技术为基础建立的一套云技术产品体系 </td></tr><tr><td>SaaS </td><td>指 </td><td>Software as a Service,软件即服务,指通过网络提供软件服务,是云计算模式下的应用软件服务 </td></tr><tr><td>PaaS </td><td>指 </td><td>Platform as a Service,平台即服务,指把服务器平台作为一种服务提供的商业模式 </td></tr><tr><td>DICT </td><td>指 </td><td>在大数据时代DT(Data Technology,数据技术)与IT(信息业)、CT(通信业)的深度融合,即在简单信息化的基础上,实现向大数据、云服务的智能信息化发展,创造更多融合性的智能化应用 </td></tr><tr><td>Tier1 </td><td>指 </td><td>即车厂一级供应商,指产品直接供应给车厂的汽车部件供应商 </td></tr><tr><td>Tier2 </td><td>指 </td><td>即车厂二级供应商,指产品供应给Tier1 的汽车部件供应商 </td></tr><tr><td>E/E 架构 </td><td>指 </td><td>Electrical/Electronic Architecture,即汽车电子电气架构,集合汽车的电子电气系统原理设计、中央电器盒的设计、连接器的设计、电子电气分配系统等设计为一体的整车电子电气解决方案的概念 </td></tr></table> ",
"<table><tr><td>SOA </td><td>指 </td><td>Service-Oriented Architecture,即面向服务的架构,它将应用程序的不同功能单元进行拆分,并通过服务之间定义良好的接口和协议联系起来,这些接口独立于实现服务的硬件平台、操作系统和编程语言 </td></tr><tr><td>OTA </td><td>指 </td><td>Over-the-Air Technology,即空中下载技术或空中升级技术,是通过移动通信的空中接口对终端设备中的数据及应用进行远程管理的技术 </td></tr><tr><td>V2X </td><td>指 </td><td>Vehicle to everything,即车对外界的信息交换,也称为车路协同,包含:V2V(Vehicle to Vehicle),车与车的信息交换;V2I(Vehicle to Infrastructure),车与基础建设(路)的信息交换;V2P(Vehicle to Pedestrian),车与行人的信息交换;V2N(Vehicle to Network),车与网络(服务平台)的信息交换 </td></tr><tr><td>智能座舱 </td><td>指 </td><td>是指搭载多屏、联网、智能语音交互以及丰富的联网内容、服务的车载产品 </td></tr><tr><td>T-BOX </td><td>指 </td><td>Telematics BOX,指车联网系统中的车载智能互联终端,直接与汽车CAN总线通信,用于实现和后台系统/手机APP 的车辆信息显示与远程控制 </td></tr><tr><td>5G T-BOX </td><td>指 </td><td>在5G 能力加持下的T-Box </td></tr><tr><td>5G V2X BOX </td><td>指 </td><td>基于5G 高速率、高带宽、低延时的特性,集成C-V2X、千兆以太网、WiFi6、BLE5.1 等功能的T-Box </td></tr><tr><td>IVI </td><td>指 </td><td>In-Vehicle Infotainment,即车载信息娱乐系统 </td></tr><tr><td>AR-HUD </td><td>指 </td><td>Augmented Reality Head Up Display,即增强现实型抬头显示系统 </td></tr><tr><td>EV </td><td>指 </td><td>Electric Vehicle,即纯电动汽车 </td></tr><tr><td>NeuSAR </td><td>指 </td><td>东软睿驰自主研发的一款汽车操作系统平台,兼容最新版AUTOSAR 标准,既支持传统的ECU 开发,同时又对基于域控制器和新E/E 架构的软件开发提供丰富的基础软件、中间件和开发工具。广泛应用在新一代架构下的自动驾驶、底动力、车身控制等域控制系统 </td></tr><tr><td>ADAS </td><td>指 </td><td>Advanced Driver Assistance Systems,即高级驾驶辅助系统,为自动化、适应及增强车辆系统以提高行车安全及性能而开发的电子系统 </td></tr><tr><td>HIS </td><td>指 </td><td>Hospital Information System,即医院信息系统 </td></tr><tr><td>PACS </td><td>指 </td><td>Picture Archiving and Communication System,即智慧医学影像信息系统 </td></tr><tr><td>EMR </td><td>指 </td><td>Electronic Medical Record,即电子病历 </td></tr><tr><td>CDSS </td><td>指 </td><td>Clinical Decision Support System,即临床决策支持系统 </td></tr><tr><td>LIS </td><td>指 </td><td>Laboratory Information Management System,即智慧实验室信息系统 </td></tr><tr><td>县域医共体 </td><td>指 </td><td>以县级医院为龙头、乡镇卫生院为枢纽、村卫生室为基础,县乡村三级医疗卫生机构分工协作、三级联动的县域医疗服务体系 </td></tr><tr><td>紧密型县域医共体 </td><td>指 </td><td>县乡村医疗服务一体化管理的新型医疗卫生组织与服务实现形式,是以县级具备条件的公立医院为牵头单位,整合县域内医疗卫生服务资源,组建医疗健康服务集团,实行行政、人力资源、业务、财务、绩效、药品耗材、信息化“七统一”管理,实现管理统一、服务同质、责任共担、利益共享 </td></tr><tr><td>MDaaS </td><td>指 </td><td>Medical Devices & Data as a Service,医疗设备和数据即服务,东软医疗是中国最早搭建MDaaS 平台的医学影像设备公司之一 </td></tr><tr><td>DRG </td><td>指 </td><td>Diagnosis Related Groups,即疾病诊断相关分组 </td></tr><tr><td>SaCa </td><td>指 </td><td>云应用平台,支撑从端到云的统一构建高效而安全的应用。基于大数据、云计算、人工智能、区块链等技术,打造针对云原生的数据中台、云管理平台、智能运维、低代码智能填报、区块链应用平台等多个产品,构建从敏捷开发、数据管理、智能运维为核心的数字底座。 </td></tr><tr><td>UniEAP </td><td>指 </td><td>业务基础平台,包含开发工具、技术框架、通用技术组件和软件开发方法学,提供从需求、设计、开发、测试、部署到运维的应用全生命周期服务,支撑IT 应用的敏捷构建 </td></tr></table> ",
"<table><tr><td>RealSight </td><td>指 </td><td>建立在东软SaCa 与UniEAP 产品组合基础上的企业级大数据高级分析应用平台,围绕客户智能、IoT 智能与运营智能领域,将大数据高级分析技术、业务数据与领域知识深度融合,形成系列应用产品组合 </td></tr><tr><td>东软日本 </td><td>指 </td><td>东软(日本)有限公司 </td></tr><tr><td>东软欧洲 </td><td>指 </td><td>东软(欧洲)有限公司 </td></tr><tr><td>东软美国 </td><td>指 </td><td>东软科技有限公司 </td></tr><tr><td>东软香港 </td><td>指 </td><td>东软(香港)有限公司 </td></tr><tr><td>东软医疗 </td><td>指 </td><td>东软医疗系统股份有限公司 </td></tr><tr><td>熙康 </td><td>指 </td><td>东软熙康控股有限公司,于2023 年9 月28 日在香港联合交易所主板挂牌上市,股份代号:9686.HK </td></tr><tr><td>望海 </td><td>指 </td><td>望海康信(北京)科技股份公司 </td></tr><tr><td>东软睿驰 </td><td>指 </td><td>东软睿驰汽车技术(上海)有限公司 </td></tr><tr><td>融盛保险 </td><td>指 </td><td>融盛财产保险股份有限公司 </td></tr></table> ",
"<table><tr><td>公司的中文名称 </td></tr><tr><td>公司的中文简称 </td></tr><tr><td>公司的外文名称 </td></tr><tr><td>公司的外文名称缩写 </td></tr><tr><td>公司的法定代表人 </td></tr></table> ",
"<table><tr><td>东软集团股份有限公司</td></tr><tr><td>东软集团 </td></tr><tr><td>Neusoft Corporation </td></tr><tr><td>Neusoft </td></tr><tr><td>刘积仁 </td></tr></table> ",
"<table><tr><td></td><td>董事会秘书</td><td>证券事务代表 </td></tr><tr><td>姓名 </td><td>王楠 </td><td>赵昕 </td></tr><tr><td>联系地址 </td><td colspan='2'>沈阳市浑南新区新秀街2 号东软软件园 </td></tr><tr><td>电话 </td><td colspan='2'>024-83662115 </td></tr><tr><td>传真 </td><td colspan='2'>024-23783375 </td></tr><tr><td>电子信箱 </td><td colspan='2'>investor@neusoft.com </td></tr></table> ",
"<table><tr><td>公司注册地址 </td></tr><tr><td>公司注册地址的历史变更情况 </td></tr><tr><td>公司办公地址 </td></tr><tr><td>公司办公地址的邮政编码 </td></tr><tr><td>公司网址 </td></tr><tr><td>电子信箱 </td></tr></table> ",
"<table><tr><td>沈阳市浑南新区新秀街2 号 </td></tr><tr><td>无 </td></tr><tr><td>沈阳市浑南新区新秀街2 号东软软件园 </td></tr><tr><td>110179 </td></tr><tr><td>http://www.neusoft.com </td></tr><tr><td>investor@neusoft.com </td></tr></table> ",
"<table><tr><td>公司披露年度报告的媒体名称及网址 </td><td>《中国证券报》《上海证券报》 </td></tr><tr><td>公司披露年度报告的证券交易所网址 </td><td>http://www.sse.com.cn </td></tr><tr><td>公司年度报告备置地点 </td><td>公司董事会办公室 </td></tr></table> ",
"<table><tr><td colspan='5'>公司股票简况 </td></tr><tr><td>股票种类 </td><td>股票上市交易所 </td><td>股票简称 </td><td>股票代码 </td><td>变更前股票简称 </td></tr><tr><td>A股 </td><td>上海证券交易所 </td><td>东软集团 </td><td>600718 </td><td>东软股份、东大阿派 </td></tr></table> ",
"<table><tr><td>公司聘请的会计师事务所 (境内) </td><td>名称 </td><td>立信会计师事务所(特殊普通合伙) </td></tr><tr><td>公司聘请的会计师事务所 (境内) </td><td>办公地址 </td><td>上海市南京东路61 号新黄浦金融大厦4 楼 </td></tr><tr><td>公司聘请的会计师事务所 (境内) </td><td>签字会计师姓名 </td><td>李晨、叶帅 </td></tr></table> ",
"<table><tr><td>主要会计数据 </td><td>2023年 </td><td colspan='2'>2022年 </td><td>本期比上年同期增减(%) </td><td colspan='2'>2021年 </td></tr><tr><td>主要会计数据 </td><td>2023年 </td><td>调整后 </td><td>调整前 </td><td>本期比上年同期增减(%) </td><td>调整后 </td><td>调整前 </td></tr><tr><td>营业收入</td><td>10,543,671,776 </td><td colspan='2'>9,465,800,628 </td><td>11.39 </td><td colspan='2'>8,734,802,910 </td></tr><tr><td>扣除与主营业务无关的业务收入和不具备商业实质的收入后的营业收入 </td><td>10,540,154,457 </td><td colspan='2'>9,451,919,325 </td><td>11.51 </td><td colspan='2'>8,712,104,997 </td></tr><tr><td>归属于上市公司股东的净利润 </td><td>73,912,538 </td><td colspan='2'>-342,884,715 </td><td>不适用 </td><td colspan='2'>1,173,245,291 </td></tr><tr><td>归属于上市公司股东的扣除非经常性损益的净利润 </td><td>-147,270,632 </td><td>-418,558,945 </td><td>-529,885,952 </td><td>不适用 </td><td>87,190,430 </td><td>35,083,663 </td></tr><tr><td>经营活动产生的现金流量净额 </td><td>798,265,849 </td><td colspan='2'>672,577,776 </td><td>18.69 </td><td colspan='2'>782,735,311 </td></tr><tr><td>主要会计数据 </td><td>2023年末 </td><td colspan='2'>2022年末 </td><td>本期末比上年同期末增减(%) </td><td colspan='2'>2021年末 </td></tr><tr><td>主要会计数据 </td><td>2023年末 </td><td>调整后 </td><td>调整前 </td><td>本期末比上年同期末增减(%) </td><td>调整后 </td><td>调整前 </td></tr><tr><td>归属于上市公司股东的净资产 </td><td>9,461,616,744 </td><td colspan='2'>9,237,841,662 </td><td>2.42 </td><td colspan='2'>9,579,208,066 </td></tr><tr><td>总资产 </td><td>18,991,166,940 </td><td colspan='2'>18,872,131,465 </td><td>0.63 </td><td colspan='2'>18,305,146,392 </td></tr></table> ",
"<table><tr><td>主要财务指标 </td><td>2023年 </td><td colspan='2'>2022年 </td><td>本期比上年同期增减 (%) </td><td colspan='2'>2021年 </td></tr><tr><td>主要财务指标 </td><td>2023年 </td><td>调整后 </td><td>调整前 </td><td>本期比上年同期增减 (%) </td><td>调整后 </td><td>调整前 </td></tr><tr><td>基本每股收益(元/股) </td><td>0.06 </td><td colspan='2'>-0.29 </td><td>不适用 </td><td colspan='2'>0.98 </td></tr><tr><td>稀释每股收益(元/股) </td><td>0.06 </td><td colspan='2'>-0.29 </td><td>不适用 </td><td colspan='2'>0.97 </td></tr><tr><td>扣除非经常性损益后的基本每股收益(元/股) </td><td>-0.12 </td><td>-0.35 </td><td>-0.44 </td><td>不适用 </td><td>0.07 </td><td>0.03 </td></tr><tr><td>加权平均净资产收益率(%) </td><td>0.79 </td><td colspan='2'>-3.62 </td><td>增加4.41个百分点 </td><td colspan='2'>13.15 </td></tr><tr><td>扣除非经常性损益后的加权平均净资产收益率(%) </td><td>-1.58 </td><td>-4.42 </td><td>-5.60 </td><td>增加2.84个百分点 </td><td>0.98 </td><td>0.39 </td></tr></table> ",
"<table><tr><td>主要财务数据 </td><td>第一季度 (1-3 月份) </td><td>第二季度 (4-6 月份) </td><td>第三季度 (7-9 月份) </td><td>第四季度 (10-12 月份) </td></tr><tr><td>营业收入 </td><td>1,656,477,579 </td><td>2,233,485,718 </td><td>2,372,675,840 </td><td>4,281,032,639 </td></tr><tr><td>归属于上市公司股东的净利润 </td><td>5,058,913 </td><td>90,005,477 </td><td>39,695,833 </td><td>-60,847,685 </td></tr><tr><td>归属于上市公司股东的扣除非经常性损益后的净利润 </td><td>-9,062,191 </td><td>40,358,476 </td><td>20,258,134 </td><td>-198,825,051 </td></tr><tr><td>经营活动产生的现金流量净额 </td><td>-545,617,344 </td><td>23,928,274 </td><td>127,357,325 </td><td>1,192,597,594 </td></tr></table> ",
"<table><tr><td>非经常性损益项目 </td><td>2023 年金额 </td><td>附注(如适用) </td><td>2022 年金额 </td><td>2021 年金额 </td></tr><tr><td>非流动性资产处置损益,包括已计提资产减值准备的冲销部分 </td><td>-475,680 </td><td></td><td>-2,387,119 </td><td>193,914,326 </td></tr><tr><td>计入当期损益的政府补助,但与公司正常经营业务密切相关、符合国家政策规定、按照确定的标准享有、对公司损益产生持续影响的政府补助除外 </td><td>101,453,074 </td><td>主要为计入损益的科研项目等政府补助 </td><td>71,542,003 </td><td>96,986,962 </td></tr><tr><td>除同公司正常经营业务相关的有效套期保值业务外,非金融企业持有金融资产和金融负债产生的公允价值变动损益以及处置金融资产和金融负债产生的损益 </td><td>-6,415,617 </td><td>主要为交易性金融资产和交易性金融负债的公允价值变动损益及相关投资收益 </td><td>13,569,136 </td><td>9,399,797 </td></tr><tr><td>除上述各项之外的其他营业外收入和支出 </td><td>1,446,641 </td><td></td><td>-4,754,478 </td><td>-999,670 </td></tr><tr><td>联营公司重要的非经常性损益影响</td><td>124,979,192 </td><td></td><td>4,344,887 </td><td>38,857,836 </td></tr><tr><td>其他符合非经常性损益定义的损益项目 </td><td>274,032 </td><td></td><td>521,994 </td><td>879,537,676 </td></tr><tr><td>减:所得税影响额 </td><td>417,333 </td><td></td><td>4,090,026 </td><td>111,789,018 </td></tr><tr><td>少数股东权益影响额(税后)</td><td>-338,861 </td><td></td><td>3,072,167 </td><td>19,853,048 </td></tr><tr><td>合计 </td><td>221,183,170 </td><td></td><td>75,674,230 </td><td>1,086,054,861 </td></tr></table> ",
"<table><tr><td>项目名称 </td><td>期初余额 </td><td>期末余额 </td><td>当期变动 </td><td>对当期利润的影响金额 </td></tr><tr><td>交易性金融资产 </td><td>765,132,408 </td><td>1,141,156,047 </td><td>376,023,639 </td><td>4,277,198 </td></tr><tr><td>交易性金融负债 </td><td colspan='3'></td><td>-9,896,926 </td></tr><tr><td>其他权益工具投资 </td><td>44,874,262 </td><td>37,417,609 </td><td>-7,456,653 </td><td>496,027 </td></tr><tr><td>应收款项融资 </td><td>186,299,967 </td><td>301,470,932 </td><td>115,170,965 </td><td>-1,265,964 </td></tr><tr><td>合计 </td><td>996,306,637 </td><td>1,480,044,588 </td><td>483,737,951 </td><td>-6,389,665 </td></tr></table>"]
if docs is not None:
items=[]
i=1
for doc in docs:
print(doc)
text= str(copy.copy(doc))
full_text = re.sub(r"</?(table|td|caption|tr|th)( [^<>]{0,12})?>", " ", text) # 移除表格相关的 HTML 标签
item = {"full_text": full_text, "html":doc}
items.append(item)
i = i + 1
if i%5 == 0:
print(f"i={i}执行插入")
bulk_index_tables_bak(index_name,items)
items=[]
results = search_table_bak(index_name,"2022年 本期比上年同期增减(%) 2021年 主要会计数据 2023年 调整后 调整前 本期比上年同期增减(%) 调整后 调整前 营业收入 10,543,671,776")
for r in results:
print(f"Score: {r['score']}\nHTML:\n{r['html']}\n")