RAG中late chunking的实验效果测试（续2）

针对前面RAG测试的长文本问题，我又增加了长文本测试（代码同前）：

context_test_documents = [
    # 文档1: AI发展史 (约2500 tokens)
    """
    人工智能的发展历程可以追溯到20世纪50年代。1950年，图灵提出著名的"图灵测试"，这被认为是人工智能研究的开端。
    在接下来的几十年里，AI经历了几次重大的发展浪潮和低谷期。第一次AI热潮出现在60年代，科学家们开发出能够解决数学问题
    和下棋的程序，让人们对AI充满期待。然而到了70年代，由于技术限制，许多承诺无法实现，导致第一次AI寒冬的到来。

    80年代，专家系统的出现带来了第二次AI热潮。这些系统能够模拟专家的决策过程，在医疗诊断、地质勘探等领域取得了实际
    应用。但是，专家系统的维护成本高昂，且难以适应新情况，最终导致了第二次AI寒冬。真正的突破出现在21世纪初，得益于
    三个关键因素：大数据的积累、计算能力的提升和深度学习算法的革新。

    2012年，深度学习在图像识别领域取得突破性进展，AlexNet在ImageNet竞赛中以显著优势获胜，掀起了深度学习革命。
    2016年，AlphaGo战胜李世石，展示了AI在复杂策略游戏中的潜力。2018年，BERT模型的发布revolutionized自然语言处理
    领域。2022年，ChatGPT的推出更是让大语言模型成为全球焦点。
    
    人工智能（AI）的发展历程充满了创新与挑战。以下是AI发展史的详细补充：
    20世纪50年代至70年代：起步与第一次寒冬
    1950年：阿兰·图灵提出“图灵测试”，定义了机器智能的基础。
    1956年：达特茅斯会议被认为是AI作为学科的正式诞生。约翰·麦卡锡等人在此提出了“人工智能”一词。
    1960年代：AI研究者开发了能够解决数学问题和下棋的程序，如Samuel的跳棋程序和Newell与Simon的逻辑理论家。
    1970年代：由于计算能力和数据的限制，AI未能实现许多预期，导致第一次AI寒冬的到来。
    1980年代：专家系统与第二次寒冬
    1980年代初：专家系统的兴起，这些系统能够在特定领域模拟专家的决策过程，在医疗、金融等领域得到了应用。
    1987年：由于专家系统的开发和维护成本高昂，且难以适应变化，AI领域经历了第二次寒冬。
    1990年代至21世纪初：复苏与新突破
    1990年代：AI技术在语音识别、机器翻译等领域取得进展。
    1997年：IBM的深蓝（Deep Blue）战胜国际象棋冠军加里·卡斯帕罗夫，标志着AI在博弈论中的重要里程碑。
    21世纪初：随着互联网的发展，大数据的积累为AI提供了丰富的训练数据。
    21世纪：深度学习的崛起
    2012年：AlexNet在ImageNet大赛中获胜，深度学习在图像识别领域取得突破。
    2014年：生成对抗网络（GANs）由Ian Goodfellow提出，推动了生成模型的发展。
    2016年：AlphaGo战胜李世石，展示了AI在复杂策略游戏中的潜力。
    2018年：BERT（Bidirectional Encoder Representations from Transformers）模型问世，革新了自然语言处理领域。
    2020年代：大型语言模型如GPT-3和ChatGPT的推出，使得AI在文本生成、对话系统等方面取得显著进展。
    未来展望
    持续改进：随着计算能力的提升和算法的优化，AI将在医疗、交通、教育等领域发挥更大作用。
    伦理与安全：AI的发展也带来了隐私、安全和伦理方面的挑战，需要全球合作来制定相关标准和法规。
    AI的发展史是技术进步与社会需求相互作用的结果，未来的AI将更加智能和人性化，为人类社会带来更多的便利和挑战。
    """,

    # 文档2: 气候变化研究 (约2500 tokens)
    """
    气候变化是21世纪人类面临的最大挑战之一。根据IPCC（政府间气候变化专门委员会）的研究，全球平均气温自工业革命以来
    已上升约1.1°C。这种升温趋势正在加速，如果不采取积极措施，到本世纪末温度可能上升超过3°C。

    温室气体排放是导致全球变暖的主要原因。自1750年以来，大气中二氧化碳浓度上升了约50%，从280ppm上升到现在的
    420ppm。甲烷等其他温室气体的浓度也在显著上升。这些气体会在大气层中形成温室效应，导致地球表面温度升高。

    气候变化带来的影响是全方位的：极端天气事件增加、海平面上升、生物多样性减少、农业生产受影响、疾病传播范围扩大等。
    例如，2023年全球经历了有记录以来最热的一年，多个地区遭遇破纪录的热浪。北极地区升温速度是全球平均水平的两倍，
    导致永久冻土融化，释放更多温室气体。
    
    气候变化的科学基础
    温室效应原理：

    温室气体（如二氧化碳、甲烷和氧化亚氮）吸收和再辐射地球表面的热量，形成温室效应。这种效应是维持地球适宜居住温度的关键，但人类活动导致的温室气体过量排放正在增强这一效应。
    气候模型：

    科学家使用复杂的气候模型来模拟和预测气候变化。这些模型考虑了大气、海洋、陆地和冰川之间的相互作用，帮助预测未来的气候模式。
    气候变化的影响
    生态系统和生物多样性：

    许多物种正面临栖息地丧失和生态系统变化的威胁。珊瑚礁白化、森林火灾频发等现象已显现出气候变化对自然环境的破坏性影响。
    农业和粮食安全：

    气温升高和降水模式的改变影响全球农业生产力，可能导致粮食短缺和价格波动，尤其是在依赖雨养农业的发展中国家。
    人类健康：

    气候变化加剧了热浪、洪水和干旱等极端天气事件的频率和强度，进而影响人类健康，增加了心血管疾病、呼吸道疾病以及传染病的风险。
    应对气候变化的策略
    减缓措施：

    通过减少温室气体排放来减缓气候变化。具体措施包括提高能源效率、发展可再生能源、改进工业流程以及推广碳捕集与封存技术。
    适应策略：

    适应气候变化带来的影响，如建设海堤以防止海平面上升、改良作物品种以应对气候变化带来的农业挑战。
    国际合作：

    气候变化是全球性问题，需要国际社会的共同努力。巴黎协定是全球应对气候变化的框架，各国承诺在温控目标下减少排放并增加对气候变化的适应能力。
    未来研究方向
    气候变化的社会经济影响：

    研究气候变化对经济增长、社会稳定和人类迁徙的潜在影响，以制定更有效的政策响应。
    技术创新：

    开发新技术以提高减排和适应能力，包括新型能源技术、气候工程以及智能农业技术。
    公众意识和教育：

    提高公众对气候变化的认识和理解，推动个人和社区采取积极行动。
    气候变化研究不断发展，需要科学家、政策制定者和公众的共同参与，以应对这一全球性挑战。通过多方面的努力，可以在减缓气候变化影响的同时，促进可持续发展。
    """,

    # 文档3: 量子计算发展 (约2500 tokens)
    """
    量子计算代表了计算技术的一次革命性飞跃。传统计算机使用比特（bit）存储和处理信息，而量子计算机使用量子比特
    （qubit）。量子比特可以同时处于多个状态的叠加态，这使得量子计算机在某些特定问题上具有指数级的优势。

    2019年，谷歌宣布实现"量子优越性"，其53量子比特的处理器用200秒完成了经典超级计算机需要1万年才能完成的计算。
    虽然这一说法存在争议，但它标志着量子计算研究的重要里程碑。IBM、微软、Intel等科技巨头也都投入大量资源开发量子
    计算技术。

    量子计算面临的主要挑战包括：量子退相干、量子纠错、扩展性等。量子态极其脆弱，外界干扰会导致信息丢失。目前的量子
    计算机需要在接近绝对零度的环境下运行，这极大限制了其实用性。科学家们正在研究各种解决方案，包括拓扑量子计算等新
    方法。
    
    量子计算的基本原理
    量子叠加和纠缠：

    量子比特（qubit）不仅可以表示0和1，还可以处于0和1的叠加态。这种特性使得量子计算机能够并行处理大量信息。
    量子纠缠是另一种独特的量子特性，使得两个或多个量子比特的状态相互依赖，即使它们相距甚远。
    量子门和电路：

    量子计算通过量子门（如Hadamard门、CNOT门等）对量子比特进行操作，这些门可以构建出复杂的量子电路来执行特定任务。
    量子计算的应用领域
    密码学：

    量子计算可以有效破解传统加密算法（如RSA），因为它能够快速分解大整数。Shor算法是一个典型例子。
    量子密钥分发（QKD）利用量子力学的原理提供安全的通信方式。
    优化问题：

    量子计算在解决组合优化问题上有潜在优势，如旅行商问题、供应链优化等。
    材料科学和化学：

    量子计算能够模拟复杂分子和化学反应，这在新材料和药物开发中具有重要意义。
    量子计算的挑战
    量子退相干：

    量子态容易受外界干扰而失去其相干性，导致计算错误。量子退相干是当前量子计算发展的主要障碍之一。
    量子纠错：

    由于量子态的脆弱性，量子纠错技术至关重要。当前的研究集中在开发更高效的纠错码和容错量子计算。
    扩展性和实用性：

    构建大规模、实用的量子计算机需要克服许多工程挑战，包括如何在合理的温度和环境下稳定运行。
    量子计算的未来发展
    拓扑量子计算：

    通过利用拓扑态的稳定性，拓扑量子计算有望提高量子比特的稳定性和纠错能力。
    量子计算与人工智能结合：

    量子计算可能在加速机器学习算法、优化神经网络架构等方面发挥作用。
    国际合作与标准化：

    量子计算的研究需要全球合作，以便制定标准和协议，推动技术的广泛应用。
    量子计算虽然仍处于早期发展阶段，但其潜力巨大，可能在未来彻底改变计算机科学及相关领域。持续的研究和技术突破将推动量子计算向实用化迈进。
    """
]

test_queries = [
    # AI相关查询
    "深度学习在AI发展史上的重要突破是什么",
    "AI经历了几次发展浪潮和低谷",
    "ChatGPT之前有哪些重要的AI里程碑",
    "为什么专家系统最终没有取得成功",
    "深度学习的发展历程？",
    "AI未来如何发展？",

    # 气候变化相关查询
    "全球变暖的主要原因是什么",
    "气候变化带来了哪些具体影响",
    "IPCC对未来气温变化的预测是什么",
    "北极地区的气候变化有什么特点",
    "气候变化对人类的经济有什么影响？",
    "有什么措施可以缓解气候变化吗？",

    # 量子计算相关查询
    "量子计算相对传统计算的优势在哪里",
    "量子优越性是什么意思",
    "量子计算目前面临哪些主要挑战",
    "主要的量子计算研究机构有哪些",
    "量子纠错是什么？",
    "量子门有哪些？",
]

结果如下：回答不好的我用颜色标记了下！！！

****************************************************************************************

===== 开始处理所有文档 =====

总共处理了 3 个文档，产生了 18 个文本片段

查询: 深度学习在AI发展史上的重要突破是什么
--------------------------------------------------

=== Late Chunking方法的top 3 结果 ===

相似度 0.6627 (文档 #2, 片段 #13):
内容: 量子计算代表了计算技术的一次革命性飞跃。传统计算机使用比特（bit）存储和处理信息，而量子计算机使用量子比特（qubit）。量子比特可以同时处于多个状态的叠加态，这使得量子计算机在某些特定问题上具有指数级的优势。2019年，谷歌宣布实现"量子优越性"，其53量子比特的处理器用200秒完成了经典超级计算机需要1万年才能完成的计算。虽然这一说法存在争议，但它标志着量子计算研究的重要里程碑。IBM、微软、Intel等科技巨头也都投入大量资源开发量子计算技术。

相似度 0.6550 (文档 #0, 片段 #1):
内容: 但是，专家系统的维护成本高昂，且难以适应新情况，最终导致了第二次AI寒冬。真正的突破出现在21世纪初，得益于三个关键因素：大数据的积累、计算能力的提升和深度学习算法的革新。2012年，深度学习在图像识别领域取得突破性进展，AlexNet在ImageNet竞赛中以显著优势获胜，掀起了深度学习革命。2016年，AlphaGo战胜李世石，展示了AI在复杂策略游戏中的潜力。2018年，BERT模型的发布revolutionized自然语言处理领域。

相似度 0.6440 (文档 #0, 片段 #5):
内容: 2018年：BERT（Bidirectional Encoder Representations from Transformers）模型问世，革新了自然语言处理领域。2020年代：大型语言模型如GPT-3和ChatGPT的推出，使得AI在文本生成、对话系统等方面取得显著进展。未来展望持续改进：随着计算能力的提升和算法的优化，AI将在医疗、交通、教育等领域发挥更大作用。伦理与安全：AI的发展也带来了隐私、安全和伦理方面的挑战，需要全球合作来制定相关标准和法规。

=== 传统Embedding方法的top 3 结果 ===

相似度 0.6930 (文档 #0, 片段 #1):
内容: 但是，专家系统的维护成本高昂，且难以适应新情况，最终导致了第二次AI寒冬。真正的突破出现在21世纪初，得益于三个关键因素：大数据的积累、计算能力的提升和深度学习算法的革新。2012年，深度学习在图像识别领域取得突破性进展，AlexNet在ImageNet竞赛中以显著优势获胜，掀起了深度学习革命。2016年，AlphaGo战胜李世石，展示了AI在复杂策略游戏中的潜力。2018年，BERT模型的发布revolutionized自然语言处理领域。

相似度 0.6789 (文档 #0, 片段 #2):
内容: 2022年，ChatGPT的推出更是让大语言模型成为全球焦点。人工智能（AI）的发展历程充满了创新与挑战。以下是AI发展史的详细补充： 20世纪50年代至70年代：起步与第一次寒冬 1950年：阿兰·图灵提出“图灵测试”，定义了机器智能的基础。1956年：达特茅斯会议被认为是AI作为学科的正式诞生。约翰·麦卡锡等人在此提出了“人工智能”一词。1960年代：AI研究者开发了能够解决数学问题和下棋的程序，如Samuel的跳棋程序和Newell与Simon的逻辑理论家。

相似度 0.6646 (文档 #0, 片段 #4):
内容: 1997年：IBM的深蓝（Deep Blue）战胜国际象棋冠军加里·卡斯帕罗夫，标志着AI在博弈论中的重要里程碑。21世纪初：随着互联网的发展，大数据的积累为AI提供了丰富的训练数据。21世纪：深度学习的崛起 2012年：AlexNet在ImageNet大赛中获胜，深度学习在图像识别领域取得突破。2014年：生成对抗网络（GANs）由Ian Goodfellow提出，推动了生成模型的发展。2016年：AlphaGo战胜李世石，展示了AI在复杂策略游戏中的潜力。

查询: AI经历了几次发展浪潮和低谷
--------------------------------------------------

=== Late Chunking方法的top 3 结果 ===

相似度 0.7904 (文档 #0, 片段 #0):
内容: 人工智能的发展历程可以追溯到20世纪50年代。1950年，图灵提出著名的"图灵测试"，这被认为是人工智能研究的开端。在接下来的几十年里，AI经历了几次重大的发展浪潮和低谷期。第一次AI热潮出现在60年代，科学家们开发出能够解决数学问题和下棋的程序，让人们对AI充满期待。然而到了70年代，由于技术限制，许多承诺无法实现，导致第一次AI寒冬的到来。80年代，专家系统的出现带来了第二次AI热潮。这些系统能够模拟专家的决策过程，在医疗诊断、地质勘探等领域取得了实际应用。

相似度 0.7871 (文档 #0, 片段 #3):
内容: 1970年代：由于计算能力和数据的限制，AI未能实现许多预期，导致第一次AI寒冬的到来。1980年代：专家系统与第二次寒冬 1980年代初：专家系统的兴起，这些系统能够在特定领域模拟专家的决策过程，在医疗、金融等领域得到了应用。1987年：由于专家系统的开发和维护成本高昂，且难以适应变化，AI领域经历了第二次寒冬。1990年代至21世纪初：复苏与新突破 1990年代：AI技术在语音识别、机器翻译等领域取得进展。

相似度 0.7670 (文档 #0, 片段 #1):
内容: 但是，专家系统的维护成本高昂，且难以适应新情况，最终导致了第二次AI寒冬。真正的突破出现在21世纪初，得益于三个关键因素：大数据的积累、计算能力的提升和深度学习算法的革新。2012年，深度学习在图像识别领域取得突破性进展，AlexNet在ImageNet竞赛中以显著优势获胜，掀起了深度学习革命。2016年，AlphaGo战胜李世石，展示了AI在复杂策略游戏中的潜力。2018年，BERT模型的发布revolutionized自然语言处理领域。

=== 传统Embedding方法的top 3 结果 ===

相似度 0.7825 (文档 #0, 片段 #0):
内容: 人工智能的发展历程可以追溯到20世纪50年代。1950年，图灵提出著名的"图灵测试"，这被认为是人工智能研究的开端。在接下来的几十年里，AI经历了几次重大的发展浪潮和低谷期。第一次AI热潮出现在60年代，科学家们开发出能够解决数学问题和下棋的程序，让人们对AI充满期待。然而到了70年代，由于技术限制，许多承诺无法实现，导致第一次AI寒冬的到来。80年代，专家系统的出现带来了第二次AI热潮。这些系统能够模拟专家的决策过程，在医疗诊断、地质勘探等领域取得了实际应用。

相似度 0.7405 (文档 #0, 片段 #3):
内容: 1970年代：由于计算能力和数据的限制，AI未能实现许多预期，导致第一次AI寒冬的到来。1980年代：专家系统与第二次寒冬 1980年代初：专家系统的兴起，这些系统能够在特定领域模拟专家的决策过程，在医疗、金融等领域得到了应用。1987年：由于专家系统的开发和维护成本高昂，且难以适应变化，AI领域经历了第二次寒冬。1990年代至21世纪初：复苏与新突破 1990年代：AI技术在语音识别、机器翻译等领域取得进展。

相似度 0.7128 (文档 #0, 片段 #4):
内容: 1997年：IBM的深蓝（Deep Blue）战胜国际象棋冠军加里·卡斯帕罗夫，标志着AI在博弈论中的重要里程碑。21世纪初：随着互联网的发展，大数据的积累为AI提供了丰富的训练数据。21世纪：深度学习的崛起 2012年：AlexNet在ImageNet大赛中获胜，深度学习在图像识别领域取得突破。2014年：生成对抗网络（GANs）由Ian Goodfellow提出，推动了生成模型的发展。2016年：AlphaGo战胜李世石，展示了AI在复杂策略游戏中的潜力。

查询: ChatGPT之前有哪些重要的AI里程碑
--------------------------------------------------

=== Late Chunking方法的top 3 结果 ===

相似度 0.7117 (文档 #2, 片段 #13):
内容: 量子计算代表了计算技术的一次革命性飞跃。传统计算机使用比特（bit）存储和处理信息，而量子计算机使用量子比特（qubit）。量子比特可以同时处于多个状态的叠加态，这使得量子计算机在某些特定问题上具有指数级的优势。2019年，谷歌宣布实现"量子优越性"，其53量子比特的处理器用200秒完成了经典超级计算机需要1万年才能完成的计算。虽然这一说法存在争议，但它标志着量子计算研究的重要里程碑。IBM、微软、Intel等科技巨头也都投入大量资源开发量子计算技术。

相似度 0.6917 (文档 #0, 片段 #5):
内容: 2018年：BERT（Bidirectional Encoder Representations from Transformers）模型问世，革新了自然语言处理领域。2020年代：大型语言模型如GPT-3和ChatGPT的推出，使得AI在文本生成、对话系统等方面取得显著进展。未来展望持续改进：随着计算能力的提升和算法的优化，AI将在医疗、交通、教育等领域发挥更大作用。伦理与安全：AI的发展也带来了隐私、安全和伦理方面的挑战，需要全球合作来制定相关标准和法规。

相似度 0.6904 (文档 #2, 片段 #14):
内容: 量子计算面临的主要挑战包括：量子退相干、量子纠错、扩展性等。量子态极其脆弱，外界干扰会导致信息丢失。目前的量子计算机需要在接近绝对零度的环境下运行，这极大限制了其实用性。科学家们正在研究各种解决方案，包括拓扑量子计算等新方法。量子计算的基本原理量子叠加和纠缠：量子比特（qubit）不仅可以表示0和1，还可以处于0和1的叠加态。这种特性使得量子计算机能够并行处理大量信息。量子纠缠是另一种独特的量子特性，使得两个或多个量子比特的状态相互依赖，即使它们相距甚远。

=== 传统Embedding方法的top 3 结果 ===

相似度 0.8142 (文档 #0, 片段 #2):
内容: 2022年，ChatGPT的推出更是让大语言模型成为全球焦点。人工智能（AI）的发展历程充满了创新与挑战。以下是AI发展史的详细补充： 20世纪50年代至70年代：起步与第一次寒冬 1950年：阿兰·图灵提出“图灵测试”，定义了机器智能的基础。1956年：达特茅斯会议被认为是AI作为学科的正式诞生。约翰·麦卡锡等人在此提出了“人工智能”一词。1960年代：AI研究者开发了能够解决数学问题和下棋的程序，如Samuel的跳棋程序和Newell与Simon的逻辑理论家。

相似度 0.7641 (文档 #0, 片段 #5):
内容: 2018年：BERT（Bidirectional Encoder Representations from Transformers）模型问世，革新了自然语言处理领域。2020年代：大型语言模型如GPT-3和ChatGPT的推出，使得AI在文本生成、对话系统等方面取得显著进展。未来展望持续改进：随着计算能力的提升和算法的优化，AI将在医疗、交通、教育等领域发挥更大作用。伦理与安全：AI的发展也带来了隐私、安全和伦理方面的挑战，需要全球合作来制定相关标准和法规。

相似度 0.6913 (文档 #0, 片段 #4):
内容: 1997年：IBM的深蓝（Deep Blue）战胜国际象棋冠军加里·卡斯帕罗夫，标志着AI在博弈论中的重要里程碑。21世纪初：随着互联网的发展，大数据的积累为AI提供了丰富的训练数据。21世纪：深度学习的崛起 2012年：AlexNet在ImageNet大赛中获胜，深度学习在图像识别领域取得突破。2014年：生成对抗网络（GANs）由Ian Goodfellow提出，推动了生成模型的发展。2016年：AlphaGo战胜李世石，展示了AI在复杂策略游戏中的潜力。

查询: 为什么专家系统最终没有取得成功
--------------------------------------------------

=== Late Chunking方法的top 3 结果 ===

相似度 0.4477 (文档 #0, 片段 #3):
内容: 1970年代：由于计算能力和数据的限制，AI未能实现许多预期，导致第一次AI寒冬的到来。1980年代：专家系统与第二次寒冬 1980年代初：专家系统的兴起，这些系统能够在特定领域模拟专家的决策过程，在医疗、金融等领域得到了应用。1987年：由于专家系统的开发和维护成本高昂，且难以适应变化，AI领域经历了第二次寒冬。1990年代至21世纪初：复苏与新突破 1990年代：AI技术在语音识别、机器翻译等领域取得进展。

相似度 0.4366 (文档 #2, 片段 #14):
内容: 量子计算面临的主要挑战包括：量子退相干、量子纠错、扩展性等。量子态极其脆弱，外界干扰会导致信息丢失。目前的量子计算机需要在接近绝对零度的环境下运行，这极大限制了其实用性。科学家们正在研究各种解决方案，包括拓扑量子计算等新方法。量子计算的基本原理量子叠加和纠缠：量子比特（qubit）不仅可以表示0和1，还可以处于0和1的叠加态。这种特性使得量子计算机能够并行处理大量信息。量子纠缠是另一种独特的量子特性，使得两个或多个量子比特的状态相互依赖，即使它们相距甚远。

相似度 0.4363 (文档 #0, 片段 #1):
内容: 但是，专家系统的维护成本高昂，且难以适应新情况，最终导致了第二次AI寒冬。真正的突破出现在21世纪初，得益于三个关键因素：大数据的积累、计算能力的提升和深度学习算法的革新。2012年，深度学习在图像识别领域取得突破性进展，AlexNet在ImageNet竞赛中以显著优势获胜，掀起了深度学习革命。2016年，AlphaGo战胜李世石，展示了AI在复杂策略游戏中的潜力。2018年，BERT模型的发布revolutionized自然语言处理领域。

=== 传统Embedding方法的top 3 结果 ===

相似度 0.5350 (文档 #0, 片段 #1):
内容: 但是，专家系统的维护成本高昂，且难以适应新情况，最终导致了第二次AI寒冬。真正的突破出现在21世纪初，得益于三个关键因素：大数据的积累、计算能力的提升和深度学习算法的革新。2012年，深度学习在图像识别领域取得突破性进展，AlexNet在ImageNet竞赛中以显著优势获胜，掀起了深度学习革命。2016年，AlphaGo战胜李世石，展示了AI在复杂策略游戏中的潜力。2018年，BERT模型的发布revolutionized自然语言处理领域。

相似度 0.5340 (文档 #0, 片段 #3):
内容: 1970年代：由于计算能力和数据的限制，AI未能实现许多预期，导致第一次AI寒冬的到来。1980年代：专家系统与第二次寒冬 1980年代初：专家系统的兴起，这些系统能够在特定领域模拟专家的决策过程，在医疗、金融等领域得到了应用。1987年：由于专家系统的开发和维护成本高昂，且难以适应变化，AI领域经历了第二次寒冬。1990年代至21世纪初：复苏与新突破 1990年代：AI技术在语音识别、机器翻译等领域取得进展。

相似度 0.5080 (文档 #0, 片段 #0):
内容: 人工智能的发展历程可以追溯到20世纪50年代。1950年，图灵提出著名的"图灵测试"，这被认为是人工智能研究的开端。在接下来的几十年里，AI经历了几次重大的发展浪潮和低谷期。第一次AI热潮出现在60年代，科学家们开发出能够解决数学问题和下棋的程序，让人们对AI充满期待。然而到了70年代，由于技术限制，许多承诺无法实现，导致第一次AI寒冬的到来。80年代，专家系统的出现带来了第二次AI热潮。这些系统能够模拟专家的决策过程，在医疗诊断、地质勘探等领域取得了实际应用。

查询: 深度学习的发展历程？
--------------------------------------------------

=== Late Chunking方法的top 3 结果 ===

相似度 0.6118 (文档 #0, 片段 #1):
内容: 但是，专家系统的维护成本高昂，且难以适应新情况，最终导致了第二次AI寒冬。真正的突破出现在21世纪初，得益于三个关键因素：大数据的积累、计算能力的提升和深度学习算法的革新。2012年，深度学习在图像识别领域取得突破性进展，AlexNet在ImageNet竞赛中以显著优势获胜，掀起了深度学习革命。2016年，AlphaGo战胜李世石，展示了AI在复杂策略游戏中的潜力。2018年，BERT模型的发布revolutionized自然语言处理领域。

相似度 0.5994 (文档 #0, 片段 #0):
内容: 人工智能的发展历程可以追溯到20世纪50年代。1950年，图灵提出著名的"图灵测试"，这被认为是人工智能研究的开端。在接下来的几十年里，AI经历了几次重大的发展浪潮和低谷期。第一次AI热潮出现在60年代，科学家们开发出能够解决数学问题和下棋的程序，让人们对AI充满期待。然而到了70年代，由于技术限制，许多承诺无法实现，导致第一次AI寒冬的到来。80年代，专家系统的出现带来了第二次AI热潮。这些系统能够模拟专家的决策过程，在医疗诊断、地质勘探等领域取得了实际应用。

相似度 0.5987 (文档 #0, 片段 #3):
内容: 1970年代：由于计算能力和数据的限制，AI未能实现许多预期，导致第一次AI寒冬的到来。1980年代：专家系统与第二次寒冬 1980年代初：专家系统的兴起，这些系统能够在特定领域模拟专家的决策过程，在医疗、金融等领域得到了应用。1987年：由于专家系统的开发和维护成本高昂，且难以适应变化，AI领域经历了第二次寒冬。1990年代至21世纪初：复苏与新突破 1990年代：AI技术在语音识别、机器翻译等领域取得进展。

=== 传统Embedding方法的top 3 结果 ===

相似度 0.6047 (文档 #0, 片段 #0):
内容: 人工智能的发展历程可以追溯到20世纪50年代。1950年，图灵提出著名的"图灵测试"，这被认为是人工智能研究的开端。在接下来的几十年里，AI经历了几次重大的发展浪潮和低谷期。第一次AI热潮出现在60年代，科学家们开发出能够解决数学问题和下棋的程序，让人们对AI充满期待。然而到了70年代，由于技术限制，许多承诺无法实现，导致第一次AI寒冬的到来。80年代，专家系统的出现带来了第二次AI热潮。这些系统能够模拟专家的决策过程，在医疗诊断、地质勘探等领域取得了实际应用。 ==》可以看到传统模型更加精准！

相似度 0.5808 (文档 #0, 片段 #2):
内容: 2022年，ChatGPT的推出更是让大语言模型成为全球焦点。人工智能（AI）的发展历程充满了创新与挑战。以下是AI发展史的详细补充： 20世纪50年代至70年代：起步与第一次寒冬 1950年：阿兰·图灵提出“图灵测试”，定义了机器智能的基础。1956年：达特茅斯会议被认为是AI作为学科的正式诞生。约翰·麦卡锡等人在此提出了“人工智能”一词。1960年代：AI研究者开发了能够解决数学问题和下棋的程序，如Samuel的跳棋程序和Newell与Simon的逻辑理论家。

相似度 0.5716 (文档 #0, 片段 #1):
内容: 但是，专家系统的维护成本高昂，且难以适应新情况，最终导致了第二次AI寒冬。真正的突破出现在21世纪初，得益于三个关键因素：大数据的积累、计算能力的提升和深度学习算法的革新。2012年，深度学习在图像识别领域取得突破性进展，AlexNet在ImageNet竞赛中以显著优势获胜，掀起了深度学习革命。2016年，AlphaGo战胜李世石，展示了AI在复杂策略游戏中的潜力。2018年，BERT模型的发布revolutionized自然语言处理领域。

。。。

查询: 气候变化对人类的经济有什么影响？
--------------------------------------------------

=== Late Chunking方法的top 3 结果 ===

相似度 0.6247 (文档 #1, 片段 #12):
内容: 通过多方面的努力，可以在减缓气候变化影响的同时，促进可持续发展。

相似度 0.6212 (文档 #1, 片段 #9):
内容: 气候模型：科学家使用复杂的气候模型来模拟和预测气候变化。这些模型考虑了大气、海洋、陆地和冰川之间的相互作用，帮助预测未来的气候模式。气候变化的影响生态系统和生物多样性：许多物种正面临栖息地丧失和生态系统变化的威胁。珊瑚礁白化、森林火灾频发等现象已显现出气候变化对自然环境的破坏性影响。农业和粮食安全：气温升高和降水模式的改变影响全球农业生产力，可能导致粮食短缺和价格波动，尤其是在依赖雨养农业的发展中国家。

相似度 0.6145 (文档 #1, 片段 #10):
内容: 人类健康：气候变化加剧了热浪、洪水和干旱等极端天气事件的频率和强度，进而影响人类健康，增加了心血管疾病、呼吸道疾病以及传染病的风险。应对气候变化的策略减缓措施：通过减少温室气体排放来减缓气候变化。具体措施包括提高能源效率、发展可再生能源、改进工业流程以及推广碳捕集与封存技术。适应策略：适应气候变化带来的影响，如建设海堤以防止海平面上升、改良作物品种以应对气候变化带来的农业挑战。国际合作：气候变化是全球性问题，需要国际社会的共同努力。

=== 传统Embedding方法的top 3 结果 ===

相似度 0.7966 (文档 #1, 片段 #8):
内容: 气候变化带来的影响是全方位的：极端天气事件增加、海平面上升、生物多样性减少、农业生产受影响、疾病传播范围扩大等。例如，2023年全球经历了有记录以来最热的一年，多个地区遭遇破纪录的热浪。北极地区升温速度是全球平均水平的两倍，导致永久冻土融化，释放更多温室气体。气候变化的科学基础温室效应原理：温室气体（如二氧化碳、甲烷和氧化亚氮）吸收和再辐射地球表面的热量，形成温室效应。这种效应是维持地球适宜居住温度的关键，但人类活动导致的温室气体过量排放正在增强这一效应。==》回答更加精准！

相似度 0.7838 (文档 #1, 片段 #9):
内容: 气候模型：科学家使用复杂的气候模型来模拟和预测气候变化。这些模型考虑了大气、海洋、陆地和冰川之间的相互作用，帮助预测未来的气候模式。气候变化的影响生态系统和生物多样性：许多物种正面临栖息地丧失和生态系统变化的威胁。珊瑚礁白化、森林火灾频发等现象已显现出气候变化对自然环境的破坏性影响。农业和粮食安全：气温升高和降水模式的改变影响全球农业生产力，可能导致粮食短缺和价格波动，尤其是在依赖雨养农业的发展中国家。

相似度 0.7433 (文档 #1, 片段 #10):
内容: 人类健康：气候变化加剧了热浪、洪水和干旱等极端天气事件的频率和强度，进而影响人类健康，增加了心血管疾病、呼吸道疾病以及传染病的风险。应对气候变化的策略减缓措施：通过减少温室气体排放来减缓气候变化。具体措施包括提高能源效率、发展可再生能源、改进工业流程以及推广碳捕集与封存技术。适应策略：适应气候变化带来的影响，如建设海堤以防止海平面上升、改良作物品种以应对气候变化带来的农业挑战。国际合作：气候变化是全球性问题，需要国际社会的共同努力。

查询: 量子计算相对传统计算的优势在哪里
--------------------------------------------------

=== Late Chunking方法的top 3 结果 ===

相似度 0.5997 (文档 #2, 片段 #17):
内容: 量子计算的未来发展拓扑量子计算：通过利用拓扑态的稳定性，拓扑量子计算有望提高量子比特的稳定性和纠错能力。量子计算与人工智能结合：量子计算可能在加速机器学习算法、优化神经网络架构等方面发挥作用。国际合作与标准化：量子计算的研究需要全球合作，以便制定标准和协议，推动技术的广泛应用。量子计算虽然仍处于早期发展阶段，但其潜力巨大，可能在未来彻底改变计算机科学及相关领域。持续的研究和技术突破将推动量子计算向实用化迈进。

相似度 0.5989 (文档 #2, 片段 #15):
内容: 量子门和电路：量子计算通过量子门（如Hadamard门、CNOT门等）对量子比特进行操作，这些门可以构建出复杂的量子电路来执行特定任务。量子计算的应用领域密码学：量子计算可以有效破解传统加密算法（如RSA），因为它能够快速分解大整数。Shor算法是一个典型例子。量子密钥分发（QKD）利用量子力学的原理提供安全的通信方式。优化问题：量子计算在解决组合优化问题上有潜在优势，如旅行商问题、供应链优化等。

相似度 0.5987 (文档 #2, 片段 #14):
内容: 量子计算面临的主要挑战包括：量子退相干、量子纠错、扩展性等。量子态极其脆弱，外界干扰会导致信息丢失。目前的量子计算机需要在接近绝对零度的环境下运行，这极大限制了其实用性。科学家们正在研究各种解决方案，包括拓扑量子计算等新方法。量子计算的基本原理量子叠加和纠缠：量子比特（qubit）不仅可以表示0和1，还可以处于0和1的叠加态。这种特性使得量子计算机能够并行处理大量信息。量子纠缠是另一种独特的量子特性，使得两个或多个量子比特的状态相互依赖，即使它们相距甚远。

=== 传统Embedding方法的top 3 结果 ===

相似度 0.7406 (文档 #2, 片段 #13):
内容: 量子计算代表了计算技术的一次革命性飞跃。传统计算机使用比特（bit）存储和处理信息，而量子计算机使用量子比特（qubit）。量子比特可以同时处于多个状态的叠加态，这使得量子计算机在某些特定问题上具有指数级的优势。2019年，谷歌宣布实现"量子优越性"，其53量子比特的处理器用200秒完成了经典超级计算机需要1万年才能完成的计算。虽然这一说法存在争议，但它标志着量子计算研究的重要里程碑。IBM、微软、Intel等科技巨头也都投入大量资源开发量子计算技术。

相似度 0.7265 (文档 #2, 片段 #15):
内容: 量子门和电路：量子计算通过量子门（如Hadamard门、CNOT门等）对量子比特进行操作，这些门可以构建出复杂的量子电路来执行特定任务。量子计算的应用领域密码学：量子计算可以有效破解传统加密算法（如RSA），因为它能够快速分解大整数。Shor算法是一个典型例子。量子密钥分发（QKD）利用量子力学的原理提供安全的通信方式。优化问题：量子计算在解决组合优化问题上有潜在优势，如旅行商问题、供应链优化等。

相似度 0.7235 (文档 #2, 片段 #17):
内容: 量子计算的未来发展拓扑量子计算：通过利用拓扑态的稳定性，拓扑量子计算有望提高量子比特的稳定性和纠错能力。量子计算与人工智能结合：量子计算可能在加速机器学习算法、优化神经网络架构等方面发挥作用。国际合作与标准化：量子计算的研究需要全球合作，以便制定标准和协议，推动技术的广泛应用。量子计算虽然仍处于早期发展阶段，但其潜力巨大，可能在未来彻底改变计算机科学及相关领域。持续的研究和技术突破将推动量子计算向实用化迈进。

查询: 量子优越性是什么意思
--------------------------------------------------

=== Late Chunking方法的top 3 结果 ===

相似度 0.4139 (文档 #2, 片段 #14):
内容: 量子计算面临的主要挑战包括：量子退相干、量子纠错、扩展性等。量子态极其脆弱，外界干扰会导致信息丢失。目前的量子计算机需要在接近绝对零度的环境下运行，这极大限制了其实用性。科学家们正在研究各种解决方案，包括拓扑量子计算等新方法。量子计算的基本原理量子叠加和纠缠：量子比特（qubit）不仅可以表示0和1，还可以处于0和1的叠加态。这种特性使得量子计算机能够并行处理大量信息。量子纠缠是另一种独特的量子特性，使得两个或多个量子比特的状态相互依赖，即使它们相距甚远。

相似度 0.4072 (文档 #2, 片段 #13):
内容: 量子计算代表了计算技术的一次革命性飞跃。传统计算机使用比特（bit）存储和处理信息，而量子计算机使用量子比特（qubit）。量子比特可以同时处于多个状态的叠加态，这使得量子计算机在某些特定问题上具有指数级的优势。2019年，谷歌宣布实现"量子优越性"，其53量子比特的处理器用200秒完成了经典超级计算机需要1万年才能完成的计算。虽然这一说法存在争议，但它标志着量子计算研究的重要里程碑。IBM、微软、Intel等科技巨头也都投入大量资源开发量子计算技术。

相似度 0.3967 (文档 #2, 片段 #17):
内容: 量子计算的未来发展拓扑量子计算：通过利用拓扑态的稳定性，拓扑量子计算有望提高量子比特的稳定性和纠错能力。量子计算与人工智能结合：量子计算可能在加速机器学习算法、优化神经网络架构等方面发挥作用。国际合作与标准化：量子计算的研究需要全球合作，以便制定标准和协议，推动技术的广泛应用。量子计算虽然仍处于早期发展阶段，但其潜力巨大，可能在未来彻底改变计算机科学及相关领域。持续的研究和技术突破将推动量子计算向实用化迈进。

=== 传统Embedding方法的top 3 结果 ===

相似度 0.6484 (文档 #2, 片段 #13):
内容: 量子计算代表了计算技术的一次革命性飞跃。传统计算机使用比特（bit）存储和处理信息，而量子计算机使用量子比特（qubit）。量子比特可以同时处于多个状态的叠加态，这使得量子计算机在某些特定问题上具有指数级的优势。2019年，谷歌宣布实现"量子优越性"，其53量子比特的处理器用200秒完成了经典超级计算机需要1万年才能完成的计算。虽然这一说法存在争议，但它标志着量子计算研究的重要里程碑。IBM、微软、Intel等科技巨头也都投入大量资源开发量子计算技术。

相似度 0.5266 (文档 #2, 片段 #14):
内容: 量子计算面临的主要挑战包括：量子退相干、量子纠错、扩展性等。量子态极其脆弱，外界干扰会导致信息丢失。目前的量子计算机需要在接近绝对零度的环境下运行，这极大限制了其实用性。科学家们正在研究各种解决方案，包括拓扑量子计算等新方法。量子计算的基本原理量子叠加和纠缠：量子比特（qubit）不仅可以表示0和1，还可以处于0和1的叠加态。这种特性使得量子计算机能够并行处理大量信息。量子纠缠是另一种独特的量子特性，使得两个或多个量子比特的状态相互依赖，即使它们相距甚远。

相似度 0.5183 (文档 #2, 片段 #15):
内容: 量子门和电路：量子计算通过量子门（如Hadamard门、CNOT门等）对量子比特进行操作，这些门可以构建出复杂的量子电路来执行特定任务。量子计算的应用领域密码学：量子计算可以有效破解传统加密算法（如RSA），因为它能够快速分解大整数。Shor算法是一个典型例子。量子密钥分发（QKD）利用量子力学的原理提供安全的通信方式。优化问题：量子计算在解决组合优化问题上有潜在优势，如旅行商问题、供应链优化等。

...

直观的感受是传统方法更不容易出错！late chunking的优势没有多少感觉。

如果是传统bge模型做embedding RAG检索，试了下！看起来，bge的结果也还不错！资源占用方面，我下载jina v3的embedding版本到本地，cpu占用和内存，和bge差不多。

不折腾了，暂时还是用bge进行RAG检索吧！！！

posted @ 2024-11-20 15:52 bonelee 阅读(172) 评论(0) 收藏举报

刷新页面返回顶部

将者，智、信、仁、勇、严也。

Hi，我是李智华，华为-安全AI算法专家，欢迎来到安全攻防对抗的有趣世界。

RAG中late chunking的实验效果测试（续2）

公告