查看完整版本: [-- 优化LangChain框架中的文档分割方法:方法与应用 --]

愚愚学园 -> 研究生之家 -> 优化LangChain框架中的文档分割方法:方法与应用 [打印本页] 登录 -> 注册 -> 回复主题 -> 发表主题

果汁abc 2024-01-05 10:13

1 论文标题:优化LangChain框架中的文档分割方法:方法与应用

2 作者信息:蔡运生, 穆欣宇, 董 浩, 陈国铨, 孙 达:北京信息科技大学计算机学院,北京

3 出处和链接:蔡运生, 穆欣宇, 董浩, 陈国铨, 孙达. 优化LangChain框架中的文档分割方法:方法与应用[J]. 计算机科学与应用, 2023, 13(12): 2575-2586. https://doi.org/10.12677/CSA.2023.1312256

4 摘要:本研究旨在改进LangChain框架中的文档分割方法,以提高大型语言模型处理长文本的效率和准确性。通过分析现有的文档分割工具,发现其可能导致语义断裂和处理效率低下的问题。针对这些问题,提出了一种基于KMeans聚类算法的优化策略,以保持文本的语义连贯性和句子的原始顺序。构建了名为TextSplitter的类和名为chunk_file的函数,实现了新的文档分割和聚类方法。通过PK值评估法对优化策略的效果进行了验证,并通过实验展示了新方法相较于现有方法的优势。本研究不仅为LangChain框架的文档分割提供了有效的优化方案,也为处理大规模文本数据提供了有益的参考。


查看完整版本: [-- 优化LangChain框架中的文档分割方法:方法与应用 --] [-- top --]


Powered by PHPWind v7.0 Code © 2003-08 PHPWind
Time 0.031250 second(s),query:2 Gzip disabled

You can contact us