C114通信網(wǎng)  |  通信人家園

人工智能
2025/4/2 11:31

DeepSeek 新專利公布:減少數(shù)據(jù)采集時網(wǎng)絡資源消耗

IT之家  清源

從國家知識產(chǎn)權局中國專利公布公告網(wǎng)獲悉,DeepSeek 關聯(lián)公司杭州深度求索人工智能基礎技術研究有限公司申請的“一種廣度數(shù)據(jù)采集的方法及其系統(tǒng)”專利于 4 月 1 日公布。

專利摘要顯示:

該發(fā)明的有益效果在于:發(fā)現(xiàn)盡可能多的網(wǎng)頁鏈接,并減少對網(wǎng)站的流量沖擊;對已經(jīng)下載的內(nèi)容進行分析,對未下載的鏈接進行質量推斷,通過擇優(yōu)下載分配額度的方式,減少低質量網(wǎng)頁下載和重復下載,提高數(shù)據(jù)質量及下載效率,減少在數(shù)據(jù)采集過程中網(wǎng)絡資源的消耗;采用單獨的信息回灌隊列,保證網(wǎng)頁元信息庫修改操作的原子性和穩(wěn)定性。

背景技術稱:近年來,隨著人工智能技術的進展,NLP 自然語言領域取得了巨大的進步。許多大語言模型 (Large Language Models,LLMs) 被訓練應用于自然語言處理領域,用于研究實現(xiàn)人與計算機之間用自然語言進行有效通信的各種理論和方法。

大語言模型的訓練需要構建一個高質量、多樣化的大語言模型數(shù)據(jù)集,這需要將網(wǎng)頁數(shù)據(jù)采集并處理后得到大量高質量的文本信息作為模型的輸入,用于大語言模型進行訓練。

然而,現(xiàn)有的數(shù)據(jù)采集技術存在諸多問題,比如對復雜站點進行采集時,無法獲取完整鏈接;容易過量下載,造成對方網(wǎng)站崩潰;對下載頁面不進行內(nèi)容質量分析和推斷,造成重復下載或低質下載、影響數(shù)據(jù)采集的效率。

因此,在大量網(wǎng)頁數(shù)據(jù)獲取的過程中,如何快速、精準、安全、高效地采集互聯(lián)網(wǎng)數(shù)據(jù)變得至關重要。

給作者點贊
0 VS 0
寫得不太好

免責聲明:本文僅代表作者個人觀點,與C114通信網(wǎng)無關。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實,對本文以及其中全部或者部分內(nèi)容、文字的真實性、完整性、及時性本站不作任何保證或承諾,請讀者僅作參考,并請自行核實相關內(nèi)容。

熱門文章
    最新視頻
    為您推薦

      C114簡介 | 聯(lián)系我們 | 網(wǎng)站地圖 | 手機版

      Copyright©1999-2025 c114 All Rights Reserved | 滬ICP備12002291號

      C114 通信網(wǎng) 版權所有 舉報電話:021-54451141