快科技3月11日消息,國產大模型DeepSeek-R1爆火後,許多第三方平台陸續接入了該模型,比如騰訊、階躍星辰、螞蟻集團、百度、字節跳動等等。
今日,中文大模型測評基準SuperCLUE發布DeepSeek-R1聯網搜索能力首測,公布了10家第三方平台測評結果。
從結果來看,騰訊元寶是本次測評中唯一一個超過80分的第三方平台,以80.61分領跑聯網搜索測評榜單,騰訊元寶在總分、基礎檢索能力和分析推理能力三個關鍵指標上均位列第一。
階躍AI以74.49分的總分位居第二,支付寶百寶箱以73.47分位居第三,而其他平台在本次測評中則處於不同的梯隊,性能存在一定的差異。
各個第三方平台在基礎檢索能力上平均得分為95.45,而在分析推理能力上的平均得分僅有35.35,相差近60分。
同一平台在基礎檢索能力和分析推理能力兩大維度上的表現也同樣差異明顯,所有平台的分析推理能力得分都明顯低於基礎檢索能力。
SuperCLUE表示,這反映出在更高級的認知任務,例如理解、分析、推理和解決複雜問題方麵,仍有很大的進步空間。
回複率上,飛書知識問答、階躍AI、騰訊元寶和支付寶百寶箱在聯網搜索回複率方麵表現優秀,完整回複率均為 100%,截斷率和無回複率均為零,成為第一梯隊。
秘塔AI搜索、納米AI搜索和天工AI緊隨其後,構成第二梯隊,其他平台也均有超過85%的完整回複率,都表現出了較強的穩定性。
耗時方麵,總平均耗時從最少的字節火山引擎(17.12秒/題)到最多的MiniMax(73.51秒/題),差距非常顯著。
整體來看,耗時分布範圍較廣,不同平台之間的搜索效率差異較大。
另外,所有平台在分析推理能力上平均耗時都明顯高於基礎檢索能力。
【本文結束】如需轉載請務必注明出處:快科技
責任編輯:拾柒
本文由溫良恭儉讓網蘭州銀行高管再變動 “工行係”劉敏上位了溫良恭儉讓網的认可,以及对我们原创作品以及文章的青睐,非常欢迎各位朋友分享到个人站长或者朋友圈,但转载请说明文章出处“ING預測中國明年—季度可能加息2次”