|
发表于 27-1-2025 10:54 AM
|
显示全部楼层
deepseek可以做到开源就证明这些东西对他们来讲就是个年轻人的小儿科。。
那些老霉大佬就是一个坑。。。 |
|
|
|
|
|
|
|
楼主 |
发表于 27-1-2025 05:53 PM
|
显示全部楼层
DeepSeek直衝下載榜首 Meta焦慮火速成立四個戰情室應敵
隨著中國AI新創公司DeepSeek以較低成本推出高性能AI模型震撼矽谷,臉書母公司Meta的AI研究人員陷入恐慌模式,據傳Meta生成式AI團隊的主管和工程師已經成立四個「戰情室」研究DeepSeek的運作方式。
根據科技新聞網站The Information報導,Meta的AI團隊一些主管近日對DeepSeek推出的新型的對話式AI公開表達擔憂,擔心Meta在AI競賽中落後了。兩名員工透露,包括AI基礎設施總監歐德漢(Mathew Oldham)在內的主管擔心,自家旗艦AI模型Llama的下一版本表現可能無法DeepSeek匹敵。
DeepSeek去年底推出大型語言模型「DeepSeek V3」,根據多份美國公司發表的評估和使用者評價,這款模型在完成多種任務方面表現,符合或甚至超越三大AI公司Meta、OpenAI和Anthropic的模型;該公司接著在本月20日推出另一個模型「DeepSeek-R1」,可能媲美OpenAI的o1推理模型,這引發外界質疑美國一些AI公司是否運作效率低,或耗費太多資金卻取得較差的成果。
應用程式(App)的開發商能夠自由下載DeepSeek或透過基於雲端的應用程式介面購買使用權。一些規模較小的App開發商表示,他們已改用DeepSeek,原因是成本遠低於OpenAI或Anthropic模型。
消費者則可透過一款聊天機器人App使用DeepSeek,這會與ChatGPT競爭。現在,DeepSeek的App在蘋果 App Store免費應用程式下載排行榜已經衝上第一名,ChatGPT則落居第三。
The Information報導指出,OpenAI、Meta和其他頂尖開發商的研究人員正仔細分析DeepSeek模型,以尋找可借鑑之處,包括它如何以比一些美國AI模型能以更低成本、更具效率的方式運作。
其中,Meta已為此籌組四個「戰情室」。一名員工透露,兩個小組聚焦於研究如何降低訓練和運作DeepSeek 的成本。雖然Meta的模型是免費的,但運作成本比OpenAI的模型更高,部分原因是OpenAI能夠透過批次處理消費者數百萬次的查詢來降低價格;相較下,使用Llama的小型開發者,則欠缺足夠的查詢量來以同樣的方式降低成本。
員工透露,第三個研究小組正在試圖釐清DeepSeek使用了哪些數據來訓練其模型;第四個戰情室則是考慮基於DeepSeek模型歸納出的特質,重新建構Meta的模型。據稱,Meta正考慮推出一個類似DeepSeek的Llama版本,包含多個AI模型,每個模型專門訓練處理不同的任務。藉此,當消費者要求Llama處理某個任務時,只要讓模型的一部分進行運作,這可能讓整體模型的運作速度更快,並減少所需的運算資源。
Meta 發言人卡維爾在聲明中表示:「我們在開發過程中會定期評估所有競爭模型,而且是從本公司生成式AI團隊 成立以來一直如此。」 |
|
|
|
|
|
|
|
发表于 27-1-2025 06:26 PM
|
显示全部楼层
我怀疑DEEPSEEK以本伤人。。。不过我没有证据。。。
还要可能。。免费是最贵的 |
|
|
|
|
|
|
|
楼主 |
发表于 27-1-2025 06:56 PM
|
显示全部楼层
陸版AI模型DeepSeek暴紅 輾壓ChatGPT震撼矽谷
據觀察者網報導,由陸企研發的DeepSeek-V3模型發佈後,在美國熱度持續飆升。截至台北時間今早,DeepSeek在美區蘋果App Store免費榜上已經排在第一位,力壓此前霸榜的ChatGPT,而排在第三的則是Meta旗下的Threads。
而就在昨天早上,DeepSeek還沒有擠進榜單前五,顯示出過去24小時發酵速度之快。對於一款中國大模型來說,能夠在美國力壓ChatGPT,也是歷史性一刻。
除了C端用戶的喜愛,DeepSeek也持續引發行業內的高度重視。
1月25日,超微半導體(AMD)在其X帳號上宣佈,已將中國人工智能公司深度求索的DeepSeek-V3模型集成到AMD Instinct MI300X GPU上,以在SGLang技術支持下,實現極致性能。選擇將DeepSeek大模型集成至自家AI晶片產品上,AMD或重塑全球AI晶片競爭格局。
AMD表示,DeepSeek-V3作為強大的混合專家(MoE)語言模型。為實現高效推理與經濟性訓練,該模型延續了前代產品DeepSeek-V2的核心架構——多頭潛在注意力機制(MLA)和DeepSeekMoE架構。在多數基準測試中,特別是數學與代碼任務領域,DeepSeek-V3均展現出業界領先性能。
在通常情況下,像DeepSeek-V3這種語言大模型推理過程中,普遍都需要大量的計算資源和記憶體頻寬來處理文本和視覺數據,AMD則認為自家Instinct GPU系列AI晶片可以為運行此類大模型,提供出色性能。
公開信息顯示,MI300X是 AMD於2023 年底推出的旗艦級AI晶片,專為大語言模型和高性能計算設計,旨在挑戰競爭對手輝達(Nvidia)在AI計算領域的主導地位。其基於CDNA 3架構,採用混合5奈米和6奈米製程工藝,集成1530億晶體管,配備192GB記憶體,擁有5300GB/s的頻寬。在不考慮軟體層面問題,僅從硬體規格上看,MI300X遠超輝達的H100甚至H200。
AMD稱,深度求索團隊在DeepSeek-V3的開發過程的關鍵階段,採用了AMD ROCm 軟體和AMD Instinct GPU加速器。ROCm對FP8格式的廣泛支持,能顯著提升AI模型的運行效率,特別是在推理環節。該技術可以解決內存瓶頸及高讀寫格式相關的高延遲問題,而FP8低精度計算還能減少數據傳輸與計算過程中的延遲。因此,通過與深度求索的合作,AMD也為用戶提供了更豐富的GPU硬體選擇。
另一方面,隨著AI浪潮對高算力晶片的需求,輝達的股價水漲船高,如今已超越蘋果公司登頂全球市值最高寶座,而同期的AMD不論市占率和產品性能,相對於輝達都全面處於明顯劣勢。受此影響,雖然AMD也享受了AI爆發帶來的紅利,但股價自去年10月的172.8美元以來已下跌近30%,與同年3月創下的211.38美元最高點相比更是跌幅超40%。
不過,轉機或已出現。2024年底,深度求索發佈DeepSeek-v3時,技術報告中稱正式訓練成本僅為550萬美元成本,使用的也是輝達H800晶片(美出口管制下,針對中國市場特供版H100),這和美國OpenAI以及Meta公司動輒上億美元的大模型相比,便宜到令美國人自我懷疑。前幾天,深度求索又發佈了DeepSeek-R1模型,作為開源軟體直接比肩閉源的OpenAI的o1大模型,一度引發市場關注。
越來越多的投資者開始反思,AI計算對輝達GPU的需求是否被資本人為誇大了?因為深度求索團隊已經展示了如何通過超低成本,以及使用「不那麼先進的晶片」,同樣可以構建出高品質AI模型。倘若如此,這意味著訓練大模型也不用一味去追求輝達那「一卡難求」的旗艦晶片,這時「不那麼能打」但在硬體方面性價比更高的AMD產品,則看上去更「Yes」了。
目前,華爾街分析師普遍看好AMD。包括花旗集團、路通資本等近30名分析師都給出了「買入」意見,這些預測將AMD未來一年平均目標價推上了182.7美元,出現了48.73%的上漲空間。還有更激進的預測認為,若AMD的PEG比率回歸行業中樞(科技行業在3倍上下),其估值可能進一步提升130%以上,達到265美元。
與此同時,輝達股價則出現下跌。1月24日,輝達收報142.62點,跌幅3.12%,盤後又下跌0.42%,反映出投資者對其市場主導地位的擔憂。 |
|
|
|
|
|
|
|
发表于 27-1-2025 07:14 PM
|
显示全部楼层
那个设计师都自己跑出来放话了,就是不听,我很看好这个设计师,假如中共肯放权,他可能是下一个马云,但是也注定是下一个马云。
|
|
|
|
|
|
|
|
楼主 |
发表于 27-1-2025 10:38 PM
|
显示全部楼层
国产AI大模型DeepSeekV3横空出世!气坏台湾绿脑怪?DeepSeek震撼美国AI行业成价格屠夫,API价格直接打穿!比chatGPT低95%成为AI行业拼多多
https://www.youtube.com/watch?v=ok8Yc9pa9Zk
有不少正常的台湾人留言 (非呆蛙/蟾蜍/青鸟/狗熊/倭杂1450):
-中國台灣省祝祖國繁榮昌盛🇨🇳🇨🇳🇨🇳🇨🇳🇨🇳🇨🇳🇨🇳🇨🇳🇨🇳🇨🇳
-我是台灣人,看到我們中國人自主研發的產品超越歐美,覺得與有榮焉
-我是台灣人,看到我們中國人自主研發的產品超越歐美,覺得與有榮焉
-...身為台灣島上的中國人,真是與有榮焉,沾光不少!
-我是台灣的✌️我來收看簽到
會破防來叫囂的是自稱要抗中保台的也就一小群台灣人 但是這一小群人也就出張嘴 一問要不要簽進去從軍就會閉嘴......
-我是台灣人,我覺得很棒
|
|
|
|
|
|
|
|
楼主 |
发表于 28-1-2025 07:05 AM
|
显示全部楼层
AI專家:DeepSeek顛覆AI「演算力至上」邏輯
中國DeepSeek引發美股出現「小股災」,Perplexity AI創辦人史里尼瓦斯(Arvin Srinivas)向外媒表示,DeepSeek在資源限制條件下的創新顛覆了傳統AI訓練的「演算力至上」邏輯。 彭博圖片
香港文匯報訊(記者 黎梓田)中國DeepSeek引發美股出現「小股災」,Perplexity AI創辦人史里尼瓦斯(Arvin Srinivas)向外媒表示,DeepSeek在資源限制條件下的創新顛覆了傳統AI訓練的「演算力至上」的邏輯。DeepSeek透過優化混合專家模型(MOE),解決了長期困擾產業的數值不穩定性問題,例如損失峰值的頻繁出現,其技術方案無需依賴額外基礎設施即可穩定訓練流程。
此外,該團隊在 GPU 記憶體受限的挑戰下,開創性採用8位元浮點訓練,動態平衡高精度與低精度計算,僅用60天完成模型更新,並支援低成本重複訓練;而美國主流仍停留在16浮點訓練階段。
更令人矚目的是,DeepSeek以極低資源消耗打造出性能相當於GPT-4o的模型,API價格便宜10-15倍,速度達每秒60 tokens,部分基準測試甚至接近或超越頂級閉源模型。這種效率革命不僅驗證了「必要是發明之母」的創新邏輯,更透過開源策略挑戰了「中國僅擅長複製」的刻板印象,其開源的405B模型品質接近GPT-4,遠超美國70B級本地運行模型。
中國的創新都是被逼出來的
DeepSeek的技術透明化,如公開14.8兆tokens訓練資料與開源生態佈局,可能引發全球開發者倒戈,挑戰美國閉源模式的壟斷地位,甚至倒逼Meta等公司調整技術路線,重塑產業競爭格局。
在中美人工智能競賽方面,史里尼瓦斯指出這場競爭的核心是效率創新與生態話語權之爭,而非單純的技術封鎖或演算力比拼。中國受限於低端GPU如H800,被迫透過演算法最佳化、資料品質提升和工程實踐彌補硬體不足,這種「資源約束倒逼創新」的路徑不僅培養出高效研發團隊,更形成「技術透明化—全球協作—生態影響力」的正向循環。
美國將失去技術標準話語權
相較之下,美國過度依賴高階GPU如H100和天價訓練預算,暴露出閉源模式的脆弱性;DeepSeek以500萬美元就達到相似效果,直接衝擊資本密集型路徑的可持續性。更深遠的風險在於,若中國主導開源生態,美國將失去技術標準話語權,同時面臨「價值衝突」。 |
|
|
|
|
|
|
|
楼主 |
发表于 28-1-2025 09:34 AM
|
显示全部楼层
DeepSeek震撼美股 蔡正元揪出關鍵:這下有好戲看了
大陸AI新創公司DeepSeek開發低成本大語言模型,在人工智慧領域迅速崛起,也讓AI領域的科技股受到了沉重打擊,更引發全球討論。前立委蔡正元27日深夜對此分析,「這下子有好戲看了」,中美競爭剛開始,美國認爲不賣輝達晶片給中國大陸,中國大陸的AI就沒搞頭,雖然中國大陸晶片目前還輸美國,但美國沒料到中國大陸卻在AI模型硬超車。
蔡正元發文指出,美國科技股像遭到大地震襲擊,大殺盤的原因只有一個,美國幾家專業及學術機構認證最新出爐的AI模型「深尋」或「深度求索」DeepSeek,與OpenAI的ChatGPT較量,有過之而無不及。其中,OpenAI的ChatGPT要使用大量昂貴的輝達AI晶片、要用台積電的高端製程、要花費鉅資蓋豪華的算力中心,還要耗盡龐大的電力。
蔡正元認為更令人訝異的是,DeepSeek不需要昂貴的輝達AI晶片,所以輝達股價下挫,也不需要台積電的高端製程,所以台積電股價下殺,原本ChatGPT開創出來的演算法已經走在AI前沿,沒想到DeepSeek橫空出世,開創出來另一條AI模型新捷徑,目前被認定可能會把抖音把YT擠到老二那樣子、DeepSeek把ChapGPT擠到老二,連帶拉AMD和華爲,讓輝達無法唯我獨尊。
蔡正元更喊「這下子有好戲看了」,中美競爭剛開始,美國認爲不賣輝達晶片給中國大陸,中國大陸的AI就沒搞頭,雖然中國大陸晶片目前還輸美國,但美國沒料到中國大陸卻在AI模型硬超車,看看美國還有什麼法寶可以遏制中國的AI? |
|
|
|
|
|
|
| |
本周最热论坛帖子
|