檢索增強生成
」劍指谷歌!OpenAI與多家新聞媒體出版商合作 計畫推出AI搜尋引擎「SearchGPT」
美國人工智慧研究實驗室「OpenAI」正在測試一款人工智慧(AI)線上搜尋引擎「SearchGPT」,其將使用生成式AI收集資訊並以對話的語氣回答問題和搜尋結果,幫助用戶更快、更輕鬆地找到他們的查詢內容,目前僅向一小部分用戶開放測試,且尚未透露正式的推出時間,預計「SearchGPT」最終可能會整合到「OpenAI」的「ChatGPT」聊天天機器人中。據科技雜誌《連線》(Wired)的報導,「OpenAI」發言人伍德(Kayla Wood)拒絕向《連線》提供演示新工具「SearchGPT」的詳細資料,但證實該公司已向若干合作夥伴和新聞媒體出版商取得訪問權限,並根據他們的反饋內容改進搜尋引擎的功能,此舉被外界解讀是正面劍指搜尋引擎龍頭「Google」。「OpenAI」的主要投資者微軟(Microsoft)是最早向大眾發布生成式AI搜尋引擎的公司之一,該公司於2023年把AI聊天機器人「ChatGPT」背後的人工智慧技術整合到旗下的網路搜尋引擎「Bing」,以及瀏覽器「Edge」中。微軟的人工智慧搜尋引擎現已更名為「Microsoft 365 Copilot」。隨後,「Google」以及由AI聊天機器人驅動的研究和會話搜尋引擎「Perplexity AI」等多個競爭對手,都向用戶推出了自己的AI搜尋服務。例如「Google」就在搜尋引擎中推出名為AI概述(AI overview)的新功能,替用戶一次整合所有搜尋結果,不需點擊多個連結。而「OpenAI」的「SearchGPT」則看起來與「Perplexity AI」更為相似,其聊天機器人可使用自然語言預測文字回答查詢,並使用網路來源產生答案,引用文字回應中的連結。「OpenAI」在2022年11月首次推出ChatGPT後,許多用戶看到聊天機器人從網路中挖掘和總結資訊的能力,預期AI聊天機器人有可能取代傳統的網路搜尋引擎。然而,大型語言模型(large language model,LLM)的缺點使得聊天機器人的搜尋功能不完全,這些模型所利用的訓練數據通常已經過時數月或數年,因此當不確定答案時,AI聊天機器人就會編造「錯誤的事實」。對此,「OpenAI」的「SearchGPT」可能會使用結合了搜尋檢索和生成能力的自然語言處理架構「檢索增強生成」(Retrieval-Augmented Generation,RAG),來降低聊天機器人的錯答率。透過RAG架構,人工智慧工具將引用可信任資訊,例如首選新聞網站,同時將產生搜尋結果的資料和數據來源。不過這個方法具有潛在的版權侵犯問題。例如「Perplexity AI」就遭到包括《連線》在內的網站或新聞媒體出版商的批評,因為其AI搜尋引擎涉嫌抄襲原創新聞網站的內容,並且刻意忽略資料來源。因此「OpenAI」改進了這項缺失,並對新聞媒體出版商承諾:「SearchGPT」將透過在搜尋結果中特別引用和連結到出版商的內容,讓用戶與出版商建立更多聯繫和瀏覽。據悉,包括沃克斯傳媒(Vox Media)、大西洋月刊(The Atlantic)、新聞集團(News Corp)和金融時報(Financial Times)在內的多家新聞媒體公司,今年都已與「OpenAI」簽署了內容授權協議。
輝達擴大與中華電信合作 董座股東會宣布「每股配息4.758元」
輝達(NVIDIA)執行長黃仁勳上周抵台後行程備受關注,不僅和台積電(2330)董事長創辦人張忠謀、廣達(2382)創辦人林百里一同逛夜市,也與其他科技大佬會面,其中,中華電信(2412)董事長郭水義、總經理林昭陽也出現在宴客清單中。有消息傳出,「中華電信確定與NVIDIA擴大合作。」據消息來源表示,中華電信已向輝達購買DGX伺服器,未來將藉由開源LLM大型語言模型、檢索增強生成(Retrieval-Augmented Generation,RAG)等資源技術,發展並提供內外部AI應用服務。中華電信公司5月31日舉行113年股東常會,由董事長郭水義主持,承認該公司112年度營業報告書、財務報表及盈餘分配案,並通過公司章程修正案及解除董事競業禁止限制案。關於112年度盈餘分配案,股東會通過配發現金股利每股4.758元,配發金額合計新台幣36,909,930,661元。中華電信表示,112年現金股利維持近100%的配發率,未來仍將繼續維持穩定股利政策。今天中華電開盤127.5元,最高來到128元,不過最終收盤價為127元,跌幅0.78%。
繁中守護者1/「不會做才更要做!」解密蔡明介督軍 聯發科為台灣訓練LLM輝達也相挺
「不會做,才更要做!」台灣晶片一哥聯發科技4月9日發表繁體中文語言模型MR BreeXe,以450億參數超越中文版ChatGPT3.5,奪下世界最強的繁體中文大語言模型(LLM)。儘管外界看熱鬧,也有酸民說贏了ChatGPT3.5沒什麼好驕傲,但台灣科技圈人士深知,聯發科努力「緩解了一場迫切危機!」近年全球爭相砸錢啟動的AI及LLM軍備競賽中,以歐美思維為主流,英語稱霸,中文則以中國大陸簡體中文的語意邏輯掛帥,繁體中文相對弱勢,直到聯發科的MR BreeXe出現,緩解了被「邊緣化」的危機。CTWANT記者採訪多位關鍵人士,得知了這場艱辛的技術研發過程,其實是一場文化保衛戰,連輝達聞訊後也上門,將去年底新推的AI超級電腦Taipei -1,交與聯發科訓練模型。業內人士表示,聯發科在1997年從聯華電子多媒體部門分出來後,「拿到的牌都是最差的那一種」,要人沒人、要錢沒錢,主攻的產業都是世界上最競爭最難的,然而蔡明介一路走來的經營理念,就是有一個頂級的公司,才能把人才留在台灣。聯發科從光碟機晶片組開始,一路做到全球行動通訊晶片第二大廠,蔡明介引領技術創新之際,也觀察到AI科技將扭轉局勢,2019年他親自拍板、督軍,成立聯發創新基地,負責AI的前瞻研究,「比很多業者都早發現AI的重要性,將會形成『革命性的轉變,就像一種新的電力。』」聯發科技協理葉家順表示。輝達去年底推出最新的AI超級電腦Taipei-1,讓聯發科第一個做訓練。(圖/翻攝自GoogleMap)「AI最重要的基礎就是大語言模型,聯發科是以技術力為主的公司,要做、就做對世界有影響的技術。」業內人士表示,聯發創新基地最初研究的是自然語言處理(NLP),是一種人工智慧的分支,可讓電腦理解、產生及處理人工語言,「最一開始的AI研究真是萬事起頭難,常改到死。」2022年6月蔡明介下令基地放棄舊研究,改成全力押寶生成式人工智能GenAI,並啟動首個開源繁中大語言模型,跟一級主管這樣說,「沒有人做,所以我們要做!」聯發科員工跟CTWANT記者說,當時董事長下軍令,但大家都面面相覷,OpenAI當時還默默無名,ChatGPT更是在2022年11月30日才發布,等於沒有任何前例可循,更何況是要做台灣為主的繁體中文系統,幾乎是從零開始。「聽到這個消息,我們的合作夥伴都很關切,頻頻問我們,怎麼做、你會嗎?當然不會呀!」聯發科員工表示,因為大家都知道做大語言模型的難度大、門檻高,一般單位是做不來的,聯發科在研究過程中也「踩了不少坑、撞得頭破血流」,但在其他陣營開發速度陸續放緩後,「這件事反而成了『社會對我們的期望』,得到很多夥伴的協助。」「最難的就是一開始,找不到適合的人才」聯發創新基地負責人許大山是加州柏克萊大學電機博士,曾任台大副教授,被學生廣為流傳的「年年書卷獎的台大電機學霸」。他跟CTWANT記者說,當時聯發科在AI頂級科學家圈內是沒有名氣的,花了很大力氣才能招募到人才,有了成果、上了幾篇國際級的論文,學者們認識我們,後續才比較順利。目前聯發創新基地在台大、劍橋、倫敦都有據點,「成員就像是個小的聯合國。」業內人士說。聯發創新基地負責人許大山。(圖/記者黃耀徵攝)聯發科「MR BreeXe」是以法國AI業者推出的Mixtral 8x7B開源模型為基礎去開發,繼承Mixtral多專家模型特有的節省運算資源、提升速度優勢,再加上聯發創新基地的訓練,在繁體中文測試項目(TMMLU+、MT Bench TW)超越GPT-3.5,並優化台灣常見之地端應用,提升產業界檢索增強生成(RAG)的體驗,還能一口氣處理4萬字的長篇資料,而Mixtral只能四千字。AI龍頭輝達得知聯發科在做繁體中文大語言模型,特別拿出他們去年底才推出最新的AI超級電腦Taipei -1,讓聯發科第一個跑數據、做訓練。截至4月初MR BreeXe正式發表,450億參數,比OpenAI兩年前發表的中文版ChatGPT3.5模型參數規模270億,遠超出一大截。「其實聯發科以繁體中文切入做大語言模型,是『緩解了一個非常迫切的危機』,」成功大學資工系教授黃敬群跟CTWANT記者解釋,以網路搜索來說,使用者14億人、源自中國的簡體資料在世界上的點擊量絕對高過台灣的,像是Google台灣就花了百人團隊去「平衡」,才讓台灣人看到的網頁搜尋符合需求,但到了AI時代,這些人工干預就失靈了。