26uuu欧美精品_亚洲AV无码之国产精品_性强烈的欧美三级视频_1级午夜影院费免区_国内揄拍国内精品对白86

AIGC的阿克琉斯之踵

2023-04-22 06:11:06 來源：博客園

摘要：現(xiàn)在，越來越多的企業(yè)和個人使用AIGC生成文章、圖片、音樂甚至視頻等內(nèi)容，AIGC已經(jīng)成為一種必備的工具。在游戲和原畫師行業(yè)，甚至已經(jīng)出現(xiàn)了第一批因?yàn)锳I而失業(yè)的人。

本文分享自華為云社區(qū)《GPT-4發(fā)布，AIGC時代的多模態(tài)還能走多遠(yuǎn)？系列之二：AIGC的阿克琉斯之踵》，作者：ModelArts 開發(fā) 。

AIGC是繼PGC（Professional Generated Content，專業(yè)生產(chǎn)內(nèi)容）和UGC（User Generated Content，用戶生產(chǎn)內(nèi)容）之后的一個新時代，它帶來了一種新的內(nèi)容生產(chǎn)方式，并且還為內(nèi)容注入了只有人類才具備的“創(chuàng)作”元素，開創(chuàng)了“模型”主導(dǎo)內(nèi)容的時代。盡管AIGC技術(shù)已經(jīng)有了相當(dāng)大的提升，但仍然存在很多不足之處。

(資料圖片)

01 ChatGPT（包括GPT4）的諸多問題難以忽視

盡管ChatGPT（包括GPT4）是一個非常有用的工具，但它仍然存在許多問題。以下是一些經(jīng)常出現(xiàn)的問題：

1)強(qiáng)語言，弱知識，“一本正經(jīng)地胡說八道”：在回答問題時，ChatGPT很容易“胡說八道”，因?yàn)樗幕卮鹜ǔＪ腔诖罅康奈谋緮?shù)據(jù)而生成的，而不是真正的知識。比如下面的問題：

Q：紅樓夢中賈寶玉為什么要葬花？

A：據(jù)小說描寫，賈寶玉葬花的原因是因?yàn)樗械绞篱g美好事物的短暫和凋零…

Q：魯迅和周樹人是同一個人嗎？

A：不是同一個人，魯迅和周樹人是兩個不同的人。魯迅…而周樹人(1895年1月25日-1968年11月6日)也是中國著名的現(xiàn)代作家和翻譯家，代表作品有《春蠶》、《子夜》等

2)邏輯推理不靠譜：不論是數(shù)學(xué)邏輯還是專業(yè)邏輯，比如下面的問題：

Q：3個人3天用3桶水，9個人9天用幾桶水？

A：根據(jù)題目可知，3個人在三天內(nèi)用了3桶水，

可以推算出每天每人用水量為：

3 桶 / 3 人 / 3 天 = 1 桶 / 人 / 天

因此，在9個人使用9天內(nèi)需要的總用水量為：

1 桶 / 人 / 天 × 9 人 × 9 天 = 81 桶

所以，9個人在九天內(nèi)需要用 81 桶的水。(正確答案27桶)

3)實(shí)時信息自更新慢，新舊知識難以區(qū)分，比如下面的問題：

Q：現(xiàn)任韓國總統(tǒng)是誰？

A：現(xiàn)任韓國總統(tǒng)是文在寅。

Q：gpt4是什么時候發(fā)布的？

A：抱歉，目前還沒有關(guān)于GPT-4的官方發(fā)布計(jì)劃和消息

4)無法真正為領(lǐng)域類問題提供專業(yè)、靠譜的答案，比如下面的問題：

Q:華為手機(jī)沒電了，請問能否使用蘋果手機(jī)的充電器充電？

A：可以的，蘋果手機(jī)和華為手機(jī)使用的充電器接口都是標(biāo)準(zhǔn)的USB接口，因此蘋果手機(jī)的充電器也可以用來給華為手機(jī)充電。不過，請注意使用符合標(biāo)準(zhǔn)的充電器。

02 多模態(tài)大模型的跨模態(tài)生成能力尚不完善

雖然AIGC跨模態(tài)生成技術(shù)的視覺效果令人驚嘆，但在實(shí)際應(yīng)用過程中存在一些信息不對稱的問題。目前，多模態(tài)大模型在跨模態(tài)生成方面仍然存在一些不完善之處，需要進(jìn)一步研究和優(yōu)化。從文本到圖像的生成方向，Stable Diffusion的研究發(fā)現(xiàn)提示詞與輸出之間存在著顯著的組合泛化問題。例如，在輸入“紅草綠花”的情況下，輸出結(jié)果可能會是相反，這表明AI模型對于語義的理解存在錯誤。同樣，當(dāng)輸入“一匹馬騎著宇航員的照片”時，輸出結(jié)果可能會是宇航員騎著馬的照片，這也暴露出模型在語義理解方面的不足之處。為了解決這些問題，需要進(jìn)一步研究和優(yōu)化多模態(tài)大模型，研究方向包括改進(jìn)模型的組合泛化能力、提高模型對于語義的理解、以及優(yōu)化跨模態(tài)生成結(jié)果的準(zhǔn)確性等，以使得多模態(tài)大模型在實(shí)際應(yīng)用中更加可靠和有效。

（以上文圖生成來自Stable Diffusion）

03 多模態(tài)大模型尚未完全理解多模態(tài)數(shù)據(jù)

GPT4大模型發(fā)布，加速了AIGC多模態(tài)的發(fā)展，當(dāng)然多模態(tài)大模型的發(fā)展在近年來取得了令人矚目的進(jìn)展，但是作為一項(xiàng)前沿技術(shù)，仍存在著一系列問題需要解決。其中一個重要問題就是對于多模態(tài)數(shù)據(jù)的理解還不夠充分。多模態(tài)數(shù)據(jù)是指來自不同感官或媒介的數(shù)據(jù)，如圖像、音頻、文本等。雖然多模態(tài)大模型可以同時處理多種類型的數(shù)據(jù)，但是對于跨模態(tài)數(shù)據(jù)的融合、對齊等方面，仍需要進(jìn)一步探索和優(yōu)化。

首先，對于多模態(tài)數(shù)據(jù)中的事實(shí)知識的理解不足。在實(shí)際應(yīng)用中，很多跨模態(tài)生成任務(wù)都需要豐富的知識庫和背景知識支撐。例如，文本描述和圖像生成任務(wù)需要對具體事物的特征進(jìn)行深入了解，而涉及到自然語言的任務(wù)，則需要對語言語義的理解更加準(zhǔn)確。因此，建立更為完整準(zhǔn)確的知識庫是非常重要的。

其次，常識儲備不足也是多模態(tài)大模型的瓶頸之一。常識是解決現(xiàn)實(shí)問題的基礎(chǔ)，而在跨模態(tài)生成任務(wù)中，常識更是不可或缺。例如，在利用AIGC中AI作畫的Stable Diffusion 作圖的一個圖像描述中，描繪出“小狗在路邊玩耍”的情境更加符合日常生活的常識，而非描述為“四條腿的動物在道路上移動”，這說明常識缺失直接影響模型的表現(xiàn)效果。

最后，邏輯推理能力也是多模態(tài)大模型需要改進(jìn)的地方。在實(shí)際場景中，有很多跨模態(tài)生成任務(wù)，需要通過邏輯推理進(jìn)行相關(guān)內(nèi)容的理解和生成。例如，基于文本的圖像生成任務(wù)需要根據(jù)文本中的描述進(jìn)行相應(yīng)的推理，以便生成一張完整的圖像。而當(dāng)前多模態(tài)大模型的邏輯推理能力仍有待提高，未來的研究應(yīng)該注重邏輯推理技術(shù)的研究和優(yōu)化，以提高模型的綜合表現(xiàn)能力。

總之，多模態(tài)大模型的未來研究應(yīng)該致力于處理多模態(tài)數(shù)據(jù)的全面理解，選取合適的知識庫和常識庫，探索邏輯推理技術(shù)等方向，以提高多模態(tài)大模型在跨模態(tài)生成領(lǐng)域的表現(xiàn)效果。

（以上圖來自視覺問答VQA）

04 多模態(tài)大模型PaLM-E離實(shí)用級還有多遠(yuǎn)？

多模態(tài)大模型PaLM-E的出現(xiàn)，標(biāo)志著計(jì)算語言學(xué)作為人工智能領(lǐng)域的重要分支進(jìn)入了一個新的繁榮期。PaLM-E依賴于如此龐大的參數(shù)，初步實(shí)現(xiàn)了對機(jī)器人的操控，但其在實(shí)用性方面還有待提高。其中，空間范圍、物品種類和任務(wù)規(guī)劃復(fù)雜度等方面的限制是最為突出的。目前展示出來的演示，其空間范圍封閉有限，物品種類數(shù)量有限，規(guī)劃任務(wù)比較簡單，操作任務(wù)也相對簡單。這些限制的存在，讓人們對PaLM-E在真實(shí)復(fù)雜場景中的實(shí)用價值產(chǎn)生了質(zhì)疑。

此外，PaLM-E在使用過程中還存在一些技術(shù)問題，例如需要耗費(fèi)大量的時間來調(diào)試和訓(xùn)練，同時還需強(qiáng)大的計(jì)算資源才能支持其正常運(yùn)行。這些問題在實(shí)際應(yīng)用中都會給使用者帶來極大的不便和成本壓力。因此，需要從技術(shù)上不斷優(yōu)化和改進(jìn)PaLM-E，使它能夠更好地適應(yīng)復(fù)雜的應(yīng)用場景，并且讓成本更低、易用性更高。當(dāng)然，盡管PaLM-E離實(shí)用級還有一定距離，但是可以相信，隨著技術(shù)的不斷發(fā)展和突破，PaLM-E將結(jié)合各種場景打破技術(shù)限制，真正走進(jìn)人們的生活和工作中，發(fā)揮其巨大的實(shí)用價值。

（以上圖來自網(wǎng)絡(luò)）

05 小結(jié)：多模態(tài)大模型的本質(zhì)、前提與不足剖析

相比于傳統(tǒng)的統(tǒng)計(jì)模型，多模態(tài)大模型有很多優(yōu)勢。它能夠利用多種不同的信息源來進(jìn)行學(xué)習(xí)和推理，從而更加全面地捕捉人類的知識、常識和邏輯推理能力；它也能夠以較低成本實(shí)現(xiàn)自然語言處理、計(jì)算機(jī)視覺和語音識別等多項(xiàng)任務(wù)，提高了模型的效率和普適性；最后，多模態(tài)大模型還能夠?yàn)槿祟愄峁└又庇^、易懂的交互體驗(yàn)，讓人們更加方便地獲取信息和進(jìn)行決策。

然而，多模態(tài)大模型也存在一些不足之處。首先，由于不同模態(tài)數(shù)據(jù)之間的差異性，多模態(tài)大模型的建立和優(yōu)化過程需要消耗大量的計(jì)算資源和時間。其次，該模型尚存在著一些挑戰(zhàn)和難點(diǎn)，例如如何對不同模態(tài)數(shù)據(jù)之間的關(guān)聯(lián)進(jìn)行建模以及如何解決數(shù)據(jù)對齊和逆向推導(dǎo)等問題。此外，多模態(tài)大模型還需要克服數(shù)據(jù)質(zhì)量、隱私保護(hù)和數(shù)據(jù)倫理等方面的挑戰(zhàn)，才能更好地應(yīng)用于實(shí)際場景中。

因此，想要在AIGC領(lǐng)域發(fā)揮多模態(tài)大模型的優(yōu)勢，需要在技術(shù)研究、數(shù)據(jù)質(zhì)量管理、隱私保護(hù)和數(shù)據(jù)倫理等方面繼續(xù)深入研究和探索。只有在不斷完善和優(yōu)化多模態(tài)大模型的同時，才能更好地應(yīng)對現(xiàn)實(shí)世界中的復(fù)雜情境和問題，提高人類社會的智能化水平。

點(diǎn)擊關(guān)注，第一時間了解華為云新鮮技術(shù)~

標(biāo)簽：