開了眼的 ChatGPT 真讓人開了眼了
給自己放個假吧 ChatGPT,再更新的這麼快,網友的腦洞可就跟不上了。

本週一,ChatGPT宣佈了一次重要更新,然後有了全面的多模態能力。
以後你下班騎共享單車回家路上要是感覺車上有什麼故障,可以給零件拍張照直接問它。
然後你回到家了,看到毫無頭緒的冰箱藏品後,ChatGPT可以告訴你挑哪幾樣出來能做個晚飯。
吃完睡覺,還沒睡意的話,它還能給你一些ASMR服務,如果B站或者YouTube上那幾個博主你已經聽厭了的話。
1985年9月,寫了《看不見的城市》的卡爾維諾因為突然的中風而去世,這年夏天他因為頭痛的問題曾去尋求過醫生幫助,主刀醫生說自己從未見過這麼般構造複雜而精緻的大腦。
ChatGPT從一開始就像一顆無比精美的大腦——並且是看不見的——但它現在終於有了眼睛、耳朵和嘴。
全球網友:那就來吧,比劃比劃。

圖源:Twitter
有人試了試,它基本可以替人做軟體項目的開發了。
一個軟體項目的誕生大概是這樣的:先在白板上畫線框圖,整理出編排邏輯,然後開始寫程式碼,最後生成界面。現在這件事,白板上的活兒歸你,離開白板歸它。
一位開發者把自己的線框圖直接拍照扔給ChatGPT,它直接把軟體寫出來了。
他還玩了些小把戲,比如把編排用並不規整的箭頭表示潦草的替換了位置,ChatGPT不但看出來了,而且照單全收。
我們大概還是低估了多模態會帶來什麼。
人工智慧與人類智力的發展在這裡是相反的。人類先有眼睛,看到了世界之後形成了語言和邏輯,反過來又能更好的描述和理解所看到的世界。人類在600萬年曆史間的智力水平提升,就是一個巨型的機器學習熔爐。
而對於ChatGPT來說,他已經有了最好的智力水平,已經能夠理解很多事了,限制它的反而是文字對於資訊的壓縮,導致它無法接觸到更復雜的問題。當給這樣一顆大腦一雙眼睛會帶來什麼。也就是讓它被允許直接看到圖像資訊,拆解問題的能力開始爆炸。
有人給ChatGPT餵了一張SaaS軟體的界面圖,並且要求它將其分解為小的元件並且把所有程式碼都寫出來,它真的做到了。
你甚至可以粗暴的給它一個Unity的編輯界面截圖,叫它提供一個添加模型動作的流程。

圖源:Twitter
在開放了多模態能力後,ChatGPT的理解和推理能力也體現的更直觀了,甚至有點可怕。
給自己一分鐘,看看能否理解這組圖的意思:

圖源:Twitter
這是ChatGPT的解讀:

圖源:Twitter
「這組漫畫看起來在強調團隊中溝通、理解和對齊的重要性。」ChatGPT在最後做了如此總結。
這樣的理解能力給曾經在Facebook 和Uber工作過的AI工程師Pietro Schirano驚的無話可說。
除了眼睛,還有耳朵和嘴。
此次ChatGPT升級背後,語音識別的能力基於開源的Whisper模型,聲音的生成能力則基於額外的TTS(text-to-speech)模型進行,目前語音合成支持五種語音,都是和專業配音演員合作製作而成的。
但眼看著兩個手機裡的ChatGPT在你面前自顧自的討論,關於「有沒有使用者試著和你一起唱卡拉OK啊?」——不是問你,是它在問另一個它——好像還是太超前了一點。
另外,它似乎也有做一個心理醫生的潛質。OpenAI安全團隊的成員Lilian Weng在語音模式下和ChatGPT做了一次非常情緒化的私人對話,談論壓力、工作與生活的平衡。
「有趣的是,我感到被傾聽和溫暖」,Lilian Weng在Twitter上說。她建議如果你原來只是把它當作一個生產力工具,那最好試試它細膩的一面。

圖源:Twitter
而對於ChatGPT本身的進化來說,這次將2022年就訓練完成了的多模態能力開放出來,也是在為未來的進化建立一個新的基礎。
ChatGPT首席架構師John Schulman一個月前在Pieter Abbeel(John Schulman在加州大學柏克萊分校博士期間主攻強化學習時的導師)的一檔播客節目中表示,他覺得現有資料和模型規模擴展方法能帶來的性能提升可能在一段時間後達到極限,在那之後,演算法、資料集、資料集大小以及算力能帶來的提升將逐漸遞減。
「所以添加多模態功能會帶來極大的性能提升。這能讓模型獲得文字中無法獲得的知識,並有可能掌握純語言模型無法完成的任務。例如,通過觀看與物理世界甚至是與電腦螢幕互動的視訊,模型能獲得巨大收益。所有軟體都是為人類設計的,如果模型能夠觀察像素並理解視訊,我們就可以使用各種現有軟體或幫助人們使用這些軟體。為模型賦予新能力,讓模型與新事物互動,將大大增強模型的實際能力。」
那麼下個月的ChatGPT又能做到什麼?太期待了。