近日,一組關(guān)于80后死亡率的數(shù)據(jù)在網(wǎng)上引發(fā)廣泛關(guān)注。一些微信公眾號發(fā)文,“截至2024年末,80后死亡率突破5.2%,相當(dāng)于每20個80后中就有1人已經(jīng)去世?!薄?0后的死亡率已經(jīng)超過70后?!币恍┪恼绿柗Q這些駭人聽聞的數(shù)據(jù)是來自第七次全國人口普查的所謂“權(quán)威數(shù)據(jù)”。事實(shí)真是如此嗎?
這就是日前在網(wǎng)絡(luò)社交平臺上廣泛傳播的表格,表格內(nèi)容顯示“80后累計死亡率為5.20%”。
記者梳理發(fā)現(xiàn),網(wǎng)絡(luò)上有不少引用這一數(shù)據(jù)的關(guān)于80后死亡率的文章,還有不少自媒體文章在不斷渲染,比如:“80后5.2%的死亡率,開啟了黃金一代的黯然離場”;再比如:“當(dāng)80后開始集體謝幕——5.2%死亡率背后,一代人的生存困境與時代之殤”。
更有網(wǎng)絡(luò)圖片將所謂80后死亡率做成柱狀圖,稱:“每20人中1人已離世”,并標(biāo)注對比數(shù)據(jù),稱“70后死亡率低于更年輕的80后”。如此駭人聽聞的數(shù)據(jù),是真的嗎?
中國人民大學(xué)人口與健康學(xué)院教授李婷長期從事人口發(fā)展研究,她表示,這一數(shù)據(jù)與事實(shí)嚴(yán)重不符。李婷在對網(wǎng)絡(luò)上相關(guān)文章進(jìn)行梳理后發(fā)現(xiàn),大多數(shù)文章都號稱該數(shù)據(jù)來自第七次全國人口普查的數(shù)據(jù)。然而第七次全國人口普查的時間是2020年,顯然其結(jié)果無法預(yù)測2024年的死亡率。此外,人口普查數(shù)據(jù),只會公布去年一年對應(yīng)時期的死亡率,比如2020年的第七次全國人口普查,反映的是2019年11月1日到2020年10月31日的死亡率,其中并不存在針對特定群體,比如“80后的累積死亡狀況”這樣的統(tǒng)計。
中國人民大學(xué)人口與健康學(xué)院教授 李婷:從國家的統(tǒng)計流程,包括國家衛(wèi)健委公布的每年跟死亡相關(guān)的數(shù)據(jù),它都是一個時點(diǎn)數(shù)據(jù)。就是說,比如說公布的今年的預(yù)期壽命、死亡率、某個年齡的死亡率,它都是實(shí)時刻畫的,比如說,1990年死亡率、2000年怎么樣,這個也是國際上的官方統(tǒng)計最常用的方式。
而對于網(wǎng)絡(luò)上出現(xiàn)的關(guān)于“5.2%”的這個死亡率的數(shù)據(jù),李婷教授也表示,錯誤非常明顯,因?yàn)閷I(yè)統(tǒng)計數(shù)據(jù)中關(guān)于死亡率用千分率表示,而不是百分率。
此外,李婷教授認(rèn)為,它還混淆了“累計死亡比例”與“年死亡率”的定義。
中國人民大學(xué)人口與健康學(xué)院教授 李婷:死亡率數(shù)值比較小,一般是千分之幾,不可能高到5%的水平,“每20個80后中1人已離世”描述的是累積的死亡比例。
錯誤死亡率源頭可能為“AI運(yùn)算偏差”
這一聳人聽聞又漏洞百出的死亡率數(shù)據(jù)又是從何而來呢?中國人民大學(xué)人口與健康學(xué)院教授李婷梳理發(fā)現(xiàn),很有可能是AI大模型在問題回答過程中出現(xiàn)錯誤。
李婷教授在AI大模型中輸入了“50、60、70、80,這幾代人的死亡率分別是多少”的問題,大模型顯示,根據(jù)網(wǎng)絡(luò)信息得出了“80后現(xiàn)存2.12億,存活率94.8%,死亡率5.2%”的表述。
中國人民大學(xué)人口與健康學(xué)院教授 李婷:這其實(shí)依賴于訓(xùn)練AI的語料。死亡率、累計死亡概率這些概念是相對很專業(yè)的,可能普通人都不會去理解??傮w來說是一個相對冷門的知識點(diǎn),因?yàn)樗皇窃谌粘4罅渴褂玫脑捳Z中,可能語料的質(zhì)量不夠高。
對外經(jīng)濟(jì)貿(mào)易大學(xué)法學(xué)院教授 博士生導(dǎo)師 張欣:“大模型幻覺”本身一個最重要的原因還是它的這個Transformer(編碼和解碼)的架構(gòu),現(xiàn)在大部分大模型都是使用這樣的一個架構(gòu)。這個架構(gòu),本質(zhì)上來講,其實(shí)還是基于統(tǒng)計的,或者說基于隨機(jī)性的這樣的一個概率生成,所以其實(shí)不管你是用什么樣的、哪家的大模型,它的本質(zhì)上都是預(yù)測下一個字詞最有可能出現(xiàn)的概率生成的這樣的一個情況。
記者就發(fā)現(xiàn),經(jīng)過網(wǎng)絡(luò)發(fā)酵,死亡率竟然成為一些自媒體帶貨的噱頭。
可見,AI大模型雖然有超強(qiáng)的數(shù)據(jù)儲存和運(yùn)算能力,但由于訓(xùn)練的語料不足、數(shù)據(jù)來源局限等,就可能導(dǎo)致錯誤的推算。而一些自媒體為了變現(xiàn)流量,也會斷章取義、借題發(fā)揮,助長這些離譜數(shù)據(jù)的炒作和傳播。
?。偱_央視記者 潘虹旭 馬力 代欽)