国产av激情无码久久,日韩精品极品视频在线观看免费,永久免费观看的毛片手机视频,超碰曰口干天天种夜夜爽

當(dāng)前位置:首頁 > 百科 > 正文內(nèi)容

Noam Brown早已預(yù)示o1強(qiáng)大推理能力,演講深度解析AI推理研究脈絡(luò)

宿遷名片打印12個(gè)月前 (09-14)百科38
印刷廠直印●彩頁1000張只需要69元●名片5元每盒-更多報(bào)價(jià)?聯(lián)系電話:138-1621-1622(微信同號)

不久之前,OpenAI 發(fā)布了 o1 系列模型,其強(qiáng)大的推理能力讓我們看見了 AI 發(fā)展的新可能。近日,OpenAI 著名研究科學(xué)家 Noam Brown 一份 5 月的演講上線網(wǎng)絡(luò),或可揭示 o1 背后的研究發(fā)展脈絡(luò)。

在這個(gè)題為「關(guān)于 AI 規(guī)劃力量的寓言:從撲克到外交」的演講中, Brown 介紹了撲克、圍棋和外交等游戲領(lǐng)域的研究突破,并尤其強(qiáng)調(diào)了搜索/規(guī)劃算法在這些成就中的關(guān)鍵作用。之后,他也指出了搜索/規(guī)劃研究在改進(jìn)機(jī)器學(xué)習(xí)模型方面的潛在未來。

Noam Brown,如果你還不熟悉這個(gè)名字:他是 OpenAI 的一位著名研究科學(xué)家,主攻方向是推理和自博弈,曾參與創(chuàng)造了首個(gè)在雙玩家和多玩家無限注德州撲克上擊敗人類頂級職業(yè)玩家的 AI:Libratus 和 Pluribus。其中 Pluribus 曾被 Science 評選為 2019 年十大科學(xué)突破之一。此外,他也領(lǐng)導(dǎo)開發(fā)了 Cicero 系統(tǒng),這是首個(gè)在自然語言策略外交游戲 Diplomacy 上達(dá)到人類水平的 AI。憑借在 AI 領(lǐng)域的卓越貢獻(xiàn),他獲得過馬文·明斯基獎(jiǎng)?wù)拢∕arvin Minsky Medal)等許多獎(jiǎng)項(xiàng)。

021yin.com/watch?v=eaAonE58sLU

來自 Paul G. Allen School

機(jī)器之心詳細(xì)梳理了 Noam Brown 的演講內(nèi)容,以饗讀者:

演講開篇,Brown 談到了自己剛開始研究生生涯的時(shí)候。那是在 2012 年,他開始研究打撲克的 AI。當(dāng)時(shí)人們已經(jīng)研究了撲克 AI 多年時(shí)間。很多人的感覺就是系統(tǒng)的問題已經(jīng)解決,剩下的問題就是規(guī)模擴(kuò)展(scaling)了。

下圖左下展示了那幾年模型參數(shù)量的變化情況。

那幾年,各個(gè)研究撲克 AI 的實(shí)驗(yàn)室都會訓(xùn)練更大的新模型來互相競賽。這就是當(dāng)時(shí)的年度計(jì)算機(jī)撲克競賽。

什么意外,每一年的新模型都會變得比之前的模型更強(qiáng)大。

2014 年時(shí),Brown 與其導(dǎo)師一起開發(fā)了當(dāng)前最強(qiáng)大的撲克 AI,取得了競賽第一名。那時(shí)候他們開始嘗試在實(shí)際的比賽中與專家級人類對抗。于是在 2015 年,他們舉辦了?cè)四X與 AI 撲克競賽。

他們讓自己的 AI 挑戰(zhàn)了 4 位頂尖職業(yè)玩家,玩了 8 萬手。最終,他們開發(fā)的名為 Claudico 的 AI 牌手慘敗收場。

搜索與規(guī)劃開始彰顯力量

在這場比賽中,他注意到一些有趣的現(xiàn)象。他們的 AI 之前已經(jīng)使用了大約 1 萬億手對局?jǐn)?shù)據(jù)進(jìn)行了訓(xùn)練。在這場比賽之前幾個(gè)月時(shí)間里,這個(gè) AI 一直在數(shù)千臺 GPU 上不間斷地玩撲克。

而到了真正與職業(yè)玩家比賽的時(shí)候,它會在很快的時(shí)間里做出決定,幾乎是立即完成。但如果是人類面對同樣的任務(wù),則通常會深思熟慮。

Brown 在那時(shí)候便想到了,這或許就是 AI 所缺少的東西。這也成了其之后的重要研究方向之一。

2017 年時(shí),他們發(fā)布了一篇論文給出了初步的研究結(jié)果(這是當(dāng)年的 NeurIPS 最佳論文)。如下圖所示,藍(lán)線是不做任何搜索或規(guī)劃的結(jié)果,橙色則是執(zhí)行了搜索和規(guī)劃的結(jié)果(越低越好)。X 軸是模型的參數(shù)量。所以這算是中等大小的撲克 AI 的擴(kuò)展律(scaling law):模型越大,表現(xiàn)越好。而從圖中可以看到,搜索所帶來的受益比模型增大要大得多——同等模型大小下能帶來近 7 倍的提升!

簡單來說,這里的搜索就是讓模型在行動(dòng)之前「思考」大約半分鐘。

Brown 表示,在研究撲克 AI 的三四年間,他將模型的大小提升了 100 倍,但所帶來的提升遠(yuǎn)不及采用搜索策略。而如果要讓藍(lán)線代表的無搜索策略成功擴(kuò)展到橙色線的水平,還需要將模型繼續(xù)擴(kuò)展 10 萬倍。換句話說,搜索策略能帶來 10 萬倍的增益!

這讓他不禁感嘆:「與添加搜索相比,我在博士學(xué)位之前所做的一切都將成為腳注。」

之后,他轉(zhuǎn)變了研究方向,將重點(diǎn)放在了擴(kuò)展搜索能力方面。

2017 年,他們再次舉辦人腦與 AI 撲克競賽。這一次,AI 大勝,并且每位職業(yè)玩家都輸給了這個(gè)名叫 Libratus 的模型。

這一結(jié)果同時(shí)震驚了撲克和 AI 兩個(gè)圈子,更何況 AI 的獲勝優(yōu)勢還如此之大。對此事件的詳細(xì)報(bào)道可參閱文章《德?lián)淙藱C(jī)大戰(zhàn)收官,Libratus 擊敗世界頂尖撲克選手》。

2019 年,他們開發(fā)了一個(gè)能玩六人德州撲克的 AI 并與人類職業(yè)玩家進(jìn)行了對抗。

同樣,AI 獲勝了,并且其訓(xùn)練成本還很低,也沒有使用 GPU,參閱《AI攻陷多人德?lián)湓俚荢cience,訓(xùn)練成本150美元,每小時(shí)贏1000刀》。

Brown 表示,如此低的成本意味著,如果當(dāng)時(shí)就能發(fā)現(xiàn)這種方法,那么 AI 社區(qū)在 90 年代應(yīng)該就能取得這一成就。

但為什么沒有出現(xiàn)這樣的研究呢?Brown 總結(jié)了幾點(diǎn)原因和經(jīng)驗(yàn)教訓(xùn)。(請注意,這里他強(qiáng)調(diào)并不會對「搜索」和「規(guī)劃」這兩個(gè)概念做明確區(qū)分,因?yàn)樗鼈兇嬖诤艽蟮墓餐c(diǎn)。)

文化因素,當(dāng)時(shí)很多人是從博弈論的角度研究撲克 AI。

實(shí)驗(yàn)的計(jì)算成本高。

人們沒有很好的動(dòng)力去有效地探索這些方法,因?yàn)楫?dāng)時(shí)的競賽設(shè)置難以支撐這些方法(比如可用算力低,要求每一手牌必須在短時(shí)間內(nèi)完成)。

最重要的是:人們低估了新范式所能取得的成就(誰能想到其實(shí)可達(dá) 10 萬倍?)。

規(guī)劃也有助于其它游戲任務(wù)

實(shí)際上,這種使用規(guī)劃和搜索的方法并非撲克 AI 所獨(dú)有的。許多圍棋和象棋 AI 都使用了這些技術(shù)。下面這張圖來自 AlphaGo Zero 論文。

圖中的 AlphaGo Lee 是指擊敗了李世石的版本,而 AlphaGo Zero 僅使用非常少的人類知識就取得了好得多的表現(xiàn)。

AlphaGo Zero 并不是一個(gè)原始的神經(jīng)網(wǎng)絡(luò),而是神經(jīng)網(wǎng)絡(luò)+蒙特卡洛樹搜索(MCTS)的組合系統(tǒng)。實(shí)際上,其原始神經(jīng)網(wǎng)絡(luò)的 Elo 分?jǐn)?shù)僅有 3000 左右,不及人類。

實(shí)際上,從 2016 年到 2024 年,8 年過去了,現(xiàn)在依然沒有人訓(xùn)練出超越人類職業(yè)棋手的原始神經(jīng)網(wǎng)絡(luò)。也許有人會說,就算如此,只要訓(xùn)練出更大的神經(jīng)網(wǎng)絡(luò),最終就能超越人類吧。但就算理論上可以,實(shí)際上這個(gè)網(wǎng)絡(luò)需要多大呢?

Brown 根據(jù)經(jīng)驗(yàn)給出了一個(gè)大致估計(jì):Elo 分?jǐn)?shù)每增加 120 都需要 2 倍的模型大小和訓(xùn)練量或 2 倍的測試時(shí)搜索量。

基于此,如果僅使用原始神經(jīng)網(wǎng)絡(luò),要將 Elo 分?jǐn)?shù)從 3000 提升到 AlphaGo Zero 那樣的 5200,則需要將模型擴(kuò)展大約 10 萬倍。當(dāng)然,Brown 提到 AlphaGo Zero 的 5200 分其實(shí)存在爭議,考慮爭議的話模型的擴(kuò)展倍數(shù)可能在 1000 倍到 1 萬倍之間。

不管怎樣,模型都需要大幅擴(kuò)展才行。

另外,這還是假設(shè)訓(xùn)練過程中可以使用 MCTS。要是再從訓(xùn)練階段剔除 MCTS,那么所需的擴(kuò)展倍數(shù)更是天文數(shù)字。

那么,具體來說該如何進(jìn)行規(guī)劃呢?

合作策略桌游 Hanabi(花火)是一個(gè)很好的示例,這是一種不完全信息博弈。

2019 年 2 月,DeepMind 為 Hanabi 提出了一個(gè)新基準(zhǔn),并且他們提出了一種可取得 58.6% 勝率的強(qiáng)化學(xué)習(xí)算法。

六個(gè)月后,Noam Brown 當(dāng)時(shí)就職的 FAIR 提出的一種算法就在兩玩家場景中取得了 75% 的勝率,達(dá)到了超越人類的水平。并且他表示這其中僅使用了一種非常簡單的技術(shù)。他說:「我們并沒有在強(qiáng)化學(xué)習(xí)方面做什么全新的事情,就只是執(zhí)行了搜索。」并且這種搜索很簡單。

簡單來說,就是搜索后續(xù)步驟執(zhí)行不同動(dòng)作時(shí)的情況,然后選擇預(yù)期結(jié)果最好的一個(gè)。

實(shí)驗(yàn)結(jié)果證明這種簡單方法確實(shí)有效。

不管是哪種方法,在添加了搜索之后都取得了顯著更好的表現(xiàn)。之前表現(xiàn)最差的基于啟發(fā)式方法的 SmartBot 在添加了搜索之后也超過了未使用搜索的基于強(qiáng)化學(xué)習(xí)的最佳方法 SAD。

這一巨大提升甚至讓 Brown 及其團(tuán)隊(duì)一度懷疑實(shí)驗(yàn)出 bug 了。要知道 Hanabi 游戲本質(zhì)上不可能取得 100% 勝率,經(jīng)過搜索加持的強(qiáng)化學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)的勝率可能趨近于飽和。

同時(shí),多智能體搜索的表現(xiàn)也優(yōu)于單智能體搜索。這或許就是 Noam Brown 最近正在積極為 OpenAI 網(wǎng)羅多智能體研究者的原因。

Brown 提到他們并不是唯一一個(gè)發(fā)現(xiàn)這一趨勢的團(tuán)隊(duì)。目前就職于 Anthropic 的 Andy Jones 也曾在棋盤游戲 Hex 上發(fā)現(xiàn)了這一點(diǎn)。

該研究發(fā)現(xiàn),測試時(shí)間計(jì)算量增加 15 倍的效果相當(dāng)于訓(xùn)練時(shí)間計(jì)算量增加 10 倍的效果。考慮到訓(xùn)練時(shí)的計(jì)算量遠(yuǎn)高于測試時(shí)的計(jì)算量。因此讓測試時(shí)間計(jì)算量增加 15 倍要?jiǎng)澦愕枚唷?

接下來,Brown 介紹了一個(gè)在國際象棋比賽上模仿人類專家數(shù)據(jù)的研究。這個(gè)名叫 MAIA 的國際象棋 AI 在 Elo 較高時(shí)比目標(biāo) Elo 分?jǐn)?shù)低 100-300 分。也就是說,如果使用 2000 分的人類數(shù)據(jù)來訓(xùn)練它,它自己卻只能得到 1700 分。但 MAIA 在有一種情況下能與人類專家持平,也就是快棋賽——這時(shí)候人類沒有足夠的思考時(shí)間。因此,這可能表明神經(jīng)網(wǎng)絡(luò)難以近似人類的規(guī)劃能力。

之后,Brown 團(tuán)隊(duì)的一篇 ICML 2022 論文研究了在監(jiān)督模型上添加規(guī)劃的效果。可以看到不管是圍棋還是國際象棋,搜索都大有助益。

也許很多人都認(rèn)為,要在某個(gè)數(shù)據(jù)集上最大限度地提高預(yù)測準(zhǔn)確性,方法就是使用大量數(shù)據(jù)訓(xùn)練一個(gè)超大模型,但這些研究卻給出了不一樣的見解:在適當(dāng)?shù)某瑓?shù)下添加搜索能力,就可以極大提升預(yù)測準(zhǔn)確度。如下圖所示。

用于外交的人工智能

接下來,Brown 介紹了他在 FAIR 時(shí)開發(fā)的一個(gè)用于外交游戲 Diplomacy 的 AI 智能體 Cicero,這是首個(gè)在外交策略博弈任務(wù)上達(dá)到人類水平的 AI。參閱機(jī)器之心報(bào)道《爭取盟友、洞察人心,最新的Meta智能體是個(gè)談判高手》。

外交是一種非常復(fù)雜的自然語言策略博弈。Cicero 以匿名方式參與到了有許多人類玩家參與的游戲中。它玩了 40 局都沒有被發(fā)現(xiàn),并且平均每一局要收發(fā) 292 條消息。

一些參與游戲的人類玩家在獲知 Cicero 是 AI 之后都發(fā)出了類似下圖的驚嘆之語!

Cicero 的表現(xiàn)如下,在參與游戲至少 5 局的玩家中,它取得了第 2 名的成績。在所有玩家中也名列前 10%。整體優(yōu)于人類玩家的平均水平。

下面來看看 Cicero 的工作方式。它的輸入包括游戲棋盤和對話歷史,其條件動(dòng)作模型需要基于此預(yù)測所有玩家在當(dāng)前回合會做什么,然后將這些動(dòng)作輸入到一個(gè)規(guī)劃引擎中。

Brown 表示規(guī)劃引擎是Cicero 的一大創(chuàng)新,現(xiàn)今的許多語言模型都還不具備這一點(diǎn)。

這個(gè)規(guī)劃引擎會迭代式地預(yù)測所有玩家的動(dòng)作以及所有玩家可能預(yù)測的Cicero 的動(dòng)作。

最終,這會得到一個(gè)輸出動(dòng)作,還會得到一些意圖——用于調(diào)節(jié)對話模型。也就是說,在執(zhí)行了規(guī)劃,搞清楚了我們應(yīng)該在本回合中采取哪些行動(dòng)以及我們認(rèn)為其他玩家在本回合中會采取哪些行動(dòng)之后,將這些規(guī)劃輸入對話模型,使對話模型以此為條件輸出消息。

Brown 也提到這個(gè)過程非常耗時(shí),通常每一次都需要至少 10 秒才能生成一個(gè)消息(他們使用了幾十臺 GPU)。但這種時(shí)間成本是值得的,能大幅提升性能。

規(guī)劃為何有效?

規(guī)劃為什么能帶來如此巨大的性能提升?Brown 提到了「生成器-驗(yàn)證器差距」現(xiàn)象。簡單來說,在許多領(lǐng)域,生成一個(gè)好解決方案的難度通常大于驗(yàn)證一個(gè)解決方案的難度。舉個(gè)例子,玩數(shù)獨(dú)游戲肯定比驗(yàn)證已經(jīng)填入的數(shù)值更難。

但在另一些領(lǐng)域,情況卻并非如此。比如對于信息檢索任務(wù),如果問不丹的首都是哪里,模型可以一口氣生成幾十個(gè)候選項(xiàng),但我們還要費(fèi)一番功夫去驗(yàn)證它。圖像生成也是如此:生成圖像很簡單,但要驗(yàn)證生成的圖像是否滿足要求會更困難。

因此,當(dāng)存在「生成器-驗(yàn)證器差距」且具有比較好的驗(yàn)證器時(shí),我們可以將更多計(jì)算放在生成上,然后驗(yàn)證結(jié)果。

在語言模型中使用規(guī)劃

之后,Noam Brown 開始討論語言模型。有趣的是他在此時(shí)強(qiáng)調(diào):「我只能談?wù)撘寻l(fā)表的研究。」這似乎在暗示他參與了或至少知道一些未發(fā)表的相關(guān)研究——或許就是 OpenAI ο1 及未來模型用到的技術(shù)。

他認(rèn)為人們依然低估了這些技術(shù)所能帶來的增益。

有一種名為 Consensus(共識)的算法是這樣執(zhí)行驗(yàn)證的:讓 LLM 生成多個(gè)解,然后選擇出現(xiàn)次數(shù)最多的那個(gè)。

方法很簡單,但僅憑此方法,Minerva 模型在 MATH 數(shù)據(jù)集上的表現(xiàn)就從 33.6% 提升到了 50.3%。這里 Minerva 對每個(gè)問題采樣 1000 次。

但這種方法也有缺點(diǎn),那就是只適合答案只有數(shù)值等簡單結(jié)果的問題。對于證明題之類的任務(wù),就沒辦法了,因?yàn)檫@些任務(wù)很難每次都有一樣的結(jié)果,難以達(dá)成共識。

另一種方法是 Best of N。這需要用到一個(gè)獎(jiǎng)勵(lì)模型來為生成的 N 個(gè)答案打分,然后返回最佳結(jié)果。這種方法的表現(xiàn)依賴于獎(jiǎng)勵(lì)模型的質(zhì)量。如果獎(jiǎng)勵(lì)模型質(zhì)量不行,就可能出現(xiàn)在錯(cuò)誤上過擬合的問題。

我們還可以做到更好。接下來Brown 介紹了那篇著名的論文《Let's Verify Step By Step》。機(jī)器之心也曾報(bào)道過這項(xiàng)研究,參閱《OpenAI要為GPT-4解決數(shù)學(xué)問題了:獎(jiǎng)勵(lì)模型指錯(cuò),解題水平達(dá)到新高度》。

這篇論文發(fā)布于大概一年前,其中提出了「過程獎(jiǎng)勵(lì)模型」這一思路。簡單來說,就是不再只是驗(yàn)證最終解答,而是驗(yàn)證每一步求解過程。只要過程中存在任何不正確的步驟,就判定最終結(jié)果是錯(cuò)誤的,即便最終結(jié)果看起來是正確的。

這種方法的表現(xiàn)如何呢??cè)缦聢D所示,橙色線是過程獎(jiǎng)勵(lì)模型的表現(xiàn),可以看到,其顯著優(yōu)于Best of N 和結(jié)果導(dǎo)向的獎(jiǎng)勵(lì)模型,并且其優(yōu)勢會隨著求解數(shù)量 N 的提升而提升。

Brown 舉了一個(gè)非常有趣的例子。讓LLM 解決這個(gè)數(shù)學(xué)問題:化簡 tan100° + 4sin100°。

原始 GPT-4 模型正確解答這個(gè)數(shù)學(xué)問題的可能性僅有千分之一,而逐步驗(yàn)證法可將其提升一大截。

當(dāng)今的 AI 圖景和未來方向

接著,Brown 話鋒一轉(zhuǎn),分享了當(dāng)今的 AI 圖景。請注意,由于這次演講發(fā)生于 2024 年 5 月 23 日,因此其中并沒有最新的模型。但他談到的發(fā)展趨勢依然很有價(jià)值。

他說,在他研究生階段研究撲克 AI 時(shí),人們自認(rèn)為找到了實(shí)現(xiàn)超人級撲克 AI 的方法:使用已有的算法,每一年都提升其計(jì)算和數(shù)據(jù)規(guī)模即可,然后就能擊敗前一年的模型。

他認(rèn)為當(dāng)今的 AI 領(lǐng)域也非常相似:有一種有效的技術(shù),然后用更大的模型在更多的數(shù)據(jù)上訓(xùn)練更長時(shí)間,讓其不斷變得更好。與此同時(shí),推理成本依然很低。Brown 表示未來不一定還是如此。

(當(dāng)然,我們知道 o1 的出現(xiàn)已經(jīng)開始扭轉(zhuǎn)這一趨勢,讓人們更加注重研究推理時(shí)間的計(jì)算,即 inference-time compute 或 test-time compute)。

對于編程輔助和翻譯這樣的任務(wù),我們可能并不愿意等待很長時(shí)間,但對于另一些重要問題,我們甘心等待幾個(gè)小時(shí)乃至很多天,比如解決黎曼猜想或發(fā)現(xiàn)救命藥物,又或者生成一部優(yōu)質(zhì)的小說。

他介紹了自己的「下一個(gè)目標(biāo)」:通用性。

我們能否開發(fā)出用于擴(kuò)展推理計(jì)算的真正通用的方法?

通過提升測試時(shí)間的計(jì)算成本來打造更強(qiáng)大的模型(我們愿意為解決黎曼猜想或發(fā)現(xiàn)救命藥物付出多少推理成本?)

這些研究能讓我們大致窺見未來遠(yuǎn)遠(yuǎn)更加強(qiáng)大的模型。(或許就是 OpenAI CEO 山姆?奧特曼所說的「超級智能」?)。

他也給學(xué)術(shù)界的研究者提了一點(diǎn)建議:

規(guī)劃是一個(gè)相對較好的研究領(lǐng)域,對資源不豐富的學(xué)術(shù)研究者來說,這個(gè)方向避開了與大公司的正面競爭,或許更容易出成果。因?yàn)榇蠊净诶婵紤],更愿意訓(xùn)練超大模型,同時(shí)盡可能地降低推理成本,以便為大量用戶提供服務(wù)。

另一個(gè)頗具潛力的研究方向是「外部驗(yàn)證器」,因?yàn)檫@樣可以避免受到獎(jiǎng)勵(lì)模型質(zhì)量瓶頸的限制。

最后,Brown 提到了 Richard Sutton 那篇著名的文章《苦澀的教訓(xùn)》。

他引用了這兩句:「70 年的人工智能研究史告訴我們,利用計(jì)算能力的一般方法最終是最有效的方法。……搜索和學(xué)習(xí)似乎正是兩種以這種方式隨意擴(kuò)展的方法。」

收藏0

發(fā)表評論

訪客

看不清,換一張

◎歡迎參與討論,請?jiān)谶@里發(fā)表您的看法和觀點(diǎn)。
人妻无码中文字幕| 热99re久久国超精品首页| 天天摸天天做天天爽2019| av永久免费网站在线观看| 国内揄拍国内精品| 国产一区视频一区欧美| 亚洲加勒比无码一区二区| 国产一区二区三区免费观看在线| 欧洲丰满少妇做爰视频爽爽| 精品国产一区二区三区吸毒| 久久天天躁夜夜躁狠狠躁2022| 国产 日韩 另类 视频一区| 国产人妻人伦精品婷婷| 亚洲国产一区二区三区波多野结衣| 玩弄放荡人妻少妇系列视频| 亚洲gv永久无码天堂网| 日韩一卡2卡3卡4卡新区亚洲 | 亚洲综合精品伊人久久| 国产成人精品亚洲一区| 成人看片黄a免费看那个网址 | 护士av无码在线观看| 亚洲国产精品日韩av专区| 在线日产精品一区| 精人妻无码一区二区三区 | 亚洲产国偷v产偷v自拍色戒| 亚洲精品av中文字幕在线| 无码粉嫩虎白一线天在线观看| 亚洲欧美日韩在线码| 天天干天天日夜夜操| 国产日产精品久久快鸭的功能介绍| 性欧美高清come| 男男19禁啪啪无遮挡免费| 极品粉嫩嫩模大尺度无码| 视频区国产亚洲.欧美| 成年女性特黄午夜视频免费看| 九九在线中文字幕无码| 中文字幕无线观看中文字幕| 欧美黑人又粗又大久久久| 亚洲最新版av无码中文字幕一区| 亚洲a∨无码一区二区三区| 国产精品原创av片国产日韩|