把腿张开老子臊烂你多p视频软件,free性国产高清videos,av在线亚洲男人的天堂,hdsexvideos中国少妇,俄罗斯真人性做爰

會(huì)員中心 |  會(huì)員注冊(cè)  |  兼職信息發(fā)布    瀏覽手機(jī)版!    超值滿減    人工翻譯    英語IT服務(wù) 貧困兒童資助 | 留言板 | 設(shè)為首頁 | 加入收藏  繁體中文
當(dāng)前位置:首頁 > 機(jī)翻技術(shù) > 識(shí)別技術(shù) > 正文

示例:在Twitter源中發(fā)現(xiàn)一些共現(xiàn)詞

發(fā)布時(shí)間: 2023-03-30 09:27:31   作者:etogether.net   來源: 網(wǎng)絡(luò)   瀏覽次數(shù):
摘要: 搜索API可以一次獲得100條推文,每100條推文作為一頁,而Twitter允許一次訪問14頁。


我們會(huì)用到一個(gè)叫做python-twitter的Python庫,其源代碼可以在http://code.google.com/p/python-twitter/下載。正如你猜到的那樣,借助它,我們可以使用Python來訪問Twitter。Twitter.com實(shí)際上是一個(gè)和其他人進(jìn)行交流的通道,其上發(fā)表的內(nèi)容被限制在140個(gè)字符以內(nèi),發(fā)表的一條信息稱為推文(tweet)。


有關(guān)Twitter API的文檔可以在http://dev.twitter.com/doc找到。API文檔與Python模塊中的關(guān)鍵詞并不完全一致。我推薦直接閱讀Python文件twitter.py,以完全理解庫的使用方法。有關(guān)該模塊的安裝可以參考附錄A。雖然這里只會(huì)用到函數(shù)庫的一小部分,但是使用API可以做更多事情,所以我鼓勵(lì)讀者去探索一下API的所有功能。


示例:發(fā)現(xiàn)Twitter源中的共現(xiàn)詞(co-cocuring word)

(1)收集數(shù)據(jù):使用python-twitter模塊來訪問推文。

(2)準(zhǔn)備數(shù)據(jù):編寫一個(gè)函數(shù)來去掉URL、去掉標(biāo)點(diǎn)、轉(zhuǎn)換成小寫并從字符串中建立一個(gè)單詞集合。

(3)分析數(shù)據(jù):在Python提示符下查看準(zhǔn)備好的數(shù)據(jù),確保它的正確性。

(4)訓(xùn)練算法:使用createTree()與mineTree()函數(shù)執(zhí)行PP-growth算法。

(5)測(cè)試算法:這里不適用。

(6)使用算法:本例中沒有包含具體應(yīng)用,可以考慮用于情感分析或者查詢推薦領(lǐng)域。


在使用API之前,需要兩個(gè)證書集合。第一個(gè)集合是consumer_key和consumer_secret,當(dāng)注冊(cè)開發(fā)app時(shí)(https://dev.twitter.com/apps/new)),可以從Twitter開發(fā)服務(wù)網(wǎng)站獲得。這些key對(duì)于要編寫的app是特定的。第二個(gè)集合是access_token_key和access_token_secret,它們是針對(duì)特定Twitter用戶的。為了獲得這些key,需要查看Twitter-Python 安裝包中的get_access_token.py文件(或者從Twitter開發(fā)網(wǎng)站中獲得)。這是一個(gè)命令行的Python腳本,該腳本使用OAuth來告訴Twitter應(yīng)用程序具有用戶的權(quán)限來發(fā)布信息。一旦完成上述工作之后,可以將獲得的值放入前面的代碼中開始工作。對(duì)于給定的搜索詞,下面要使用FP_growth算法來發(fā)現(xiàn)推文中的頻繁單詞集合。要提取盡可能多的推文(1400條)然后放到FP_growth算法中運(yùn)行。將下面的代碼添加到fpGrowth.py文件中。


程序清單1 訪問Twitter Python庫的代碼


程序清單1.png

這里需要導(dǎo)人三個(gè)庫,分別是twitter庫、用于正則表達(dá)式的庫,以及sleep函數(shù)。后面會(huì)使用正則表示式來幫助解析文本。


函數(shù)getLotsOfTweets() 處理認(rèn)證然后創(chuàng)建一個(gè)空列表。搜索API可以一次獲得100條推文。每100條推文作為一頁,而Twitter允許一次訪問14頁。在完成搜索調(diào)用之后,有一個(gè)6秒鐘的睡眠延遲,這樣做是出于禮貌,避免過于頻繁的訪問請(qǐng)求。print語句用于表明程序仍在執(zhí)行沒有死掉。


下面來抓取一些推文,在Python提示符下輸入:

>>> reload(fpGrowth)

<module 'fpGrowth' from 'fpGrowth.py'>



微信公眾號(hào)

[1] [2] [下一頁] 【歡迎大家踴躍評(píng)論】
我來說兩句
評(píng)論列表
已有 0 條評(píng)論(查看更多評(píng)論)