示例：在Twitter源中發(fā)現(xiàn)一些共現(xiàn)詞

發(fā)布時間： 2023-03-30 09:27:31 作者：etogether.net 來源：網(wǎng)絡瀏覽次數(shù)：

接下來要搜索一支名為RIMM的股票：

>>> lotsOtweets = fpGrowth.getLotsOfTweets('RIMM')

fetching page 1

fetching page 2

lotsotweets列表包含14個子列表，每個子列表有100條推文?？梢暂斎胂旅娴拿顏聿榭赐莆牡膬?nèi)容：

>>> lotsOtweets [0][4] .text

u"RIM: Open The Network, Says ThinkEquity: In addition, RIMM needs to reinvent its image, not only demonstrating ... http://bit.ly/lvlVlU"

正如所看到的那樣，有些人會在推文中放人URL。這樣在解析時，結果就會比較亂。因此必須去掉URL，以便可以獲得推文中的單詞。下面程序清單中的一部分代碼用來將推文解析成字符串列表，另一部分會在數(shù)據(jù)集上運行FP-growth算法。將下面的代碼添加到fpGrowth.py文件中。

程序清單2 文本解析及合成代碼

程序清單2.png

上述程序清單中的第一個函數(shù)里添加了一行代碼用于去除URL。這里通過調(diào)用正則表達式模塊來移除任何URL。程序清單2中的另一個函數(shù)mineTweets()為每個推文調(diào)用textParse。最后，mineTweets()函數(shù)將命令封裝到一起，來構建FP樹并對其進行挖掘。最后返回所有頻繁項集組成的列表。

下面看看運行的效果：

>>> reload(fpGrowth)

Let's look for sets that occur more than 20 times:

>>> listOfTerms = fpGrowth.mineTweets(lotsOtweets, 20)

How many sets occurred in 20 or more of the documents?

>>> len(listOfTerms)

455

我寫這段代碼的前一天，一家以RIMM股票代碼進行交易的公司開了一次電話會議，會議并沒有令投資人滿意。該股開盤價相對前一天封盤價暴跌22%。下面看下上述情況是否在推文中體現(xiàn)：

>>> for t in listOfTerms:

... print t

set ([u'rimm', u'day'])

set ([u'rimm', u'earnings'])

set ([u'pounding', u'value'])

set ([u'pounding', u'overnight'])

set ([u'pounding', u'drops'])

set ([u'pounding', u'shares'])

set ([u'pounding', u'are'])

set ([u'overnight'])

set ([u'drops', u'overnight'])

set ([u'motion', u'drops', u'overnight'])

set ([u'motion', u'drops', u'overnight', u'value'])

set ([u'drops', u'overnight', u'research'])

set ([u'drops', u'overnight', u'value', u'research'])

set ([u'motion', u'drops', u'overnight', u'value', u'research'])

set ([u'motion', u'drops', u'overnight', u'research'])

set ([u'drops', u'overnight'; u'value'])

嘗試一些其他的minSupport值或者搜索詞也是蠻有趣的。

我們還記得FP樹的構建是通過每次應用一個實例的方式來完成的。這里假設已經(jīng)獲得了所有數(shù)據(jù)，所以剛才是直接遍歷所有的數(shù)據(jù)來構建Fp樹的。實際上可以重寫createTree()函數(shù)，每次讀人一個實例，并隨著Twitter流的不斷輸入而不斷增長樹。FP-growth算法還有一個map-reduce版本的實現(xiàn)，它也很不錯，可以擴展到多臺機器上運行。Google使用該算法通過遍歷大量文本來發(fā)現(xiàn)頻繁共現(xiàn)詞，其做法和我們剛才介紹的例子非常類似。

責任編輯：admin

[上一頁][1] [2] 【歡迎大家踴躍評論】

上一篇：基于協(xié)同過濾的推薦引擎
下一篇：FP樹：用于編碼數(shù)據(jù)集的有效方式

《譯聚網(wǎng)》倡導尊重與保護知識產(chǎn)權。如發(fā)現(xiàn)本站文章存在版權問題，煩請30天內(nèi)提供版權疑問、身份證明、版權證明、聯(lián)系方式等發(fā)郵件至info@qiqee.net，我們將及時溝通與處理。

把腿张开老子臊烂你多p视频软件,free性国产高清videos,av在线亚洲男人的天堂,hdsexvideos中国少妇,俄罗斯真人性做爰

示例：在Twitter源中發(fā)現(xiàn)一些共現(xiàn)詞

相關機器翻譯技術文章

免費在線翻譯

翻譯機

外語書籍

行業(yè)文章

人工翻譯