僅在里邊定義連接字串,在使用的時(shí)候在創(chuàng)建對(duì)象,使用完對(duì)象就關(guān)閉
Config.asp:
Quote
<%
Dim Def_Sample
Def_Path=server.MapPath("data.mdb")
Def_Sample="DBQ="+Def_Path+";DefaultDir=;DRIVER={Microsoft Access Driver (*.mdb)};" '連接字串
%>
文本分類問(wèn)題與其它分類問(wèn)題沒有本質(zhì)上的區(qū)別,其方法可以歸結(jié)為根據(jù)待分類數(shù)據(jù)的某些特征來(lái)進(jìn)行匹配,當(dāng)然完全的匹配是不太可能的,因此必須(根據(jù)某種評(píng)價(jià)標(biāo)準(zhǔn))選擇最優(yōu)的匹配結(jié)果,從而完成分類。
后來(lái)人們意識(shí)到,究竟依據(jù)什么特征來(lái)判斷文本應(yīng)當(dāng)隸屬的類別這個(gè)問(wèn)題,就連人類自己都不太回答得清楚,有太多所謂“只可意會(huì),不能言傳”的東西在里面。人類的判斷大多依據(jù)經(jīng)驗(yàn)以及直覺,因此自然而然的會(huì)有人想到何讓機(jī)器像人類一樣自己來(lái)通過(guò)對(duì)大量同類文檔的觀察來(lái)自己總結(jié)經(jīng)驗(yàn),作為今后分類的依據(jù)。
這便是統(tǒng)計(jì)學(xué)習(xí)方法的基本思想。統(tǒng)計(jì)學(xué)習(xí)方法需要一批由人工進(jìn)行了準(zhǔn)確分類的文檔作為學(xué)習(xí)的材料(稱為訓(xùn)練集,注意由人分類一批文檔比從這些文檔中總結(jié)出準(zhǔn)確的規(guī)則成本要低得多),計(jì)算機(jī)從這些文檔中挖掘出一些能夠有效分類的規(guī)則,這個(gè)過(guò)程被形象的稱為訓(xùn)練,而總結(jié)出的規(guī)則集合常常被稱為分類器。
訓(xùn)練完成之后,需要對(duì)計(jì)算機(jī)從來(lái)沒有見過(guò)的文檔進(jìn)行分類時(shí),便使用這些分類器來(lái)進(jìn)行。這些訓(xùn)練集包括sogou文本分類分類測(cè)試數(shù)據(jù)、中文文本分類分類語(yǔ)料庫(kù),包含Arts、Literature等類別的語(yǔ)料文本、可用于聚類的英文文本數(shù)據(jù)集、網(wǎng)易分類文本分類文本數(shù)據(jù)、tc-corpus-train(語(yǔ)料庫(kù)訓(xùn)練集,適用于文本分類分類中的訓(xùn)練)、2002年中文網(wǎng)頁(yè)分類訓(xùn)練集CCT2002-v1.1等。
現(xiàn)如今,統(tǒng)計(jì)學(xué)習(xí)方法已經(jīng)成為了文本分類領(lǐng)域絕對(duì)的主流。主要的原因在于其中的很多技術(shù)擁有堅(jiān)實(shí)的理論基礎(chǔ)(相比之下,知識(shí)工程方法中專家的主觀因素居多),存在明確的評(píng)價(jià)標(biāo)準(zhǔn),以及實(shí)際表現(xiàn)良好。
統(tǒng)計(jì)分類算法 將樣本數(shù)據(jù)成功轉(zhuǎn)化為向量表示之后,計(jì)算機(jī)才算開始真正意義上的“學(xué)習(xí)”過(guò)程。常用的分類算法為:決策樹,Rocchio,樸素貝葉斯,神經(jīng)網(wǎng)絡(luò),支持向量機(jī),線性最小平方擬合,kNN,遺傳算法,最大熵,Generalized Instance Set等。
在這里只挑幾個(gè)最具代表性的算法侃一侃。Rocchio算法 Rocchio算法應(yīng)該算是人們思考文本分類問(wèn)題時(shí)最先能想到,也最符合直覺的解決方法。
基本的思路是把一個(gè)類別里的樣本文檔各項(xiàng)取個(gè)平均值(例如把所有 “體育”類文檔中詞匯“籃球”出現(xiàn)的次數(shù)取個(gè)平均值,再把“裁判”取個(gè)平均值,依次做下去),可以得到一個(gè)新的向量,形象的稱之為“質(zhì)心”,質(zhì)心就成了這 個(gè)類別最具代表性的向量表示。再有新文檔需要判斷的時(shí)候,比較新文檔和質(zhì)心有多么相像(八股點(diǎn)說(shuō),判斷他們之間的距離)就可以確定新文檔屬不屬于這個(gè)類。
稍微改進(jìn)一點(diǎn)的Rocchio算法不僅考慮屬于這個(gè)類別的文檔(稱為正樣本),也考慮不屬于這個(gè)類別的文檔數(shù)據(jù)(稱為負(fù)樣本),計(jì)算出來(lái)的質(zhì)心盡量靠近正樣本同時(shí)盡量遠(yuǎn)離負(fù)樣本。Rocchio算法做了兩個(gè)很致命的假設(shè),使得它的性能出奇的差。
一是它認(rèn)為一個(gè)類別的文檔僅僅聚集在一個(gè)質(zhì)心的周圍,實(shí)際情況往往不是如此(這樣的數(shù)據(jù)稱為線性不可分的);二是它假設(shè)訓(xùn)練數(shù)據(jù)是絕對(duì)正確的,因?yàn)樗鼪]有任何定量衡量樣本是否含有噪聲的機(jī)制,因而也就對(duì)錯(cuò)誤數(shù)據(jù)毫無(wú)抵抗力。不過(guò)Rocchio產(chǎn)生的分類器很直觀,很容易被人類理解,算法也簡(jiǎn)單,還是有一定的利用價(jià)值的,常常被用來(lái)做科研中比較不同算法優(yōu)劣的基線系統(tǒng)(Base Line)。
樸素貝葉斯算法 貝葉斯算法關(guān)注的是文檔屬于某類別概率。文檔屬于某個(gè)類別的概率等于文檔中每個(gè)詞屬于該類別的概率的綜合表達(dá)式。
而每個(gè)詞屬于該類別的概率又在一定程度上 可以用這個(gè)詞在該類別訓(xùn)練文檔中出現(xiàn)的次數(shù)(詞頻信息)來(lái)粗略估計(jì),因而使得整個(gè)計(jì)算過(guò)程成為可行的。使用樸素貝葉斯算法時(shí),在訓(xùn)練階段的主要任務(wù)就是估計(jì)這些值。
樸素貝葉斯算法的公式并不是只有一個(gè)。首先對(duì)于每一個(gè)樣本中的元素要計(jì)算先驗(yàn)概率。
其次要計(jì)算一個(gè)樣本對(duì)于每個(gè)分類的概率,概率最大的分類將被采納。所以 其中P(d| Ci)=P(w1|Ci) P(w2|Ci) …P(wi|Ci) P(w1|Ci) …P(wm|Ci) (式1) P(w|C)=元素w在分類為C的樣本中出現(xiàn)次數(shù)/數(shù)據(jù)整理后的樣本中元素的總數(shù)(式2) 這其中就蘊(yùn)含著樸素貝葉斯算法最大的兩個(gè)缺陷。
首先,P(d| Ci)之所以能展開成(式1)的連乘積形式,就是假設(shè)一篇文章中的各個(gè)詞之間是彼此獨(dú)立的,其中一個(gè)詞的出現(xiàn)絲毫不受另一個(gè)詞的影響(回憶一下概率論中變 量彼此獨(dú)立的概念就可以知道),但這顯然不對(duì),即使不是語(yǔ)言學(xué)專家的我們也知道,詞語(yǔ)之間有明顯的所謂“共現(xiàn)”關(guān)系,在不同主題的文章中,可能共現(xiàn)的次數(shù) 或頻率有變化,但彼此間絕對(duì)談不上獨(dú)立。其二,使用某個(gè)詞在某個(gè)類別訓(xùn)練文檔中出現(xiàn)的次數(shù)來(lái)估計(jì)P(wi|Ci)時(shí),只在訓(xùn)練樣本數(shù)量非常多的情況下才比較準(zhǔn)確(考慮扔硬幣的問(wèn)題,得通過(guò)大量觀 察才能基本得出正反面出現(xiàn)的概率都是二分之一的結(jié)論,觀察次數(shù)太少時(shí)很可能得到錯(cuò)誤的答案),而需要大量樣本的要求不僅給前期人工分類的工作帶來(lái)更高要求 (從而成本上升),在后期由計(jì)算機(jī)處理的時(shí)候也對(duì)存儲(chǔ)和計(jì)算資源提出了更高的要求。
但是稍有常識(shí)的技術(shù)人員都會(huì)了解,數(shù)據(jù)挖掘中占用大量時(shí)間的部分是數(shù)據(jù)整理。在數(shù)據(jù)整理階段,可以根據(jù)詞匯的情況生成字典,刪除冗余沒有意義的。
在word中,以word2010為例來(lái)介紹七種文本選取的方法,以便提升工作效率。
1、第一種選擇字或詞組的方法。
通常是通過(guò)拖動(dòng)鼠標(biāo)來(lái)實(shí)現(xiàn)單詞和單詞的選擇,另外,基于單詞的強(qiáng)大關(guān)聯(lián)功能,還可以通過(guò)將光標(biāo)移動(dòng)到短語(yǔ)的中間然后雙擊鼠標(biāo)來(lái)選擇短語(yǔ),如下圖所示。
2、第二種是選擇單行和段落的方法。
可以將光標(biāo)移動(dòng)到行的左端,當(dāng)箭頭處于箭頭狀態(tài)時(shí)單擊鼠標(biāo),然后是文本行選中,如果雙擊鼠標(biāo),則可以選擇段落文本,相比較拖動(dòng)鼠標(biāo)來(lái)選擇單行文本這種方法要快得多。
3、第三種是選擇整篇。
只需要將光標(biāo)移動(dòng)到文檔的左側(cè),顯示光標(biāo)時(shí),可以通過(guò)三擊左鍵來(lái)選擇整篇文章,除此之外還可以用“Ctrl+A”來(lái)實(shí)現(xiàn)選擇整篇。
4、第四種是跨頁(yè)選擇文本。
如果要選擇的文本不在一頁(yè)上,用手動(dòng)發(fā)票的方式來(lái)選擇是非常不方便的,這時(shí)可以用先停止光標(biāo),然后選擇文本,然后向下滾動(dòng)選擇在文本末尾,按住shift并單擊此處的方法。
或是在選擇文本前按住光標(biāo),按F8,然后在所選文本末尾單擊鼠標(biāo),可以通過(guò)調(diào)整鼠標(biāo)位置靈活選擇文本,之后,按Esc鍵結(jié)束。
5、第五種是選擇區(qū)域文本的方法。
如果選擇的劃如下圖所示的區(qū)域內(nèi)的文字,用鼠標(biāo)拖動(dòng)就無(wú)法實(shí)現(xiàn),這時(shí)可將光標(biāo)移動(dòng)到選區(qū)開頭,按住Alt鍵將矩形區(qū)域拉出到右下方,將選擇區(qū)域中的文本,更改顏色以查看選擇效果。
6、第六種是選擇相似文本的方法。
這一方法主要是針對(duì)標(biāo)題類的文本選擇,可先選中某一級(jí)的標(biāo)題,再選擇并點(diǎn)擊“選擇格式相似的文本”,就可以看到同一級(jí)的標(biāo)題都被選中了。
7、第七種是間隔選擇文本的方法。
如果要在同一文本中選擇不同區(qū)域的文本,先選擇一部分文本,然后按住Ctrl鍵,再將其它部分加入,若對(duì)某一部分不想選擇了,也可以將光標(biāo)移動(dòng)到此部分,后點(diǎn)擊左鍵即可取消該此部分。
趙琦(黑龍江省總工會(huì),黑龍江 哈爾濱 150000) 摘要:文書檔案是社會(huì)發(fā)展的主要記錄載體,從古至今,人們對(duì)檔案工作一直都非常重視。
在社會(huì)不斷發(fā)展中,文書檔案管理方法不斷完善,這也意味著文書檔案的管理不斷細(xì)分,因此在文書檔案管理中需要對(duì)檔案進(jìn)行嚴(yán)格分類,以此提高文書檔案工作效率。本文闡述了文書檔案工作中最常見的三類分類方法,主要分為:年度分類法、組織機(jī)構(gòu)分類法和問(wèn)題分類法。
關(guān)鍵詞:文書檔案;分類方法;年度分類法;組織機(jī)構(gòu);問(wèn)題分類法 文書檔案是記載了社會(huì)發(fā)展中各種現(xiàn)實(shí)事物發(fā)生的整體過(guò)程,通過(guò)對(duì)歷史客觀記錄來(lái)衡量某一時(shí)期領(lǐng)導(dǎo)人供給,同時(shí)是反應(yīng)某一時(shí)期各個(gè)基層、部門建設(shè)和科技成果開發(fā)的主要措施。伴隨著社會(huì)發(fā)展中,人們對(duì)文書檔案認(rèn)識(shí)的不斷增加,文書檔案分類是與檔案整體工作的基本出發(fā)點(diǎn)和根本目的,是保持文件之間歷史聯(lián)系發(fā)生各種矛盾的過(guò)程中能夠充分的考慮和保管,利用相應(yīng)的方便來(lái)實(shí)現(xiàn)檔案管理效率。
在文書檔案工作中,分類是通過(guò)將文件按照不同的形式和形成機(jī)關(guān)等因素分開,避免出現(xiàn)不同機(jī)關(guān)文件的混雜,造成檔案管理工作的混亂。1 年度分類法 就是根據(jù)形成和處理文件的年度,是通過(guò)將全宗內(nèi)的所有文書檔案按照時(shí)間為標(biāo)準(zhǔn)進(jìn)行逐步區(qū)分,通過(guò)形成年限逐次排開。
運(yùn)用年度分類法,要求根據(jù)文件的準(zhǔn)確日期將文書檔案進(jìn)行歸納,并且注明其形成的實(shí)踐,這是確保分類質(zhì)量和效率的關(guān)鍵,同時(shí)也是在當(dāng)前實(shí)際工作中能夠合理完善檔案分類工作的有效措施,其在分類的過(guò)程中需要注意一下幾個(gè)方面:一是在實(shí)際社會(huì)活動(dòng)中,不僅有通用的公歷年度,其中也有一些特殊行業(yè)和部門是按照工作性質(zhì)和工作特點(diǎn)的需要來(lái)對(duì)檔案在應(yīng)用中采用過(guò)去農(nóng)歷方式進(jìn)行編制的,這就造成檔案在分類中容易混淆的問(wèn)題,因此在分類的過(guò)程中需要對(duì)這種情況嚴(yán)加分析,避免出現(xiàn)文檔分類的混亂。二是某些文件上有幾種日期,如起草日期、簽署日期、批準(zhǔn)日期、會(huì)議通過(guò)日期、發(fā)布日期和收文日期等,這些日期有時(shí)還不屬于同一年度。
在這種情況下,要根據(jù)文件的具體情況確定一個(gè)最能說(shuō)明文件時(shí)間特點(diǎn)的日期。通常的做法是:內(nèi)部文件和一般發(fā)文以文件的寫成日期為根據(jù);來(lái)往文件中收文以收到日期為根據(jù);法律、法令和條例等法規(guī)文件以批準(zhǔn)日期或公布、生效日期為根據(jù);指示、命令等指令性文件以文件簽署日期即落款日期為根據(jù);計(jì)劃、總結(jié)、預(yù)算、決算、統(tǒng)計(jì)報(bào)表等以內(nèi)容所針對(duì)的時(shí)限為根據(jù);跨年度處理的專門案卷、來(lái)往文書等可放入關(guān)系最密切的年度或最后結(jié)案的年度。
期刊文章分類查詢,盡在期刊圖書館 三是一些文件由于某種原因沒有標(biāo)注或找不到日期,對(duì)此需要根據(jù)文件的具體情況,采取適宜的辦法考證和判定文件的準(zhǔn)確或近似的日期,并將其妥善歸類。在文書檔案的管理工作中,對(duì)分類要求日益增加。
文書檔案在管理中一般都是通過(guò)以每份文件為一件,文件正本與定稿為一件,正文與附件為一件,元件與復(fù)制件為一件,轉(zhuǎn)發(fā)文件與被轉(zhuǎn)發(fā)文件。四是在年度分類的過(guò)程中一般都是通過(guò)將一份文件結(jié)合實(shí)踐特征來(lái)進(jìn)行整理,這是通過(guò)成文時(shí)間、簽發(fā)時(shí)間、批復(fù)時(shí)間、通過(guò)實(shí)踐和公布時(shí)間等,不過(guò)在目前的分類管理中一般應(yīng)用醉倒的是文件的簽發(fā)時(shí)間。
以文件簽發(fā)時(shí)間來(lái)判定文件的所屬年度是當(dāng)前對(duì)各個(gè)單位和企業(yè)進(jìn)行總結(jié)的主要方法,同時(shí)也是按照新方法取消其中內(nèi)容的主要手段。2 組織機(jī)構(gòu)分類法 就是根據(jù)文書處理階段形成和處理文件的承辦單位進(jìn)行分類。
它以立檔單位內(nèi)部的組織機(jī)構(gòu)為標(biāo)準(zhǔn),按不同的機(jī)構(gòu)分別設(shè)置類目。采用組織機(jī)構(gòu)分類方法應(yīng)具備一定的條件:第一,立檔單位每年設(shè)立的內(nèi)部組織機(jī)構(gòu)應(yīng)當(dāng)基本穩(wěn)定。
內(nèi)部組織機(jī)構(gòu)經(jīng)常調(diào)整變化的立檔單位,不宜采用這種方法。第二,立檔單位設(shè)立的各個(gè)內(nèi)部組織機(jī)構(gòu)應(yīng)當(dāng)能夠反映該單位的職能分工情況,并且每個(gè)組織機(jī)構(gòu)具有較穩(wěn)定的基本工作任務(wù)或職責(zé),其工作活動(dòng)的內(nèi)容及過(guò)程應(yīng)同該機(jī)構(gòu)承擔(dān)的相關(guān)職能保持一致。
第三,立檔單位的文件上應(yīng)有各組織機(jī)構(gòu)在形成及承辦文件時(shí)留下的標(biāo)記,如收文章、發(fā)文號(hào)等。組織機(jī)構(gòu)分類法的類別設(shè)置,一般是以立檔單位內(nèi)第一層組織機(jī)構(gòu)分類,需要時(shí)也可以分到第二層組織機(jī)構(gòu),往往有一個(gè)機(jī)構(gòu)就設(shè)一個(gè)類。
如果一個(gè)單位的機(jī)構(gòu)包括辦公室、人事部、財(cái)會(huì)部、組織部、宣傳部等,采用組織機(jī)構(gòu)分類法就可將檔案分為辦公室類、人事部類、財(cái)會(huì)部類、組織部類、宣傳部類等。各類的排列次序一般按習(xí)慣或正式文件的規(guī)定,把領(lǐng)導(dǎo)機(jī)構(gòu)、綜合機(jī)構(gòu)排在前面。
3 問(wèn)題分類法 就是按照文件內(nèi)容所反映的問(wèn)題或“事由”將文書檔案劃分成各個(gè)類別。它以文件的內(nèi)容為標(biāo)準(zhǔn),按文件所涉及的問(wèn)題(事由)分類。
如一個(gè)全宗內(nèi)的檔案可以按人事、計(jì)劃、生產(chǎn)、銷售等類別分類,銷售類內(nèi)的檔案還可以按廣告宣傳、推銷、運(yùn)輸、售后服務(wù)等進(jìn)一步分類。這種分類方法要求問(wèn)題的概括應(yīng)當(dāng)準(zhǔn)確并且范圍明確,各個(gè)同級(jí)類目應(yīng)當(dāng)互相排斥,并按文件的主要內(nèi)容進(jìn)行歸類。
因此,相對(duì)而言,這種分類方法要求檔案人員具有較高的業(yè)務(wù)水平。為確保每份文件都能正確歸類,使用問(wèn)題分類法時(shí)應(yīng)注意以下。
用電腦對(duì)文本集(或其他實(shí)體或物件)按照一定的分類體系或標(biāo)準(zhǔn)進(jìn)行自動(dòng)分類標(biāo)記 基於分類體系的自動(dòng)分類 基於資訊過(guò)濾和用戶興趣(Profiles)的自動(dòng)分類 基於分類體系的自動(dòng)分類 所謂分類體系就是針對(duì)詞的統(tǒng)計(jì)來(lái)分類 關(guān)鍵字分類,現(xiàn)在的全文檢索 詞的正確切分不易分辨(白癡造句法) 基於資訊過(guò)濾和用戶興趣的自動(dòng)分類 學(xué)習(xí)人類對(duì)文本分類的知識(shí)和策略 從人對(duì)文本和類別之間相關(guān)性判斷來(lái)學(xué)習(xí)文件用字和標(biāo)記類別之間的關(guān)聯(lián) 請(qǐng)參考: n F. Sebastiani. “Machine learning in automated text categorization.” ACM Computing Surveys, 34(1), pp. 1-47, 2002. (.pdf) n M. Rogati and Y. Yang. High-performing feature selection for text classification ACM CIKM 2002. (.pdf) n Tie-Yan Liu, Yiming Yang, Hao Wan, et al, Support Vector Machines Classification with Very Large Scale Taxonomy, SIGKDD Explorations, Special Issue on Text Mining and Natural Language Processing, vol.7, issue.1, pp36~43, 2005. (.pdf) n 蘇金樹、張博鋒、徐 昕,基于機(jī)器學(xué)習(xí)的文本分類技術(shù)研究進(jìn)展 軟件學(xué)報(bào) 17(9): 1848-1859, 2006.9 (.pdf) n 基于統(tǒng)計(jì)學(xué)習(xí)理論的支持向量機(jī)算法研究 。
文本分類一般包括了文本的表達(dá)、分類器的選擇與訓(xùn)練、分類結(jié)果的評(píng)價(jià)與反饋等過(guò)程,其中文本的表達(dá)又可細(xì)分為文本預(yù)處理、索引和統(tǒng)計(jì)、特征抽取等步驟。文本分類系統(tǒng)的總體功能模塊為:
(1) 預(yù)處理:將原始語(yǔ)料格式化為同一格式,便于后續(xù)的統(tǒng)一處理;
(2) 索引:將文檔分解為基本處理單元,同時(shí)降低后續(xù)處理的開銷;
(3) 統(tǒng)計(jì):詞頻統(tǒng)計(jì),項(xiàng)(單詞、概念)與分類的相關(guān)概率;
(4) 特征抽取:從文檔中抽取出反映文檔主題的特征;
(5)分類器:分類器的訓(xùn)練;
(6) 評(píng)價(jià):分類器的測(cè)試結(jié)果分析。
聲明:本網(wǎng)站尊重并保護(hù)知識(shí)產(chǎn)權(quán),根據(jù)《信息網(wǎng)絡(luò)傳播權(quán)保護(hù)條例》,如果我們轉(zhuǎn)載的作品侵犯了您的權(quán)利,請(qǐng)?jiān)谝粋€(gè)月內(nèi)通知我們,我們會(huì)及時(shí)刪除。
蜀ICP備2020033479號(hào)-4 Copyright ? 2016 學(xué)習(xí)鳥. 頁(yè)面生成時(shí)間:3.444秒