my1192.蜜芽,4HU影库最新永久地址入口

當(dāng)前位置：首頁?信息動態(tài) ?行業(yè)動態(tài)

在檔案管理工作中漢字識別技術(shù)有著怎樣的作用呢？

來源：www.trustodo.com 發(fā)布時(shí)間：2018年11月15日

漢字辨認(rèn)技能(簡稱OCR)可以理解為是讓計(jì)算機(jī)認(rèn)字的技能。它經(jīng)過光電信號轉(zhuǎn)化，即文本數(shù)據(jù)。
　　一、漢字辨認(rèn)技能的運(yùn)用價(jià)值 漢字辨認(rèn)技能的運(yùn)用價(jià)值首要體現(xiàn)在兩個方面：
　　一方面，把紙質(zhì)檔案上的固定信息變成可以被檢索運(yùn)用的活信息，為文本數(shù)據(jù)管理技能供給豐厚的數(shù)據(jù)源。
　　首要，從庫存檔案的情況來看，近幾十年來構(gòu)成的很多印刷漢字檔案記載了咱們黨和國家的重要前史，對我國現(xiàn)代化作業(yè)的開展，對精神文明和物質(zhì)文明的建造都有著非常重要的運(yùn)用價(jià)值。但這部分檔案的內(nèi)容都沒有文本數(shù)據(jù)，或者說都只是固定在紙質(zhì)載體上的死信息。既使經(jīng)過掃描以圖畫辦法存儲于計(jì)算機(jī)中，檢索運(yùn)用也有不便利之處，難于滿意現(xiàn)代社會對檔案信息的多種運(yùn)用需求。其次，從辦公自動化的開展情況來看，每年接納的檔案中依然會有相當(dāng)數(shù)量的檔案沒有文本文件，或?yàn)橥鈫挝粊砦?，或?yàn)閬G掉損壞等。漢字辨認(rèn)技能的運(yùn)用價(jià)值就是使這兩大部分紙質(zhì)檔案上的固定信息變成可以被檢索運(yùn)用的活信息，為全文檢索供給數(shù) 據(jù)，使深層次的開發(fā)運(yùn)用成為或許，更好地為現(xiàn)代化建造作業(yè)效勞。
　　另一方面，供給了一種新的檔案目錄數(shù)據(jù)的錄入辦法。
　　運(yùn)用計(jì)算機(jī)以來，漢字錄入只要一種辦法，即健盤錄入。盡管現(xiàn)在漢字鍵盤錄入的辦法有許多種，并且日趨簡潔便利，已是年輕人必備的職業(yè)技能，可是它究竟歸于一種技能，不只需要反響活絡(luò)，手指靈敏，并且要熟記錄入的準(zhǔn)則、辦法和方法。這關(guān)于在檔案部分占有適當(dāng) 份額的中老年同志來說，把握起來確有難度。因而，鍵盤錄入辦法依然是影響一些檔案部分樹立檔案目錄信息數(shù)據(jù)庫的要素之一。OCR軟件為咱們供給了一條新的途徑。它經(jīng)過“遷延 ”的辦法，將屏幕上文件的目錄項(xiàng)如標(biāo)題、文號、責(zé)任者等直接移植到檔案目錄數(shù)據(jù)庫的相應(yīng)字段中去，簡略易學(xué)，一看就會。惋惜的是手藝“遷延”速度較慢，并且需求即時(shí)掃描或調(diào)用圖畫數(shù)據(jù)，所以單一運(yùn)用這種辦法錄入檔案目錄，速度不及熟練錄入員的鍵入速度。但它究竟是一種新的錄入辦法，為樹立檔案目錄信息數(shù)據(jù)庫供給了一條史無前例的途徑。并且，假如運(yùn)用OCR軟件一起樹立新式的綜合檔案信息數(shù)據(jù)庫，例如包含檔案的文件目錄、圖畫和文本等，作用就此較抱負(fù)了。
　　二、漢字辨認(rèn)后生成的文本數(shù)據(jù)的特點(diǎn)問題。
　　原始性是檔案的根本特點(diǎn)。漢字辨認(rèn)后生成的文本數(shù)據(jù)是根據(jù)檔案的根源信息，即固定在紙質(zhì)載體上的漢字信息進(jìn)行加工處理：掃描、辨認(rèn)、校正、修改等工序后構(gòu)成的復(fù)制加工品，因而不具有檔案的原始性。
　　知識性是檔案的又一個特點(diǎn)。漢字辨認(rèn)后生成的文本數(shù)據(jù)假如不計(jì)算人工校正后依然或許存在的細(xì)小差錯，應(yīng)該說具有與檔案原件平等的內(nèi)容，因而具有檔案的知識性。
　　漢字辨認(rèn)后生成的文本數(shù)據(jù)是將檔案的內(nèi)容以特其他物理辦法從頭記錄在特其他載體之上，比以文字的辦法記錄在紙質(zhì)載體之上更具有便于傳遞、接納、存儲、運(yùn)用以及不磨損、不丟失等特點(diǎn)。因而具有更強(qiáng)的信息性。
　　漢字辨認(rèn)后生成的文本數(shù)據(jù)應(yīng)該說，它是一種新式的檔案一次信息的復(fù)制品或編研開發(fā)作用。但作為一種新式的復(fù)制品或編研開發(fā)作用，因其生成的意圖不同，又具有兩種不同的特點(diǎn) ：當(dāng)以供給運(yùn)用為意圖經(jīng)過漢字辨認(rèn)樹立文本數(shù)據(jù)庫時(shí)，其文本數(shù)據(jù)具有類似于匯編類檔案編研作用的特點(diǎn);當(dāng)以編輯出版紙質(zhì)的檔案編研材料如大事記、組織機(jī)構(gòu)沿革、文件匯編等為意圖進(jìn)行漢字辨認(rèn)時(shí)，其文本數(shù)據(jù)不只具有類似于檔案編研作用的特點(diǎn)，并且具有檔案原始性的根本特點(diǎn)，由于它們是印刷品或出版物的根源信息。
　　由此可見，漢字辨認(rèn)后生成的文本數(shù)據(jù)是一種不同于傳統(tǒng)檔案特點(diǎn)的新式檔案信息。
　　三、漢字辨認(rèn)技能的運(yùn)用辦法
　　漢字辨認(rèn)技能在檔案管理作業(yè)中的運(yùn)用，根據(jù)其現(xiàn)在的技能水平首要適用于近幾十年來印刷漢字檔案內(nèi)容的辨認(rèn)，圖畫、文本數(shù)據(jù)的構(gòu)成、存儲和目錄數(shù)據(jù)的錄入等項(xiàng)作業(yè)。首要的應(yīng) 用辦法有：
　　(一)運(yùn)用者閱覽紙質(zhì)檔案的內(nèi)容之后，對其所需求的內(nèi)容進(jìn)行掃描和漢字辨認(rèn)，或打印出統(tǒng) 一格局的運(yùn)用摘抄，或直接供給文本復(fù)制。
　　這種運(yùn)用辦法的長處首要有：
　　1便運(yùn)用戶，可削減信息運(yùn)用過程中的重復(fù)勞動;
　　2不給檔案人員添加建庫的作業(yè)擔(dān)負(fù);
　　3節(jié)約建庫所需的經(jīng)費(fèi)開支。其缺陷首要有：
　　1存在對同一檔案內(nèi)容重復(fù)進(jìn)行掃描和漢字辨認(rèn)的或許性。
　　2不能為全文檢索供給數(shù)據(jù)，完成深層次開發(fā)檔案信息資源的意圖;
　　(二)輸入檔案目錄。這是加快檔案目錄信息數(shù)據(jù)庫建造的一條新路，可以使更多的人員從事輸入作業(yè)，但輸入速度不甚抱負(fù)，并且本錢費(fèi)用相對較高。
　　(三)掃描、保存圖畫并供給運(yùn)用，只針對運(yùn)用者需求的圖畫內(nèi)容進(jìn)行漢字辨認(rèn)等運(yùn)用效勞。
　　這種辦法必須在已有文件目錄的前提下運(yùn)用。其長處首要有：1具有供給原件和進(jìn)步信息運(yùn)用功率的兩層優(yōu)勢;2檔案人員不承當(dāng)漢字辨認(rèn)后生成的文本數(shù)據(jù)的保護(hù)作業(yè)。其缺陷首要有：1同第一種運(yùn)用辦法的缺陷。2漢字辨認(rèn)技能要求圖畫的光學(xué)分辨率較高，一般為3000dpi，而一般圖畫的分辨率僅為150dpi，因而所需的存儲空間較大，約是一般圖畫的2 、3倍，那么，所需的存儲本錢也要高得多。這種高價(jià)值的圖畫存儲僅用來滿意用戶運(yùn)用識其他需求好像有點(diǎn)因小失大。因而低分辨率的圖畫也能進(jìn)行漢字辨認(rèn)，只是辨認(rèn)率相對較低罷了。咱們也曾做過比照試驗(yàn)，同一頁印刷質(zhì)量杰出的B5紙型文件約500字，以300dpi進(jìn)行掃描，辨認(rèn)率為100%;以150dpi進(jìn)行掃描，辨認(rèn)率為99.4%(誤識3字)。這關(guān)于一般用戶而言無所謂的。
　　(四)樹立文本數(shù)據(jù)庫。這種辦法也應(yīng)在已有文件目錄的條件下運(yùn)用。其長處首要有：
　　1節(jié)約存儲空間和存儲本錢。仍以一頁B5型紙約500漢字的文件為例，以文本辦法存儲約需1000字節(jié);以圖畫辦法存儲約需25000字節(jié)。因而，同量漢字的文本辦法存儲比圖畫辦法存儲本錢低得多。
　　2為全文檢索供給數(shù)據(jù)，可以完成深層次開發(fā)運(yùn)用檔案信息資源的意圖。
　　其缺陷首要有：
　　1樹立文本數(shù)據(jù)庫的作業(yè)量較大。
　　2不能滿意用戶閱覽檔案原件的需求。
　　3由于沒有圖畫隨時(shí)供給根據(jù)，不便利于對文本數(shù)據(jù)的準(zhǔn)確性進(jìn)行核實(shí)。
　　(五)輸入目錄并保存圖畫。
　　(六)輸入目錄、樹立文本數(shù)據(jù)庫。
　　(七)保存圖畫、樹立文本件數(shù)據(jù)。
　　(八)輸入目錄、保存圖畫并樹立文本數(shù)據(jù)庫。
　　這是充分發(fā)揮OCR軟件功用，深層次開發(fā)運(yùn)用檔案信息資源的運(yùn)用辦法。但工程量較大，人力、資金需求較多，建庫周期較長。
　　跟著漢字辨認(rèn)技能水平的進(jìn)步和運(yùn)用的遍及，或許還會發(fā)生新的應(yīng)
　　用辦法，但無論運(yùn)用哪一種辦法，都必須契合本單位檔案管理作業(yè)的實(shí)踐，統(tǒng)籌考慮檔案情況、人員配備、經(jīng)費(fèi)才干、辦公自動化水平、檔案現(xiàn)代化建造開展規(guī)劃等方面的要素，以實(shí)在進(jìn)步檔案信息資源開發(fā)運(yùn)用才干為意圖，這樣才干收到事半功倍的作用。

上一條：司法所的“四化”規(guī)定有效的提高檔案管理效率

下一條：在現(xiàn)在加強(qiáng)聲像的檔案管理是刻不容緩的事項(xiàng)

欧美国产成人精品一区二区三区,久久精品国产欧美日韩亚洲,金瓶梅之官人我要,国产大陆亚洲精品国产