引論:我們為您整理了13篇數據分析的統計學基礎范文,供您借鑒以豐富您的創作。它們是您寫作時的寶貴資源,期望它們能夠激發您的創作靈感,讓您的文章更具深度。
篇1
近年來,隨著全球經濟一體化進程的加快和網絡時代信息獲取的便捷程度的極大提高,“用數據說話,做科學決策”已成為企業提高經營管理水平的必然選擇,在全球500強企業中,90%以上的重要投資和經營決策都取決于充分的數據分析支持。數據分析在企業戰略規劃、項目投資決策、融資決策、營銷決策、生產運營與管理決策中發揮的作用和價值日益顯現,并已被我國政府部門和各行各業越來越多的企業所認同。在這一時代背景下,社會對項目數據分析師、市場調查分析師這些高技能應用型人才的需求旺盛,供給缺口巨大,據權威部門預測,在未來幾年,我國對專業項目數據分析師的需求預計可達20萬人,調查分析師的市場缺口則在100萬人以上。面對社會對數據分析人才的強勁需求和高校經管專業畢業生就業難并存的局面,高校應充分地認識到,當今社會數據分析能力已成為經管類大學畢業生在職場中生存的一項核心能力,積極探討提升經管類專業大學生數據分析能力的有效策略,對于更好地適應社會需求,提高大學生的職業競爭力具有重要的意義。
一、社會對數據分析人才的技能與素質要求分析
數據分析是指運用適當的統計分析方法對收集來的大量數據進行整理、分析,從數據中提取有用信息并形成分析結論,提出有價值的決策參考建議的過程。數據分析師是指在不同行業中,專門從事數據搜集、整理、分析,并依據數據做出行業或市場研究、評估和預測的專業人員。筆者通過對各大招聘網站數據分析師、市場調查/市場分析師等職位招聘信息的搜索和分析,深入挖掘并歸納出社會用人單位對數據分析師職位的技能和能力素質要求(詳見下表1),以期為高校經管專業學生數據分析能力的培養提供參考。
從表1可以看出,數據分析能力是一種綜合實踐能力,它要求數據分析人員在了解行業狀況及公司業務流程的基礎上,構建數據分析的思路,主動地搜集相關數據,運用恰當的統計分析方法,借助于統計分析軟件對數據進行處理和分析,從而得出分析結論,并撰寫出有價值的分析報告。
通過以上分析,筆者認為,高校在經管類專業學生的培養定位中應對數據分析能力的培養給予充分的重視。應要求所有經管類專業的學生具備基本的數據分析能力,以適應本專業領域業務數據的收集、整理和初步分析的需要,并有針對性地培養出一批具有較強數據分析能力的學生,為他們考取項目數據分析師、調查分析師等資格證書創造條件,使他們有機會成為各行業中數據分析領域的高級專門人才。
二、經管類專業大學生數據分析能力培養中存在的主要問題
(一)經管類專業課程體系設置中缺少數據分析能力培養模塊
當前,在許多高校經管類專業的培養方案中,較少設有專門講授數據分析內容的課程。與數據分析相關的內容分散于《大學計算機基礎》、《數據庫應用基礎》、《統計學》、《市場調查與預測》等課程,學生雖然從多門課程中接觸到與數據分析相關的一些內容,但各門課程的教學資源未能實現有效的整合,如,《大學計算機基礎》課程一般在大一開設,該門課程中將Excel軟件作為辦公自動化軟件之一,一般只講授簡單的文字和數據錄入及處理,并未涉及Excel軟件的高級數據分析功能。而《統計學》和《市場調查與預測》課程一般在大二開設,主要側重于從理論上介紹數據的收集、整理和數據分析的各種方法,以及市場調查和市場預測的各種方法,這兩門課程主要為數據分析提供方法論的指導。這樣的課程體系設置中就缺少了將數據分析的方法與數據分析的工具結合起來培養學生數據分析實際技能的課程,致使學生并未能有效、深入地掌握實際的數據分析技能。
(二)缺少實用性強的培養學生數據分析能力的實踐教材
近年來,一些出版社出版了一批以Excel或SPSS為分析工具的統計分析教材,如:黃等編著的《Excel統計分析基礎教程》、鄧維斌等編著的《SPSS19(中文版)統計分析實用教程》等教材,這些教材在內容體系上與《統計學》教材大體相同,教材內容涉及面廣,與企業實際需求結合不緊密且難度較大,對于沒有數據分析基礎的學生來講很難掌握,而且有些高級統計分析方法在企業的實際工作中也很少能應用到。
(三)缺乏數據分析理論與實踐能力兼備的教師隊伍
培養學生的數據分析能力,首先需要擁有一支既懂數據分析理論又能指導學生統計軟件操作的高水平的教師隊伍,而長期以來統計學教學中一直存在的重理論,輕實踐的狀況,使得能夠講授《數據分析》實踐課程的教師嚴重缺乏,這也是影響學生數據分析能力培養的關鍵制約因素。
(四)學生對數據分析存在畏懼心理
對于許多初次接觸統計學和數據分析的學生,經常會對書中大量的數學公式和復雜的軟件操作產生畏懼心理和回避心理,加之一些統計學教師在教學過程中對學生的學習沒有加以正確的引導,致使很多學生從一開始就對掌握數據分析這門有用的技能失去了的興趣和學習的信心,從而必然會影響到學習的效果。
三、經管類專業大學生數據分析能力提升策略的探討
(一)完善學生數據分析能力培養模塊
為強化學生數據分析能力的培養,高校經管類各專業的培養方案中應設置培養學生數據分析能力的模塊。筆者認為,首先應將已開設的與學生數據分析能力培養相關的《大學計算機基礎》、《數據庫應用基礎》、《統計學》、《市場調查與預測》等課程的內容進行有機地整合,在此基礎上,在大三學年開設《數據分析基礎》實踐必修課,以加強學生數據分析的實際技能,構建學生數據分析能力的完備知識體系。同時,經管各專業還可根據需要增設《SPSS軟件應用》作為專業選修課,以滿足那些對數據分析有濃厚興趣,準備考取項目數據分析師、調查分析師資格證書,有志于成為數據分析專門人才的學生的需求。
(二)開發實用性強的《數據分析》實踐教材
借鑒社會項目數據分析師、調查分析師資格認證相關培訓教材,編寫一部《數據分析基礎》實踐教材,教材將以通用的Excel軟件為分析工具,這樣可以降低學習難度,從心理上拉近與非統計專業學生的距離,目的是使經管專業的學生掌握必知必會的數據分析概念、流程和操作,以適應社會對經管類應用型人才應具備基本的數據分析技能的需求。教材的內容體系將按數據分析的流程構建,具體內容將設以下7大模塊:1.數據分析概述;2.數據采集;3.數據處理;4.數據分析(包括數據分析方法、數據分析工具的使用);5.數據呈現;6.報告撰寫;7.綜合案例。
(三)培養一支數據分析理論與實踐能力兼備的教師隊伍
針對當前部分高校缺乏數據分析理論與實踐能力兼備的講師隊伍的難題,學??梢圆扇 耙M來,走出去”的辦法多渠道解決專業師資力量不足的問題,一方面可以從其他學校聘請專業教師授課,也可以派出本學校中、青年教師到其他設有統計學專業的高校進行短期的進修學習,以提高數據分析的理論水平和實踐能力,此外,學校還可以鼓勵本校中、青年教師考取項目數據分析師等資格證書,以深入地了解社會對數據分析能力的需求,使學校的人才培養定位與社會需求能夠實現無縫對接。
(四)培養學生對數據分析的濃厚興趣
記得有一位資深的數據分析人士曾說過:“統計學是一門很難,但是很有趣,更是很有用的工具學科。懂得如何使用它的人總是樂在其中,而尚未入門的人則畏之如虎?!惫P者結合多年的教學經驗認為,要想將《統計學》這樣一門多數人認為很難的課程讓初學者理解它、接受它,對它產生濃厚興趣,需要借助一些人們生活中的小案例,將難懂的統計學的基本概念和公式還原回生活當中,用來解釋社會經濟現象,幫助學生發現隱藏在數據背后的規律。總之,培養學生對數據分析的濃厚興趣,是提升經管類專業學生數據分析能力的關鍵所在。
[參 考 文 獻]
篇2
大數據背景下,人們可以通過互聯網、數據庫以及各種通信工具獲得海量數據,人們日常生活、學習和工作的各類事物都可以實現信息化,世界幾乎是由各種信息和數據所構成的。大數據的特點可以歸結為四個V,數量大(Volume)、類型繁多(Variety)、價值密度低(Value)、速度快時效高(Velocity)[6]8-9。大數據的真正意義不在于能提供龐大的數據量,而是對海量的數據進行專業的處理和分析,并從中獲取用戶關注的信息。結合當前互聯網應用中大數據本身的特點,從大數據中挖掘出重要知識并對之深度學習和分析的工具和方法也應與時俱進地發生改變,傳統的統計方法和統計分析工具已無法滿足大數據分析的需要。然而,在大多數高等院校中,統計學專業人才培養的課程體系并沒有考慮社會的實際應用需求,仍然停留在以傳統的統計模型框架為主導的課程體系設置,本科生教育的主要專業課程包括:數學分析、高等概率論與數理統計、應用隨機過程、回歸分析和多元統計分析等[10]248-249,這些課程內容和知識結構還不足以滿足大數據時代對數據分析專業人才知識結構的要求,課程體系設置中缺少能有效整合的數據分析能力培養模塊[11]66-68。因此,有必要針對各類院校師生各自的專業特點和學科基礎,分層次、分階段地展開課程體系改革。(一)參考國內外先進高校大數據分析專業的課程設置,結合本校的師資和專業結構特點采取靈活的策略制定課程計劃,在實施學分制改革的高校中各類學生可以在學業導師指導下實施符合學生自身特點的課程學習方案。(二)以大數據分析人才需求驅動的課程體系改革要考慮市場的行業需求變化、大數據應用中跨學科的特點。素質好的數據分析人員不僅僅要具備專業的數據分析能力,還應該對具體數據中涉及的學科知識有較好的儲備,能將不同行業的專業知識與數據分析緊密關聯起來,實現大數據分析的效用最大化。此外,在充分借鑒國內外大學成功經驗的基礎上,課程設置應該與學生的學術傾向和基礎能力緊密結合,注重基礎課程教育的同時強調文理滲透,同時要兼顧學生的興趣與學習的聯系,在課程體系的設置中需要增設一些多領域、跨學科的選修課程,如經濟學、金融學、保險學、管理學和會計學等。因此,校內跨學科或高校與高校之間聯合培養是實現跨學科課程建設的有效方法之一。(三)科學構建課程體系的主要思路還包括根據大數據時代需求,對專業必修和專業選修課程在課程時間、順序及內容等方面進行改革。專業必修課程重點內容為統計學和計算機科學的交叉部分,在講授統計基礎理論(如多元統計、決策樹、時間序列等)課程基礎上設置大數據案例分析課程,在案例分析過程中讓學生實際操作企業當前應用的大數據計算平臺[6]8-9,從而增強學生大規模分布式計算技能。為提高學生的實際動手和二次開發能力,專業選修課程需更多地開設與數據挖掘及面向數據的編程語言相關的課程,如數據挖掘算法、C++、Java和Python等課程,強化學生的數據挖掘和分析能力。
三、基于協同創新的理念開展實踐教學改革
篇3
企業統計由于受內外部各種因素的影響,工作質量不同程度地存在一些問題,應當引起有關部門的高度重視。主要表現在企業統計人員素質較低、統計數據質量有待進一步提高、企業統計服務職能不能充分發揮、統計指標體系與企業經營所需指標體系不一致、原始記錄不全及統計臺帳不規范。企業統計工作中存在的問題,是與特定的經濟環境、歷史條件、政治因素相聯系的。
一、關于統計學
統計學是一門實質性的社會科學,既研究社會生活的客觀規律,也研究統計方法。統計學是繼承和發展基礎統計的理論成果,堅持統計學的社會科學性質,使統計理論研究更接近統計工作實際,在國家和社會得到廣泛發展。
二、統計學中的幾種企業工作中統計思想
(一)企業工作中統計思想的形成
企業工作中統計思想不是天然形成的,需要經歷統計觀念、統計意識、統計理念等階段。企業工作中統計思想是根據人類社會需求的變化而開展各種統計實踐、統計理論研究與概括,才能逐步形成系統的企業工作中統計思想。
(二)比較常用的幾種企業工作中統計思想
所謂企業工作中統計思想,就是統計實際工作、統計學理論及應用研究中必須遵循的基本理念和指導思想。企業工作中統計思想主要包括:均值思想、變異思想、估計思想、相關思想、擬合思想、檢驗思想?,F分述如下:
1.均值思想
均值是對所要研究對象的簡明而重要的代表。均值概念幾乎涉及所有統計學理論,是統計學的基本思想。均值思想也要求從總體上看問題,但要求觀察其一般發展趨勢,避免個別偶然現象的干擾,故也體現了總體觀。
2.變異思想
統計研究同類現象的總體特征,它的前提則是總體各單位的特征存在著差異。統計方法就是要認識事物數量方面的差異。統計學反映變異情況較基本的概念是方差,是表示“變異”的“一般水平”的概念。平均與變異都是對同類事物特征的抽象和宏觀度量。
3.估計思想
估計以樣本推測總體,是對同類事物的由此及彼式的認識方法。使用估計方法有一個預設:樣本與總體具有相同的性質。樣本才能代表總體。但樣本的代表性受偶然因素影響,在估計理論對置信程度的測量就是保持邏輯嚴謹的必要步驟。
4.檢驗思想
統計方法總是歸納性的,其結論永遠帶有一定的或然性,基于局部特征和規律所推廣出來的判斷不可能完全可信,檢驗過程就是利用樣本的實際資料來檢驗事先對總體某些數量特征的假設是否可信。
三、對企業工作中統計思想的一些思考
(一)要不斷拓展統計思維方式
統計學是以歸納推理或歸納思維為主要的邏輯方式的。眾所周知,邏輯推理方式主要有兩種:歸納推理和演繹推理。歸納推理是基于觀測到的數據信息(尤其是不完全甚至劣質的信息)去產生新的知識或去驗證一個假設,即以所掌握的數據信息為依據,歸納得出具有一般特征的結論。歸納推理是要在數據信息的基礎上透過偶然性去發現必然性。演繹推理是對統計認識能力的深化,尤其是在根據必然性去研究和認識偶然性方面,具有很大的作用。
(二)深化對數據分析的認識
任何統計研究都離不開數據分析。因為這是得到統計研究結論的必要環節。雖然統計分析的形式隨時代的推移而變化著,但是“從數據中提取一切信息”或者“歸納和揭示”作為統計分析的目的卻一直沒有改變。對統計數據分析的原因有以下三個方面:一是基于同樣的數據會得出不同、甚至相反的分析結論;二是我們所面對的分析數據有時是缺損的或存在不真實性;三是我們所面對的分析數據有時則又是海量的,讓人無從下手。雖然統計數據分析已經經歷了描述性數據分析(DDA)、推斷性數據分析(IDA)和探索性數據分析(EDA)等階段,分析的方法技術已經有了質的飛躍,但與人類不斷提高的要求相比,存在的問題似乎也越來越多。所以,我們必須深化對數據分析的認識,圍繞“準確解答特定問題并且從數據中獲取一切有效信息”這一目的,不斷拓展研究思路,繼續開展數據分析方法技術的研究。
篇4
二、數理統計思想的特點
數理統計思想從數理統計學派汲取新的營養,并且越來越廣泛的應用數學方法,聯系也越來越密切,但在數理統計思想的體現上與通用學派相比,還有著自己的特別之處。其基本特點能從以下四個方面體現出:(1)數理統計思想強調方法性與應用性的統一;(2)數理統計思想強調科學性與藝術性的統一;(3)數理統計思想強調客觀性與主觀性的統一;(4)數理統計思想強調定性分析與定量分析的統一。
三、數理統計思想
就是統計實際工作、數理統計學理論及應用研究中必須遵循的基本理念和指導思想。數理統計的思想主要包括:均值思想、變異思想、估計思想、相關思想、擬合思想、檢驗思想。
1.均值思想
均值是對所要研究對象的簡明而重要的代表。均值概念幾乎涉及所有數理統計學理論,是數理統計學的基本思想。均值思想也要求從總體上看問題,但要求觀察其一般發展趨勢,避免個別偶然現象的干擾,故也體現了總體觀。
2.變異思想
統計研究同類現象的總體特征,它的前提則是總體各單位的特征存在著差異。統計方法就是要認識事物數量方面的差異。數理統計學反映變異情況較基本的概念是方差,是表示“變異”的“一般水平”的概念。平均與變異都是對同類事物特征的抽象和宏觀度量。
3.估計思想
估計以樣本推測總體,是對同類事物的由此及彼式的認識方法。使用估計方法有一個預設:樣本與總體具有相同的性質。樣本才能代表總體。但樣本的代表性受偶然因素影響,在估計理論對置信程度的測量就是保持邏輯嚴謹的必要步驟。
4.相關思想
事物是普遍聯系的,在變化中,經常出現一些事物相隨共變或相隨共現的情況,總體又是由許多個別事務所組成,這些個別事物是相互關聯的,而我們所研究的事物總體又是在同質性的基礎上形成。因而,總體中的個體之間、這一總體與另一總體之間總是相互關聯的。
5.擬合思想
擬合是對不同類型事物之間關系之表象的抽象。任何一個單一的關系必須依賴其他關系而存在,所有實際事物的關系都表現得非常復雜,這種方法就是對規律或趨勢的擬合。擬合的成果是模型,反映一般趨勢。趨勢表達的是“事物和關系的變化過程在數量上所體現的模于此而預示的可能性”。
6.檢驗思想
數理統計方法總是歸納性的,其結論永遠帶有一定的或然性,基于局部特征和規律所推廣出來的判斷不可能完全可信,檢驗過程就是利用樣本的實際資料來檢驗事先對總體某些數量特征的假設是否可信。
四、數理統計的思想方法?
1.要更正不正確的思想認識
英國著名生物學家、統計學家高爾頓曾經說過:“統計學具有處理復雜問題的非凡能力,當科學的探索者在前進的過程中荊棘載途時,唯有統計學可以幫助他們打開一條通道”。但事實并非這么簡單,因為我們所面臨的現實問題可能要比想象的復雜得多。此外,有些人認為方法越復雜越科學,在實際的分析研究中,喜歡簡單問題復雜化,似乎這樣才能顯示其科學含量。其實,真正的科學是使復雜的問題簡單化而不是追求復雜化。與此相關聯的是,有些人認為只有推斷統計才是科學,描述統計不是科學,并延伸擴大到只有數理統計是科學、社會經濟統計不是科學這樣的認識。這種認識是極其錯誤的,至少是對社會經濟統計的無知。比利時數學家凱特勒不僅研究概率論,并且注重于把統計學應用于人類事物,試圖把統計學創建成改良社會的一種工具。經濟學和人口統計學中的某些近代概念,如GNP、人口增長率等等,均是凱特勒及其弟子們的遺產。
2.要不斷拓展統計思維方式
數理統計學是以歸納推理或歸納思維為主要的邏輯方式的。眾所周知,邏輯推理方式主要有兩種:歸納推理和演繹推理。歸納推理是基于觀測到的數據信息(尤其是不完全甚至劣質的信息)去產生新的知識或去驗證一個假設,即以所掌握的數據信息為依據,歸納得出具有一般特征的結論。歸納推理是要在數據信息的基礎上透過偶然性去發現必然性。演繹推理是對統計認識能力的深化,尤其是在根據必然性去研究和認識偶然性方面,具有很大的作用。
3.要深化對數據分析的認識
任何統計研究都離不開數據分析。因為這是得到統計研究結論的必要環節。雖然統計分析的形式隨時代的推移而變化著,但是“從數據中提取一切信息”或者“歸納和揭示”作為統計分析的目的卻一直沒有改變。對統計數據分析的原因有以下三個方面:一是基于同樣的數據會得出不同、甚至相反的分析結論;二是我們所面對的分析數據有時是缺損的或存在不真實性;三是我們所面對的分析數據有時則又是海量的,讓人無從下手。雖然統計數據分析已經經歷了描述性數據分析、推斷性數據分析和探索性數據分析等階段,分析的方法技術已經有了質的飛躍,但與人類不斷提高的要求相比,存在的問題似乎也越來越多。所以,我們必須深化對數據分析的認識,圍繞“準確解答特定問題并且從數據中獲取一切有效信息”這一目的,不斷拓展研究思路,繼續開展數據分析方法技術的研究。
數理統計思想方法應用必須堅持以事實為依據、用數據說話的原則,把統計技術的應用與專業技術緊密結合,在考慮統計項目實施時,應從理論和事實層面上注重分析和使用條件,認真權衡各種關聯因素。數理統計學是繼承和發展基礎統計的理論成果,堅持統計學的社會科學性質,使統計理論研究更接近統計工作實際,在國家和社會得到廣泛發展。
參考文獻
[1] 陳福貴.統計思想雛議[J]北京統計,?2004,(05).
[2] 龐有貴.統計工作及統計思想[J]科技情報開發與經濟,?2004,(03).
篇5
篇6
統計學是一門實質性的社會科學,既研究社會生活的客觀規律,也研究統計方法。統計學是繼承和發展基礎統計的理論成果,堅持統計學的社會科學性質,使統計理論研究更接近統計工作實際,在國家和社會得到廣泛發展。
二、統計學中的幾種統計思想
1統計思想的形成
統計思想不是天然形成的,需要經歷統計觀念、統計意識、統計理念等階段。統計思想是根據人類社會需求的變化而開展各種統計實踐、統計理論研究與概括,才能逐步形成系統的統計思想。
2比較常用的幾種統計思想
所謂統計思想,就是統計實際工作、統計學理論及應用研究中必須遵循的基本理念和指導思想。統計思想主要包括:均值思想、變異思想、估計思想、相關思想、擬合思想、檢驗思想。現分述
2.1均值思想
均值是對所要研究對象的簡明而重要的代表。均值概念幾乎涉及所有統計學理論,是統計學的基本思想。均值思想也要求從總體上看問題,但要求觀察其一般發展趨勢,避免個別偶然現象的干擾,故也體現了總體觀。
2.2變異思想
統計研究同類現象的總體特征,它的前提則是總體各單位的特征存在著差異。統計方法就是要認識事物數量方面的差異。統計學反映變異情況較基本的概念是方差,是表示“變異”的“一般水平”的概念。平均與變異都是對同類事物特征的抽象和宏觀度量。
2.3估計思想
估計以樣本推測總體,是對同類事物的由此及彼式的認識方法。使用估計方法有一個預設:樣本與總體具有相同的性質。樣本才能代表總體。但樣本的代表性受偶然因素影響,在估計理論對置信程度的測量就是保持邏輯嚴謹的必要步驟。
2.4相關思想
事物是普遍聯系的,在變化中,經常出現一些事物相隨共變或相隨共現的情況,總體又是由許多個別事務所組成,這些個別事物是相互關聯的,而我們所研究的事物總體又是在同質性的基礎上形成。因而,總體中的個體之間、這一總體與另一總體之間總是相互關聯的。
2.5擬合思想
擬合是對不同類型事物之間關系之表象的抽象。任何一個單一的關系必須依賴其他關系而存在,所有實際事物的關系都表現得非常復雜,這種方法就是對規律或趨勢的擬合。擬合的成果是模型,反映一般趨勢。趨勢表達的是“事物和關系的變化過程在數量上所體現的模式和基于此而預示的可能性”。
2.6檢驗思想
統計方法總是歸納性的,其結論永遠帶有一定的或然性,基于局部特征和規律所推廣出來的判斷不可能完全可信,檢驗過程就是利用樣本的實際資料來檢驗事先對總體某些數量特征的假設是否可信。
3統計思想的特點
作為一門應用統計學,它從數理統計學派汲取新的營養,并且越來越廣泛的應用數學方法,聯系也越來越密切,但在統計思想的體現上與通用學派相比,還有著自己的特別之處。其基本特點能從以下四個方面體現出:(1)統計思想強調方法性與應用性的統一;(2)統計思想強調科學性與藝術性的統一;(3)統計思想強調客觀性與主觀性的統一;(4)統計思想強調定性分析與定量分析的統一。
三、對統計思想的一些思考
1要更正當前存在的一些不正確的思想認識
英國著名生物學家、統計學家高爾頓曾經說過:“統計學具有處理復雜問題的非凡能力,當科學的探索者在前進的過程中荊棘載途時,唯有統計學可以幫助他們打開一條通道”。但事實并非這么簡單,因為我們所面臨的現實問題可能要比想象的復雜得多。此外,有些人認為方法越復雜越科學,在實際的分析研究中,喜歡簡單問題復雜化,似乎這樣才能顯示其科學含量。其實,真正的科學是使復雜的問題簡單化而不是追求復雜化。與此相關聯的是,有些人認為只有推斷統計才是科學,描述統計不是科學,并延伸擴大到只有數理統計是科學、社會經濟統計不是科學這樣的認識。這種認識是極其錯誤的,至少是對社會經濟統計的無知。比利時數學家凱特勒不僅研究概率論,并且注重于把統計學應用于人類事物,試圖把統計學創建成改良社會的一種工具。經濟學和人口統計學中的某些近代概念,如GNP、人口增長率等等,均是凱特勒及其弟子們的遺產。
2要不斷拓展統計思維方式
統計學是以歸納推理或歸納思維為主要的邏輯方式的。眾所周知,邏輯推理方式主要有兩種:歸納推理和演繹推理。歸納推理是基于觀測到的數據信息(尤其是不完全甚至劣質的信息)去產生新的知識或去驗證一個假設,即以所掌握的數據信息為依據,歸納得出具有一般特征的結論。歸納推理是要在數據信息的基礎上透過偶然性去發現必然性。演繹推理是對統計認識能力的深化,尤其是在根據必然性去研究和認識偶然性方面,具有很大的作用。
3深化對數據分析的認識
任何統計研究都離不開數據分析。因為這是得到統計研究結論的必要環節。雖然統計分析的形式隨時代的推移而變化著,但是“從數據中提取一切信息”或者“歸納和揭示”作為統計分析的目的卻一直沒有改變。對統計數據分析的原因有以下三個方面:一是基于同樣的數據會得出不同、甚至相反的分析結論;二是我們所面對的分析數據有時是缺損的或存在不真實性;三是我們所面對的分析數據有時則又是海量的,讓人無從下手。雖然統計數據分析已經經歷了描述性數據分析(DDA)、推斷性數據分析(IDA)和探索性數據分析(EDA)等階段,分析的方法技術已經有了質的飛躍,但與人類不斷提高的要求相比,存在的問題似乎也越來越多。所以,我們必須深化對數據分析的認識,圍繞“準確解答特定問題并且從數據中獲取一切有效信息”這一目的,不斷拓展研究思路,繼續開展數據分析方法技術的研究。
參考文獻:
陳福貴.統計思想雛議[J]北京統計,2004,(05).
篇7
統計學是一門實質性的社會科學,既研究社會生活的客觀規律,也研究統計方法。統計學是繼承和發展基礎統計的理論成果,堅持統計學的社會科學性質,使統計理論研究更接近統計工作實際,在國家和社會得到廣泛發展。
2統計學中的幾種統計思想
2.1統計思想的形成
統計思想不是天然形成的,需要經歷統計觀念、統計意識、統計理念等階段。統計思想是根據人類社會需求的變化而開展各種統計實踐、統計理論研究與概括,才能逐步形成系統的統計思想。
2.2比較常用的幾種統計思想
所謂統計思想,就是統計實際工作、統計學理論及應用研究中必須遵循的基本理念和指導思想。統計思想主要包括:均值思想、變異思想、估計思想、相關思想、擬合思想、檢驗思想。現分述如下:
2.2.1均值思想
均值是對所要研究對象的簡明而重要的代表。均值概念幾乎涉及所有統計學理論,是統計學的基本思想。均值思想也要求從總體上看問題,但要求觀察其一般發展趨勢,避免個別偶然現象的干擾,故也體現了總體觀。
2.2.2變異思想
統計研究同類現象的總體特征,它的前提則是總體各單位的特征存在著差異。統計方法就是要認識事物數量方面的差異。統計學反映變異情況較基本的概念是方差,是表示“變異”的“一般水平”的概念。平均與變異都是對同類事物特征的抽象和宏觀度量。
2.2.3估計思想
估計以樣本推測總體,是對同類事物的由此及彼式的認識方法。使用估計方法有一個預設:樣本與總體具有相同的性質。樣本才能代表總體。但樣本的代表性受偶然因素影響,在估計理論對置信程度的測量就是保持邏輯嚴謹的必要步驟。
2.2.4相關思想
事物是普遍聯系的,在變化中,經常出現一些事物相隨共變或相隨共現的情況,總體又是由許多個別事務所組成,這些個別事物是相互關聯的,而我們所研究的事物總體又是在同質性的基礎上形成。因而,總體中的個體之間、這一總體與另一總體之間總是相互關聯的。
2.2.5擬合思想
擬合是對不同類型事物之間關系之表象的抽象。任何一個單一的關系必須依賴其他關系而存在,所有實際事物的關系都表現得非常復雜,這種方法就是對規律或趨勢的擬合。擬合的成果是模型,反映一般趨勢。趨勢表達的是“事物和關系的變化過程在數量上所體現的模式和基于此而預示的可能性”。
2.2.6檢驗思想
統計方法總是歸納性的,其結論永遠帶有一定的或然性,基于局部特征和規律所推廣出來的判斷不可能完全可信,檢驗過程就是利用樣本的實際資料來檢驗事先對總體某些數量特征的假設是否可信。
2.3統計思想的特點
作為一門應用統計學,它從數理統計學派汲取新的營養,并且越來越廣泛的應用數學方法,聯系也越來越密切,但在統計思想的體現上與通用學派相比,還有著自己的特別之處。其基本特點能從以下四個方面體現出:(1)統計思想強調方法性與應用性的統一;(2)統計思想強調科學性與藝術性的統一;(3)統計思想強調客觀性與主觀性的統一;(4)統計思想強調定性分析與定量分析的統一。
3對統計思想的一些思考
3.1要更正當前存在的一些不正確的思想認識
英國著名生物學家、統計學家高爾頓曾經說過:“統計學具有處理復雜問題的非凡能力,當科學的探索者在前進的過程中荊棘載途時,唯有統計學可以幫助他們打開一條通道”。但事實并非這么簡單,因為我們所面臨的現實問題可能要比想象的復雜得多。此外,有些人認為方法越復雜越科學,在實際的分析研究中,喜歡簡單問題復雜化,似乎這樣才能顯示其科學含量。其實,真正的科學是使復雜的問題簡單化而不是追求復雜化。與此相關聯的是,有些人認為只有推斷統計才是科學,描述統計不是科學,并延伸擴大到只有數理統計是科學、社會經濟統計不是科學這樣的認識。這種認識是極其錯誤的,至少是對社會經濟統計的無知。比利時數學家凱特勒不僅研究概率論,并且注重于把統計學應用于人類事物,試圖把統計學創建成改良社會的一種工具。經濟學和人口統計學中的某些近代概念,如GNP、人口增長率等等,均是凱特勒及其弟子們的遺產。
3.2要不斷拓展統計思維方式
統計學是以歸納推理或歸納思維為主要的邏輯方式的。眾所周知,邏輯推理方式主要有兩種:歸納推理和演繹推理。歸納推理是基于觀測到的數據信息(尤其是不完全甚至劣質的信息)去產生新的知識或去驗證一個假設,即以所掌握的數據信息為依據,歸納得出具有一般特征的結論。歸納推理是要在數據信息的基礎上透過偶然性去發現必然性。演繹推理是對統計認識能力的深化,尤其是在根據必然性去研究和認識偶然性方面,具有很大的作用。
3.3深化對數據分析的認識
任何統計研究都離不開數據分析。因為這是得到統計研究結論的必要環節。雖然統計分析的形式隨時代的推移而變化著,但是“從數據中提取一切信息”或者“歸納和揭示”作為統計分析的目的卻一直沒有改變。對統計數據分析的原因有以下三個方面:一是基于同樣的數據會得出不同、甚至相反的分析結論;二是我們所面對的分析數據有時是缺損的或存在不真實性;三是我們所面對的分析數據有時則又是海量的,讓人無從下手。雖然統計數據分析已經經歷了描述性數據分析(DDA)、推斷性數據分析(IDA)和探索性數據分析(EDA)等階段,分析的方法技術已經有了質的飛躍,但與人類不斷提高的要求相比,存在的問題似乎也越來越多。所以,我們必須深化對數據分析的認識,圍繞“準確解答特定問題并且從數據中獲取一切有效信息”這一目的,不斷拓展研究思路,繼續開展數據分析方法技術的研究。
論文摘要】所謂統計思想,就是在統計實際工作、統計學理論的應用研究中,必須遵循的基本理念和指導思想。統計思想主要包括均值思想、變異思想、估計思想、相關思想、擬合思想、檢驗思想等思想。文章通過對統計思想的闡釋,提出關于統計思想認識的三點思考。
參考文獻:
[1]陳福貴.統計思想雛議[J]北京統計,2004,(05).
篇8
統計學是一門實質性的社會科學,既研究社會生活的客觀規律,也研究統計方法。統計學是繼承和發展基礎統計的理論成果,堅持統計學的社會科學性質,使統計理論研究更接近統計工作實際,在國家和社會得到廣泛發展。
2 統計學中的幾種統計思想
2.1 統計思想的形成
統計思想不是天然形成的,需要經歷統計觀念、統計意識、統計理念等階段。統計思想是根據人類社會需求的變化而開展各種統計實踐、統計理論研究與概括,才能逐步形成系統的統計思想。
2.2 比較常用的幾種統計思想
所謂統計思想,就是統計實際工作、統計學理論及應用研究中必須遵循的基本理念和指導思想。統計思想主要包括:均值思想、變異思想、估計思想、相關思想、擬合思想、檢驗思想。現分述如下:
2.2.1 均值思想
均值是對所要研究對象的簡明而重要的代表。均值概念幾乎涉及所有統計學理論,是統計學的基本思想。均值思想也要求從總體上看問題,但要求觀察其一般發展趨勢,避免個別偶然現象的干擾,故也體現了總體觀。
2.2.2 變異思想
統計研究同類現象的總體特征,它的前提則是總體各單位的特征存在著差異。統計方法就是要認識事物數量方面的差異。統計學反映變異情況較基本的概念是方差,是表示“變異”的“一般水平”的概念。平均與變異都是對同類事物特征的抽象和宏觀度量。
2.2.3 估計思想
估計以樣本推測總體,是對同類事物的由此及彼式的認識方法。使用估計方法有一個預設:樣本與總體具有相同的性質。樣本才能代表總體。但樣本的代表性受偶然因素影響,在估計理論對置信程度的測量就是保持邏輯嚴謹的必要步驟。
2.2.4 相關思想
事物是普遍聯系的,在變化中,經常出現一些事物相隨共變或相隨共現的情況,總體又是由許多個別事務所組成,這些個別事物是相互關聯的,而我們所研究的事物總體又是在同質性的基礎上形成。因而,總體中的個體之間、這一總體與另一總體之間總是相互關聯的。
2.2.5 擬合思想
擬合是對不同類型事物之間關系之表象的抽象。任何一個單一的關系必須依賴其他關系而存在,所有實際事物的關系都表現得非常復雜,這種方法就是對規律或趨勢的擬合。擬合的成果是模型,反映一般趨勢。趨勢表達的是“事物和關系的變化過程在數量上所體現的模式和基于此而預示的可能性”。
2.2.6 檢驗思想
統計方法總是歸納性的,其結論永遠帶有一定的或然性,基于局部特征和規律所推廣出來的判斷不可能完全可信,檢驗過程就是利用樣本的實際資料來檢驗事先對總體某些數量特征的假設是否可信。
2.3 統計思想的特點
作為一門應用統計學,它從數理統計學派汲取新的營養,并且越來越廣泛的應用數學方法,聯系也越來越密切,但在統計思想的體現上與通用學派相比,還有著自己的特別之處。其基本特點能從以下四個方面體現出:(1)統計思想強調方法性與應用性的統一;(2)統計思想強調科學性與藝術性的統一;(3)統計思想強調客觀性與主觀性的統一;(4)統計思想強調定性分析與定量分析的統一。
3 對統計思想的一些思考
3.1 要更正當前存在的一些不正確的思想認識
英國著名生物學家、統計學家高爾頓曾經說過:“統計學具有處理復雜問題的非凡能力,當科學的探索者在前進的過程中荊棘載途時,唯有統計學可以幫助他們打開一條通道”。但事實并非這么簡單,因為我們所面臨的現實問題可能要比想象的復雜得多。此外,有些人認為方法越復雜越科學,在實際的分析研究中,喜歡簡單問題復雜化,似乎這樣才能顯示其科學含量。其實,真正的科學是使復雜的問題簡單化而不是追求復雜化。與此相關聯的是,有些人認為只有推斷統計才是科學,描述統計不是科學,并延伸擴大到只有數理統計是科學、社會經濟統計不是科學這樣的認識。這種認識是極其錯誤的,至少是對社會經濟統計的無知。比利時數學家凱特勒不僅研究概率論,并且注重于把統計學應用于人類事物,試圖把統計學創建成改良社會的一種工具。經濟學和人口統計學中的某些近代概念,如GNP、人口增長率等等,均是凱特勒及其弟子們的遺產。
3.2要不斷拓展統計思維方式
統計學是以歸納推理或歸納思維為主要的邏輯方式的。眾所周知,邏輯推理方式主要有兩種:歸納推理和演繹推理。歸納推理是基于觀測到的數據信息(尤其是不完全甚至劣質的信息)去產生新的知識或去驗證一個假設,即以所掌握的數據信息為依據,歸納得出具有一般特征的結論。歸納推理是要在數據信息的基礎上透過偶然性去發現必然性。演繹推理是對統計認識能力的深化,尤其是在根據必然性去研究和認識偶然性方面,具有很大的作用。
3.3深化對數據分析的認識
任何統計研究都離不開數據分析。因為這是得到統計研究結論的必要環節。雖然統計分析的形式隨時代的推移而變化著,但是“從數據中提取一切信息”或者“歸納和揭示”作為統計分析的目的卻一直沒有改變。對統計數據分析的原因有以下三個方面:一是基于同樣的數據會得出不同、甚至相反的分析結論;二是我們所面對的分析數據有時是缺損的或存在不真實性;三是我們所面對的分析數據有時則又是海量的,讓人無從下手。雖然統計數據分析已經經歷了描述性數據分析(DDA)、推斷性數據分析(IDA)和探索性數據分析(EDA)等階段,分析的方法技術已經有了質的飛躍,但與人類不斷提高的要求相比,存在的問題似乎也越來越多。所以,我們必須深化對數據分析的認識,圍繞“準確解答特定問題并且從數據中獲取一切有效信息”這一目的,不斷拓展研究思路,繼續開展數據分析方法技術的研究。
參考文獻
[1] 陳福貴.統計思想雛議[J]北京統計, 2004,(05) .
篇9
2.1統計思想的形成
統計思想不是天然形成的,需要經歷統計觀念、統計意識、統計理念等階段。統計思想是根據人類社會需求的變化而開展各種統計實踐、統計理論研究與概括,才能逐步形成系統的統計思想。
2.2比較常用的幾種統計思想
所謂統計思想,就是統計實際工作、統計學理論及應用研究中必須遵循的基本理念和指導思想。統計思想主要包括:均值思想、變異思想、估計思想、相關思想、擬合思想、檢驗思想。現分述如下:
2.2.1均值思想
均值是對所要研究對象的簡明而重要的代表。均值概念幾乎涉及所有統計學理論,是統計學的基本思想。均值思想也要求從總體上看問題,但要求觀察其一般發展趨勢,避免個別偶然現象的干擾,故也體現了總體觀。
2.2.2變異思想
統計研究同類現象的總體特征,它的前提則是總體各單位的特征存在著差異。統計方法就是要認識事物數量方面的差異。統計學反映變異情況較基本的概念是方差,是表示“變異”的“一般水平”的概念。平均與變異都是對同類事物特征的抽象和宏觀度量。
2.2.3估計思想
估計以樣本推測總體,是對同類事物的由此及彼式的認識方法。使用估計方法有一個預設:樣本與總體具有相同的性質。樣本才能代表總體。但樣本的代表性受偶然因素影響,在估計理論對置信程度的測量就是保持邏輯嚴謹的必要步驟。
2.2.4相關思想
事物是普遍聯系的,在變化中,經常出現一些事物相隨共變或相隨共現的情況,總體又是由許多個別事務所組成,這些個別事物是相互關聯的,而我們所研究的事物總體又是在同質性的基礎上形成。因而,總體中的個體之間、這一總體與另一總體之間總是相互關聯的。
2.2.5擬合思想
擬合是對不同類型事物之間關系之表象的抽象。任何一個單一的關系必須依賴其他關系而存在,所有實際事物的關系都表現得非常復雜,這種方法就是對規律或趨勢的擬合。擬合的成果是模型,反映一般趨勢。趨勢表達的是“事物和關系的變化過程在數量上所體現的模式和基于此而預示的可能性”。
2.2.6檢驗思想
統計方法總是歸納性的,其結論永遠帶有一定的或然性,基于局部特征和規律所推廣出來的判斷不可能完全可信,檢驗過程就是利用樣本的實際資料來檢驗事先對總體某些數量特征的假設是否可信。
2.3統計思想的特點
作為一門應用統計學,它從數理統計學派汲取新的營養,并且越來越廣泛的應用數學方法,聯系也越來越密切,但在統計思想的體現上與通用學派相比,還有著自己的特別之處。其基本特點能從以下四個方面體現出:(1)統計思想強調方法性與應用性的統一;(2)統計思想強調科學性與藝術性的統一;(3)統計思想強調客觀性與主觀性的統一;(4)統計思想強調定性分析與定量分析的統一。
3對統計思想的一些思考
3.1要更正當前存在的一些不正確的思想認識
英國著名生物學家、統計學家高爾頓曾經說過:“統計學具有處理復雜問題的非凡能力,當科學的探索者在前進的過程中荊棘載途時,唯有統計學可以幫助他們打開一條通道”。但事實并非這么簡單,因為我們所面臨的現實問題可能要比想象的復雜得多。此外,有些人認為方法越復雜越科學,在實際的分析研究中,喜歡簡單問題復雜化,似乎這樣才能顯示其科學含量。其實,真正的科學是使復雜的問題簡單化而不是追求復雜化。與此相關聯的是,有些人認為只有推斷統計才是科學,描述統計不是科學,并延伸擴大到只有數理統計是科學、社會經濟統計不是科學這樣的認識。這種認識是極其錯誤的,至少是對社會經濟統計的無知。比利時數學家凱特勒不僅研究概率論,并且注重于把統計學應用于人類事物,試圖把統計學創建成改良社會的一種工具。經濟學和人口統計學中的某些近代概念,如GNP、人口增長率等等,均是凱特勒及其弟子們的遺產。新晨
3.2要不斷拓展統計思維方式
統計學是以歸納推理或歸納思維為主要的邏輯方式的。眾所周知,邏輯推理方式主要有兩種:歸納推理和演繹推理。歸納推理是基于觀測到的數據信息(尤其是不完全甚至劣質的信息)去產生新的知識或去驗證一個假設,即以所掌握的數據信息為依據,歸納得出具有一般特征的結論。歸納推理是要在數據信息的基礎上透過偶然性去發現必然性。演繹推理是對統計認識能力的深化,尤其是在根據必然性去研究和認識偶然性方面,具有很大的作用。
3.3深化對數據分析的認識
任何統計研究都離不開數據分析。因為這是得到統計研究結論的必要環節。雖然統計分析的形式隨時代的推移而變化著,但是“從數據中提取一切信息”或者“歸納和揭示”作為統計分析的目的卻一直沒有改變。對統計數據分析的原因有以下三個方面:一是基于同樣的數據會得出不同、甚至相反的分析結論;二是我們所面對的分析數據有時是缺損的或存在不真實性;三是我們所面對的分析數據有時則又是海量的,讓人無從下手。雖然統計數據分析已經經歷了描述性數據分析(DDA)、推斷性數據分析(IDA)和探索性數據分析(EDA)等階段,分析的方法技術已經有了質的飛躍,但與人類不斷提高的要求相比,存在的問題似乎也越來越多。所以,我們必須深化對數據分析的認識,圍繞“準確解答特定問題并且從數據中獲取一切有效信息”這一目的,不斷拓展研究思路,繼續開展數據分析方法技術的研究。
參考文獻:
[1]陳福貴.統計思想雛議[J]北京統計,2004,(05).
篇10
1.均值思想
均值是對所要研究對象的簡明而重要的代表。均值概念幾乎涉及所有統計學理論,是統計學的基本思想。均值思想也要求從總體上看問題,但要求觀察其一般發展趨勢,避免個別偶然現象的干擾,故也體現了總體觀。
2.變異思想
統計研究同類現象的總體特征,它的前提則是總體各單位的特征存在著差異。統計方法就是要認識事物數量方面的差異。統計學反映變異情況較基本的概念是方差,是表示“變異”的“一般水平”的概念。平均與變異都是對同類事物特征的抽象和宏觀度量。
3.估計思想
估計以樣本推測總體,是對同類事物的由此及彼式的認識方法。使用估計方法有一個預設:樣本與總體具有相同的性質。樣本才能代表總體。但樣本的代表性受偶然因素影響,在估計理論對置信程度的測量就是保持邏輯嚴謹的必要步驟。
4.相關思想
事物是普遍聯系的,在變化中,經常出現一些事物相隨共變或相隨共現的情況,總體又是由許多個別事務所組成,這些個別事物是相互關聯的,而我們所研究的事物總體又是在同質性的基礎上形成。因而,總體中的個體之間、這一總體與另一總體之間總是相互關聯的。
5.擬合思想
擬合是對不同類型事物之間關系之表象的抽象。任何一個單一的關系必須依賴其他關系而存在,所有實際事物的關系都表現得非常復雜,這種方法就是對規律或趨勢的擬合。擬合的成果是模型,反映一般趨勢。趨勢表達的是“事物和關系的變化過程在數量上所體現的模式和基于此而預示的可能性”。
6.檢驗思想
統計方法總是歸納性的,其結論永遠帶有一定的或然性,基于局部特征和規律所推廣出來的判斷不可能完全可信,檢驗過程就是利用樣本的實際資料來檢驗事先對總體某些數量特征的假設是否可信。
二、對統計思想的若干思考
1.要改變當前存在的一些不正確的思想認識
英國著名生物學家、統計學家高爾頓曾經說過:“統計學具有處理復雜問題的非凡能力,當科學的探索者在前進的過程中荊棘載途時,唯有統計學可以幫助他們打開一條通道”。但事實并非這么簡單,因為我們所面臨的現實問題可能要比想象的復雜得多。此外,有些人認為方法越復雜,越科學。在實際的分析研究中,喜歡簡單問題復雜化,似乎這樣才能顯示其科學含量。其實,真正的科學是使復雜的問題簡單化而不是追求復雜化。與此相關聯的是,有些人認為只有推斷統計才是科學,描述統計不是科學,并延伸擴大到只有數理統計是科學、社會經濟統計不是科學這樣的認識。這種認識是極其錯誤的,至少是對社會經濟統計的無知。比利時數學家凱特勒不僅研究概率論,并且注重于把統計學應用于人類事物,試圖把統計學創建成改良社會的一種工具。經濟學和人口統計學中的某些近代概念,如GNP、人口增長率等等,均是凱特勒及其弟子們的遺產。
2.要不斷拓展統計思維方式
篇11
隨著社交網絡的逐漸成熟,移動帶寬迅速提升,云計算、互聯網應用的豐富,更多的傳感設備、移動終端接入到網絡,由此產生的數據及增長速度將比歷史上的任何時期都要多,都要快?!按髷祿睍r代已經來臨,它對人類的數據駕馭能力提出了新的挑戰,也為人們獲得更為深刻、全面的洞察能力提供了前所未有的空間與潛力。大數據是指海量數據集,其來源包括動漫數據、企業IT應用帶來的數據、博客、點擊流數據、社交媒體、機器和傳感數據等。它是互聯網、電子商務的又一次重大革命,對數據處理、數據挖掘、數據分析提出了新的挑戰。如今互聯網行業、電子商務行業中的數據應用及分析已經相當普遍,為了應對大數據時代的要求,同時要具備較強的統計學功底和嫻熟的計算機軟件運用能力,而今完全具備這些能力的數據分析專業人才是極其匱乏的。數據分析師便應運而生,不僅互聯網行業、電子商務行業需要大量的數據分析師,近年來項目數據分析事務所不斷涌現,而項目數據分析師因其專業技能及量化的數據分析為客戶以及所在單位控制決策風險、保證利益最大化而備受各界青睞,以待遇優厚和地位尊崇而聞名國際,也被視為我國21世紀的黃金職業。《華商報》將項目數據分析師納入了新七十二行,《HR管理世界》將項目數據分析師評為七大賺錢職業。本文就如何在統計學專業開展數據分析方向進行了闡述,首先論述了數據分析的重要意義,其次討論了數據分析方向的課程構建,最后分析了如何加強理論與實踐環節的結合。
一、數據分析的重要意義
大數據預測美國總統:美國時代周刊報道稱,數據驅動的競選決策才是奧巴馬競選獲勝的關鍵。數據分析團隊在籌集競選經費、鎖定目標選民、督促選民投票等各個環節的決策中都發揮了重要作用。這意味著華盛頓競選專家的作用極具下降,能夠分析大數據的量化分析家和程序員的地位卻大幅提升。如今從事專業數據分析工作的企業如項目數據分析師事務所、數據挖掘公司等都應市場需求而大力發展,并且受到風險投資的青睞。如美國社交數據挖掘公司Datasift于2012年宣布,獲得1500萬美元風險投資。2013年,DataSift成為Twitter的“認證合作伙伴”,主要負責海量微博社交數據分析。這是該公司今年第二筆融資,五月份其曾融資720萬美元。又如面向開發者的大數據應用軟件平臺服務提供商Continuity最近獲得1000萬美元的融資,目前融資總額已經達到1250萬美元。
數據分析的應用無處不在,那什么是數據分析呢?數據分析就是用適當的統計方法對數據進行分析,以求最大化地開發數據的功能,發揮數據的作用。是為了提取有用信息和形成結論而對數據加以詳細研究和概括總結的過程。數據分析技術不僅能通過對真實數據的分析去發現問題,還能夠通過經濟學原理建立數學模型,對投資或其他決策是否可行進行分析,預測未來的收益及風險情況,為做出科學合理的決策提供依據。在提高工作效率的基礎上,也增強企業管理的科學性。無論是在國家政府部門,還是企事業單位中,數據分析工作都是進行決策和做出工作決定之前至關重要的一個環節。因此,針對項目可行性、風險承載力、投資回報率以及相關經濟效益指標等方面的分析工作顯得格外重要。在這個工作過程中,專業的數據分析人員扮演著無比重要的角色,數據分析成果的質量高低直接決定著項目投資、企業經營決策計劃最終的方向。所以,各個行業對數據分析人員的需求之多是不言而喻的。傳統行業,如政府機構:一類是計委、經委、統計局等一些經濟綜合管理部門所設有的調研處、研究室和情報所。第二類是商業、糧食、物資、銀行等經濟主管業務部門會設有信息中心或調研室,從本系統、本部門的業務出發進行專業性調研,提供支持本部門的市場信息。而伴隨著數據分析應用的擴大,其在新興行業中也得到了發展,如計算機軟硬件及IT行業、電子商務與網絡游戲、金融保險、消費品、咨詢業與廣告媒體、大型設備與重工業以及房地產行業等對數據分析師的需求量很大,尤其是電子商務,由于利用互聯網,能夠比傳統零售業具有更好的數據收集和管理能力,能積累海量的數據,因此更看重從海量數據中挖掘出用戶偏好和市場機會。研究機構:比如市場研究公司、咨詢公司、證券公司、研究院。自主創業:取得注冊項目數據分析師(CPDA)資格證可以自主創建或就業于項目數據分析師事務所等。所以,數據分析的行業應用是極其廣泛的,并且隨著大數據時代的到來,數據分析尤其是數據挖掘將借助互聯網的發展,逐步形成人們依靠的重點,并可能成為未來發展與競爭的重點之一。由此我們可以看到數據分析師的就業前景是非常廣泛而樂觀的,無論是數學專業、統計專業,還是計算機專業的學生,都可以通過系統的學習數據分析課程來適應對數據分析人才的要求。
二、課程體系構建
1.主干課程。主干課程包含高代、數分、概率論、數理統計、多元統計分析、時間序列分析、市場調查與分析、統計預測與決策、數據結構、C語言、數據分析、數據挖掘、大數據分析與展示。理論課程的學習可以使學生了解數據分析的基本內容,學會如何對已獲取的數據進行加工處理,如何對實際問題進行定量分析,以及如何解釋分析的結果。掌握幾種常用數據分析方法的統計思想及基本步驟,并具備一定的分析論證能力。
2.實驗課程。數據分析的操作離不開計算機。目前數據分析行業常用的一些統計軟件有SAS、SPSS和R軟件。SAS軟件是一個模塊化、集成化的大型應用統計系統。它的功能包括數據訪問、數據儲存及管理、應用開發、圖形處理、數據分析、報告編制、運籌學方法、計量經濟學與預測等。SPSS軟件是一個社會科學統計軟件包,是采用圖形菜單驅動界面的統計軟件,SPSS的基本功能包括數據管理、統計分析、圖表分析、輸出管理等。R軟件是一套完整的數據處理、計算和制圖軟件系統,包括:數據存儲和處理系統、完整連貫的統計分析工具、優秀的統計制圖功能、可操縱數據的輸入和輸入等功能。這三個軟件在數據分析中針對不同行業的需求有不同方向的應用。
3.專業課程。從數據分析的行業需求出發,好的數據分析人員不僅要有較強的數據分析能力,還要有該行業的背景及相關知識的儲備,這樣才能將數據分析與行業特性聯系起來,發揮數據分析的最大功能,即所謂的“因地制宜”。同時要兼顧學生的興趣與學習的聯系,需提供多領域的課程選擇,如:經濟學、金融學、保險學、管理學、會計學等。而在軟件學習方面也要拓寬渠道,除了實驗課程安排學習的軟件,學生可根據自身發展意向再多掌握一些軟件如:SQL數據庫,熟悉office常用功能,尤其熟練運用Word和PowerPoint、Excel圖表及數據分析等。同時還應該結合對數據分析師的要求設置一些相關課程:投資數據分析、市場調研與預測、預測技術分析、現金流量表編制、風險投資項目篩選、不確定性分析、編制數據分析報告等。
三、實踐環節
培養數據分析的專業型人才目的就是為了學以致用。數據分析本身就是為了從數據中發現問題、建立模型、預測收益風險企業決策進而做出合理正確的決策判斷。因此,學習了基本的知識和技能就要運用到實際操作中。學??梢院捅镜氐臄祿治鍪聞账?,或者大量需求數據分析人員的互聯網行業建立實訓基地,進行合作式教學,使得學生在實習的過程中能夠理論聯系實際,切身體會數據分析的商業操作體系,這樣就能夠促進學生有目的、有取舍地針對自身情況學習鉆研,繼而就能夠培養出適應經濟發展,滿足市場需求的應用型人才。
四、結語
在大數據時代到來之時,數據分析在互聯網中的應用將會空前廣泛,與此同時對數據分析師的需求也將會井噴,無論是在軍事、工業、企業還是在政治上,大數據分析都將會十分緊缺。因此,目前對數據分析師的培養刻不容緩。本文從分析數據分析行業發展及其重要意義、數據分析專業課程設置以及教學實踐環節方面對構建數據分析課程體系進行了探討。不僅從教學課程的內容上予以安排,而且更加注重引導學生自主學習,特別強調理論結合實踐的合作式教學。希望能夠結合行業需求合理地構建課程,培養出專門從事數據分析的項目數據分析師,從而能夠滿足市場需求和自身發展。
參考文獻:
[1]范金城.數據分析[M].科學出版社,2010.
篇12
(一)理論基礎
數據科學中的數據處理和分析方法是在不同學科領域中分別發展起來的,譬如,統計學、統計學習或稱統計機器學習、數據挖掘、應用數學、數據密集型計算、密集計算方法等。在量化分析的浪潮下甚至出現了“metric+模式”,如計量經濟學、文獻計量學、網絡計量學、生物統計學等。因此,有學者將數據科學定義為計算機科學技術、數學與統計學知識、專業應用知識三者的交集,這意味著數據科學是一門新興的交叉學科。但是這種沒有側重的疊加似乎只是羅列了數據科學所涉及到的學科知識,并沒有進行實質性的分析,就好似任何現實活動都可以拆解為不同的細分學科,這是必然的。根據Naur(1960,1974)的觀點,數據科學或稱數據學是計算機科學的一個替代性稱謂。但是這種字面上的轉換,并沒有作為一個獨立的學科而形成。Cleveland(2001)首次將數據科學作為一個獨立的學科提出時,將數據科學表述為統計學加上它在計算技術方面的擴展。這種觀點表明,數據科學的理論基礎是統計學,數據科學可以看作是統計學在研究范圍(對象)和分析方法上不斷擴展的結果。一如統計學最初只是作為征兵、征稅等行政管理的附屬活動,而現在包括了范圍更廣泛的理論和方法。從研究范圍的擴展來看,是從最初的結構型大規模數據(登記數據),到結構型的小規模數據(抽樣數據)、結構型的大規模數據(微觀數據),再擴展到現在的非(半)結構型的大規模數據(大數據)和關系數據等類型更為豐富的數據。從分析方法的擴展來看,是從參數方法到非參數方法,從基于模型到基于算法,一方面傳統的統計模型需要向更一般的數據概念延伸;另一方面,算法(計算機實現)成為必要的“可行性分析”,而且在很多方面算法模型的優勢越來越突出。注意到,數據分析有驗證性的數據分析和探索性的數據分析兩個基本取向,但不論是哪一種取向,都有一個基本的前提假設,就是觀測數據是由背后的一個(隨機)模型生成,因此數據分析的基本問題就是找出這個(隨機)模型。Tukey(1980,2000)明確提到,EDA和CDA并不是替代關系,兩者皆必不可少,強調EDA是因為它被低估了。數據導向是計算機時代統計學發展的方向,這一觀點已被越來越多的統計學家所認同。但是數據導向仍然有基于模型與基于算法兩種聲音,其中,前文提到的EDA和CDA都屬于基于模型的方法,它們都假定數據背后存在某種生成機制;而算法模型則認為復雜的現實世界無法用數學公式來刻畫,即,不設置具體的數學模型,同時對數據也不做相應的限制性假定。算法模型自20世紀80年代中期以來隨著計算機技術的迅猛發展而得到快速成長,然而很大程度上是在統計學這個領域之外“悄然”進行的,比如人工神經網絡、支持向量機、決策樹、隨機森林等機器學習和數據挖掘方法。若響應變量記為y,預測變量記為x,擾動項和參數分別記為ε和β,則基于模型的基本形式是:y=f(x,β,ε),其目的是要研究清楚y與x之間的關系并對y做出預測,其中,f是一個有顯式表達的函數形式(若f先驗假定,則對應CDA;若f是探索得到的,則對應EDA),比如線性回歸、Logistic回歸、Cox回歸等??梢姡瑐鹘y建模的基本觀點是,不僅要得到正確的模型———可解釋性強,而且要得到準確的模型———外推預測能力強。而對于現實中復雜的、高維的、非線性的數據集,更切合實際的做法是直接去尋找一個恰當的預測規則(算法模型),不過代價是可解釋性較弱,但是算法模型的計算效率和可擴展性更強?;谒惴ǖ幕拘问筋愃朴诜菂捣椒▂=f(x,ε),但是比非參數方法的要求更低yx,因為非參數方法很多時候要求f或其一階導數是平滑的,而這里直接跳過了函數機制的探討,尋找的只是一個預測規則(后續的檢驗也是基于預測構造的)。在很多應用場合,算法模型得到的是針對具體問題的解(譬如某些參數是被當作一個確定的值通過優化算法得到的),并不是統計意義上的推斷解。
(二)技術維度
數據科學是基于數據的決策,數據分析的本質既不是數學,也不是軟件程序,而是對數據的“閱讀”和“理解”。技術只是輔助數據理解的工具,一個毫無統計學知識的人應用統計軟件也可以得到統計結果,但無論其過程還是結果都是可疑的,對統計結果的解釋也無法令人信服?!皬挠嬎銠C科學自身來看,這些應用領域提供的主要研究對象就是數據。雖然計算機科學一貫重視數據的研究,但數據在其中的地位將會得到更進一步的加強”。不可否認,統計分析逐漸向計算機科學技術靠近的趨勢是明顯的。這一方面是因為,數據量快速膨脹,數據來源、類型和結構越來越復雜,迫切需要開發更高效率的存儲和分析工具,可以很好地適應數據量的快速膨脹;另一方面,計算機科學技術的迅猛發展為新方法的實現提供了重要的支撐。對于大數據而言,大數據分析丟不掉計算機科學這個屬性的一個重要原因還不單純是因為需要統計軟件來協助基本的統計分析和計算,而是大數據并不能像早先在關系型數據庫中的數據那樣可以直接用于統計分析。事實上,面對越來越龐雜的數據,核心的統計方法并沒有實質性的改變,改變的只是實現它的算法。因此,從某種程度上來講,大數據考驗的并不是統計學的方法論,而是計算機科學技術和算法的適應性。譬如大數據的存儲、管理以及分析架構,這些都是技術上的應對,是如何實現統計分析的輔助工具,核心的數據分析邏輯并沒有實質性的改變。因此,就目前而言,大數據分析的關鍵是計算機技術如何更新升級來適應這種變革,以便可以像從前一樣滿足統計分析的需要。
(三)應用維度
在商業應用領域,數據科學被定義為,將數據轉化為有價值的商業信息①的完整過程。數據科學家要同時具備數據分析技術和商業敏感性等綜合技能。換句話說,數據科學家不僅要了解數據的來源、類型和存儲調用方式,而且還要知曉如何選擇相應的分析方法,同時對分析結果也能做出切合實際的解釋②。這實際上提出了兩個層面的要求:①長期目標是數據科學家從一開始就應該熟悉整個數據分析流程,而不是數據庫、統計學、機器學習、經濟學、商業分析等片段化碎片化的知識。②短期目標實際上是一個“二級定義”,即,鼓勵已經在專業領域內有所成就的統計學家、程序員、商業分析師相互學習。在提及數據科學的相關文獻中,對應用領域有更多的傾向;數據科學與統計學、數學等其他學科的區別恰在于其更傾向于實際應用。甚至有觀點認為,數據科學是為應對大數據現象而專門設定的一個“職業”。其中,商業敏感性是數據科學家區別于一般統計人員的基本素質。對數據的簡單收集和報告不是數據科學的要義,數據科學強調對數據多角度的理解,以及如何就大數據提出相關的問題(很多重要的問題,我們非但不知道答案而且不知道問題何在以及如何發問)。同時數據科學家要有良好的表達能力,能將數據中所發現的事實清楚地表達給相關部門以便實現有效協作。從商業應用和服務社會的角度來看,強調應用這個維度無可厚非,因為此處是數據產生的土壤,符合數據科學數據導向的理念,數據分析的目的很大程度上也是為了增進商業理解,而且包括數據科學家、首席信息官這些提法也都肇始于實務部門。不過,早在20世紀90年代中期,已故圖靈獎得主格雷(JimGray)就已經意識到,數據庫技術的下一個“大數據”挑戰將會來自科學領域而非商業領域(科學研究領域成為產生大數據的重要土壤)。2008年9月4日刊出的《自然》以“bigdata”作為專題(封面)探討了環境科學、生物醫藥、互聯網技術等領域所面臨的大數據挑戰。2011年2月11日,《科學》攜其子刊《科學-信號傳導》、《科學-轉譯醫學》、《科學-職業》專門就日益增長的科學研究數據進行了廣泛的討論。格雷還進一步提出科學研究的“第四范式”是數據(數據密集型科學),不同于實驗、理論、和計算這三種范式,在該范式下,需要“將計算用于數據,而非將數據用于計算”。這種觀點實際上是將數據從計算科學中單獨區別開來了。
三、數據科學范式對統計分析過程的直接影響
以前所謂的大規模數據都是封閉于一個機構內的(數據孤島),而大數據注重的是數據集間的關聯關系,也可以說大數據讓孤立的數據形成了新的聯系,是一種整體的、系統的觀念。從這個層面來說,將大數據稱為“大融合數據”或許更為恰當。事實上,孤立的大數據,其價值十分有限,大數據的革新恰在于它與傳統數據的結合、線上和線下數據的結合,當放到更大的環境中所產生的“1+1>2”的價值。譬如消費行為記錄與企業生產數據結合,移動通訊基站定位數據用于優化城市交通設計,微博和社交網絡數據用于購物推薦,搜索數據用于流感預測、利用社交媒體數據監測食品價等等。特別是數據集之間建立的均衡關系,一方面無形中增強了對數據質量的監督和約束;另一方面,為過去難以統計的指標和變量提供了另辟蹊徑的思路。從統計學的角度來看,數據科學(大數據)對統計分析過程的各個環節(數據收集、整理、分析、評價、等)都提出了挑戰,其中,集中表現在數據收集和數據分析這兩個方面。
(一)數據收集方面
在統計學被作為一個獨立的學科分離出來之前(1900年前),統計學家們就已經開始處理大規模數據了,但是這個時期主要是全國范圍的普查登記造冊,至多是一些簡單的匯總和比較。之后(1920-1960年)的焦點逐漸縮聚在小規模數據(樣本),大部分經典的統計方法(統計推斷)以及現代意義上的統計調查(抽樣調查)正是在這個時期產生。隨后的45年里,統計方法因廣泛的應用而得到快速發展。變革再次來自于統計分析的初始環節———數據收集方式的轉變:傳統的統計調查方法通常是經過設計的、系統收集的,而大數據是零散實錄的、有機的,這些數據通常是用戶使用電子數碼產品的副產品或用戶自行產生的內容,比如社交媒體數據、搜索記錄、網絡日志等數據流等,而且數據隨時都在增加(數據集是動態的)。與以往大規模數據不同的是,數據來源和類型更加豐富,數據庫間的關聯性也得到了前所未有的重視(大數據的組織形式是數據網絡),問題也變得更加復雜。隨著移動電話和網絡的逐漸滲透,固定電話不再是識別住戶的有效工具變量,相應的無回答率也在增加(移動電話的拒訪率一般高于固定電話),同時統計調查的成本在增加,人口的流動性在增加,隱私意識以及法律對隱私的保護日益趨緊,涉及個人信息的數據從常規調查中越來越難以取得(從各國的經驗來看,拒訪率或無回答率的趨勢是增加的),對時效性的要求也越來越高。因此,官方統計的數據來源已經無法局限于傳統的統計調查,迫切需要整合部門行政記錄數據、商業記錄數據、個人行為記錄數據等多渠道數據源,與部門和搜索引擎服務商展開更廣泛的合作。
(二)數據分析方面
現代統計分析方法的核心是抽樣推斷(參數估計和假設檢驗),然而數據收集方式的改變直接淡化了樣本的意義。比如基于瀏覽和偏好數據構建的推薦算法,誠然改進算法可以改善推薦效果,但是增加數據同樣可以達到相同的目的,甚至效果更好。即所謂的“大量的數據勝于好的算法”這與統計學的關鍵定律(大數定律和中心極限定理)是一致的。同樣,在大數據分析中,可以用數量來產生質量,而不再需要用樣本來推斷總體。事實上,在某些場合(比如社會網絡數據),抽樣本身是困難的。數據導向的、基于算法的數據分析方法成為計算機時代統計學發展無法回避的一個重要趨勢。算法模型不僅對數據分布結構有更少的限制性假定,而且在計算效率上有很大的優勢。特別是一些積極的開源軟件的支撐,以及天生與計算機的相容性,使算法模型越來越受到學界的廣泛重視。大數據分析首先涉及到存儲、傳輸等大數據管理方面的問題。僅從數量上來看,信息爆炸、數據過剩、數據泛濫、數據墳墓、豐富的數據貧乏的知識……這些詞組表達的主要是我們匱乏的、捉襟見肘的存儲能力,同時,存儲數據中有利用價值的部分卻少之又少或塵封窖藏難以被發現。這除了對開采工具的渴求,當時的情緒主要還是遷怨于盲目的記錄,把過多精力放在捕捉和存儲外在信息。在這種情況下,開采有用的知識等價于拋棄無用的數據。然而,大數據時代的思路改變了,開始變本加厲巨細靡遺地記錄一切可以記錄的數據。因為:數據再怎么拋棄還是會越來越多。我們不能通過刪減數據來適應自己的無能,為自己不愿做出改變找借口,而是應該面對現實,提高處理海量數據的能力。退一步,該刪除哪些數據呢?當前無用的數據將來也無用嗎?顯然刪除數據的成本要大于存儲的成本。大數據存儲目前廣泛應用的是GFS、HDFS等基于計算機群組的文件系統,它可以通過簡單增加計算機來無限地擴充存儲能力。值得注意的是,分布式文件系統存儲的數據僅僅是整個架構中最基礎的描述,是為其他部件服務的(比如MapReduce),并不能直接用于統計分析。而NoSQL這類分布式存儲系統可以實現高級查詢語言,事實上,有些RDBMS開始借鑒MapReduce的一些思路,而基于MapReduce的高級查詢語言也使MapReduce更接近傳統的數據庫編程,二者的差異將變得越來越模糊。大數據分析的可行性問題指的是,數據量可能大到已經超過了目前的存儲能力,或者盡管沒有大到無法存儲,但是如果算法對內存和處理器要求很高,那么數據相對也就“大”了。換句話說,可行性問題主要是,數據量太大了,或者算法的復雜度太高。大數據分析的有效性問題指的是,盡管目前的硬件條件允許,但是耗時太久,無法在可容忍的或者說可以接受的時間范圍內完成。目前對有效性的解決辦法是采用并行處理。注意到,高性能計算和網格計算也是并行處理,但是對于大數據而言,由于很多節點需要訪問大量數據,因此很多計算節點會因為網絡帶寬的限制而不得不空閑等待。而MapReduce會盡量在計算節點上存儲數據,以實現數據的本地快速訪問。因此,數據本地化是MapReduce的核心特征。
四、結論
(一)數據科學不能簡單地理解為統計學的重命名,二者所指“數據”并非同一概念,前者更為寬泛,不僅包括結構型數據,而且還包括文本、圖像、視頻、音頻、網絡日志等非結構型和半結構型數據;同時,數量級也是后者難以企及的(PB以上)。但是數據科學的理論基礎是統計學,數據科學可以看作是統計學在研究范圍(對象)和分析方法上不斷擴展的結果,特別是數據導向的、基于算法的數據分析方法越來越受到學界的廣泛重視。
(二)從某種程度上來講,大數據考驗的并不是統計學的方法論,而是計算機科學技術和算法的適應性。譬如大數據的存儲、管理以及分析架構,這些都是技術上的應對,核心的數據分析邏輯并沒有實質性的改變。因此,大數據分析的關鍵是計算機技術如何更新升級以適應這種變革,以便可以像從前一樣滿足統計分析的需要。
(三)大數據問題很大程度上來自于商業領域,受商業利益驅動,因此數據科學還被普遍定義為,將數據轉化為有價值的商業信息的完整過程。這種強調應用維度的觀點無可厚非,因為此處是數據產生的土壤,符合數據科學數據導向的理念。不過,早在20世紀90年代中期,已故圖靈獎得主格雷就已經意識到,數據庫技術的下一個“大數據”挑戰將會來自科學領域而非商業領域(科學研究領域成為產生大數據的重要土壤)。他提出科學研究的“第四范式”是數據,不同于實驗、理論、和計算這三種范式,在該范式下,需要“將計算用于數據,而非將數據用于計算”。這種觀點實際上將數據從計算科學中單獨區別開了。
篇13
在簡化理論方面,首先,在教材體系中,簡化教材中抽象基本原理的講述、復雜公式的推導,省略繁雜的書面統計計算過程的章節。把重點放在假設檢驗、方差分析、χ2檢驗和直線回歸等實際應用性的章節;其次,在教學內容上,簡化抽象基本原理的講述、復雜公式的推導,省略繁雜的統計計算過程。重點講授基本原理適應解決的對象,統計公式應用的條件,解題的基本步驟、基本方法和應注意的事項,新增引用Excel計算統計量、統計分析和常見統計軟件的初步應用等內容。
所謂“夠用”,首先是保證學生將來從事的崗位群所需要的統計方法及其原理,包括基本統計方法和原理的含義、應用對象、適用條件等基本知識;其次要保證具有分析和解決實際問題的實操能力,能做到學以致用。主要包括基本統計原理在實際工作中的應用、分析和解決問題的靈活運用能力和基本統計工具(Excel和SPSS,EVIEWS,SAS統計軟件)的使用能力等,其中重點是MicrosoftOfficeExcel一些自帶工具在統計學上的應用。
2.優化手段,講求“實用”。在課堂教學中,我們還應遵循教育教學過程和培養目標的另一個特點,即注重崗位能力的培養,根據“按需施教、學以致用”的原則,組織課程教學、試驗和實訓。筆者根據以上原則,突出統計專業課程是定量分析的內容較多,應用性和實踐性十分明顯的特點,把優化教學手段和“實用”結合起來,一并體現在課堂教學之中,主要是改變傳統講授統計學的“三個一”模式,對教學手段進行優化,采用多媒體自做課件教學和計算機實操教學。首先,利用多媒體教學信息容量大、視覺直觀、效果好的優點,既能簡化教材中抽象基本原理的講述、復雜公式的推導,省略繁雜書面統計計算的過程,又不影響學生對教材的學習和理解,在保證基本理論夠用的前提下,還有足夠的時間把重點放在講授基本原理應用性的實用內容上。其次,增加計算機實操(實驗實訓)課,把教材中的手工、半手工統計計算轉化成計算機計算。主要做法是增加SPSS、EVIEWS和SAS統計軟件的簡介,重點放在引用Excel自帶的函數公式“fx”計算標準誤、方差等統計量、利用Excel自帶的“數據分析”工具分析雙樣本均數假設檢驗和方差分析、利用Excel的“圖表向導”求回歸方程、相關系數和制作圖表等內容,其主要目的就是利用計算機這個現代化工具去解決實際生產中的統計問題,使復雜的統計計算簡單化,以增強學生的解決實際生產問題的實操運用能力。第三,根據教學對象將來的就業方向,并結合實際工作中的實際案例和學生學習中其它學科出現的統計問題自編練習題,讓學生反復練習并要求他們能舉一反三、熟練應用。
3.注重方法,力求“會用”。本文所講的方法是指注重統計學的實際運用方法,強調統計學基礎知識和基本原理在實際工作中的運用。重點內容應放在Excel自帶的函數公式、數據分析庫和統計軟件的基本應用上,而不是理論和繁雜的書面計算過程。核心問題是教會學生能夠靈活應用統計學這個統計工具,去解決生產實踐中的實際問題。在實際生產中,最為簡單、方便、實用的統計工具就是Excel。所以筆者在教學過程中就是以Excel的應用為中心,結合實際生產中的問題開展教學工作。
在工作中要始終堅持“會用”這個原則,“會用”包括兩層含義:第一,會用統計的原理解決實際問題,即知道解決什么問題時使用什么統計方法;第二,會利用Excel自帶的函數公式“fx”、“數據分析”庫和圖形處理等計算統計量,并根據統計計算結果對問題進行推論,達到解決實際問題的目的。
在課堂教學中,我們應注意以下幾個問題:第一,注意講清楚“數據分析”工具與手工統計分析計算上的銜接關系;第二,向學生交代清楚Excel自帶“數據分析”適用對象、適用條件,并教會他們分析和判斷;第三,詳細講授運用Excel自帶函數公式和“數據分析”的具體操作步驟,明確Excel計算結果中各個數量所代表的意義。下面舉例說明兩種安眠藥的療效有無極顯著的差異:
對10名失眠患者,服用甲乙兩種安眠藥。以XiYi分別表示使用甲乙兩種安眠藥后各個患者睡眠的延長小時數,結果如下表:
分析說明:第一,利用Excel自帶的“數據分析”工具解此題的步驟同手工統計法,也要求有以下4個步驟,①提出假設;②確定顯著水平;③計算概率值;④推斷H0的正誤。其中提出假設、確定顯著水平和推斷H0的正誤這三步與手工統計分析相同;而Excel自帶的函數公式和“數據分析”工具僅僅用于計算概率值。第二,Excel自帶的“數據分析”工具的選定和運用分析。本題具有兩組樣本數據,而且兩個樣本是相互關聯的,樣本容量一樣,每對數據都是同一總體在不同條件下抽取的樣本,如第1組數據1.9和0.7是同一個患者服用甲乙兩種藥睡眠延長的時間數。所以應選用Excel“數據分析”工具中的“t-檢驗:成對雙樣本均值分析”。第三,講清具體操作步驟,并注意對結果進行說明。
解:①檢驗假設:H0:u1=u2即兩種藥療效相同;HA:u1≠u2即兩種藥療效不相同
②取α的值為0.01(判斷這兩種安眠藥的療效有無極顯著的差異)
③統計計算:此步需用Excel“數據分析”工具,具體操作步驟如下:
打開Excel,把數據輸入Excel表格,點擊“工具”,再點擊“數據分析”,在對話框中選取“t-檢驗:成對雙樣本均值分析”,點擊“確定”。在隨后出現的對話框內單擊“變量1的區域”后的對話框,而后拖動鼠標選定Excel表中的第1組數據;同理,單擊“變量2的區域”后的對話框,而后拖動鼠標選定Excel表中的第2組數據;把“(?。焙髮υ捒虻闹蹈某?.01。然后在“輸出選項”下面的“輸出區域”前的圓圈內單擊鼠標表示選定,再用鼠標點擊“輸出區域”后面長形對話框,并在Excel數據表中鼠標點擊適當的單元格作為輸出區域。最后用鼠標點擊“確定”,此時Excel就會自動生成如上表的結果:“df”為自由度;“tStat”是“t-檢驗:成對雙樣本均值分析”的統計值,即t=4.062128;“t單尾臨界”是單尾檢驗臨界值,即單尾t0.01=2.8214;“t雙尾臨界”是雙尾檢驗臨界值,即雙尾t0.01=3.2498;“P”為概率,“P(T