數據科學粵拼sou3 geoi3 fo1 hok6 | 英文data science)係一個跨學科科學領域,重點研究運用科學方法同各種演算法,由有結構或者冇結構嘅 data 嗰度搵出有用知識[1][2]

2018 年其中一個禮拜英文維基百科最多人睇嗰 25 篇文嘅名同瀏覽數;要點樣利用呢啲數據達到目的呢?

有數據科學家指,數據科學可以用以下一句嘢概括[3]:用最勁嘅硬件、最勁嘅編程系統、同用最有效嘅演算法嚟解決問題。

諗頭

編輯
睇埋:大數據

有人指,數據科學係科學第四範式(fourth paradigm):本嚟科學係以實證理論計算為重嘅,廿一世紀初就喺呢三樣之上加多個「數據」[4];數據科學會運用數學統計學機械學習、以及訊息科學等領域嘅技術,由手上嘅數據當中抽取有用嘅知識,並且攞嚟喺有經濟價值嘅地方嗰度使用(例:根據手上數據,呢柞變數之間成噉嘅關係,呢個預測現象嘅能力可以作乜商業用途?)[5]。數據科學係伴隨廿一世紀資訊科技而嚟嘅-隨住互聯網發達,有大量數據喺網上流動(睇埋大數據),於是有唔少人開始想利用呢啲數據做有用嘅嘢,數據科學就隨住呢股趨勢而興起[6][7]

工序

編輯
睇埋:人工智能

做數據科學嘅工序如下[8]

  1. 諗清楚要解決嘅問題係乜。例:家陣有個數據科學家,俾人請佢幫手做市場研究,佢首先要搞清楚份研究想達到乜目的(搞清楚消費者鍾意同唔鍾意件產品啲乜,再按呢個資訊改良件產品)。
  2. 做一啲探索性質(exploratory)嘅分析,諗吓手上嘅數據解答到乜嘢同目的相關嘅問題。例:手上個數據庫有一大柞消費者嘅數據,知道每個消費者對件產品喺各方面嘅評價,計劃可以試吓做聚類分析將消費者分做若干類。
  3. 建立一啲數學模型,描述柞數據入面有啲乜嘢規律喺當中。例:用機械學習演算法做返咗個聚類分析,結果係消費者可以按照佢哋對件產品各方面嘅評價分做三大類。
  4. 匯報個結果(尤其係步驟 3 嘅結果)俾相關人員聽,將數據視覺化,等啲數據易睇。
  5. 講吓個結果有乜嘢影響-即係知道咗呢個結果,目前嘅做嘢方法要有乜嘢改變先可以更有效噉達到目的。例:知道咗消費者可以分做三類,產品設計要點改變先可以令消費者更加滿意?

睇埋

編輯

參考

編輯

  • Understanding The 4 V's Of Big Data, Forbes,呢篇文講到大數據4V,即係指數據量大(volume)、花款多(variety)、攞得快(velocity)、而且有時難核實(veracity)。
  • Cielen, D., Meysman, A., & Ali, M. (2016). Introducing data science: big data, machine learning, and more, using Python tools. Manning Publications Co.
  • Grus, J. (2019). Data science from scratch: first principles with python. O'Reilly Media.

引述

編輯
  1. Dhar, V. (2013). "Data science and prediction". Communications of the ACM. 56 (12): 64–73.
  2. Jeff Leek (12 December 2013). "The key word in "Data Science" is not Data, it is Science 互聯網檔案館歸檔,歸檔日期2018年8月21號,.". Simply Statistics.
  3. Leskovec, Jure; Rajaraman, Anand; Ullman, Jeffrey David. Mining of Massive Datasets (PDF) (Preprint of 3rd ed.). Cambridge University Press. p. 1.
  4. Tansley, S., & Tolle, K. M. (2009). The fourth paradigm: data-intensive scientific discovery (Vol. 1). A. J. Hey (Ed.). Redmond, WA: Microsoft research.
  5. Hayashi, Chikio (1 January 1998). "What is Data Science? Fundamental Concepts and a Heuristic Example". In Hayashi, Chikio; Yajima, Keiji; Bock, Hans-Hermann; Ohsumi, Noboru; Tanaka, Yutaka; Baba, Yasumasa (eds.). Data Science, Classification, and Related Methods. Studies in Classification, Data Analysis, and Knowledge Organization. Springer Japan. pp. 40–51.
  6. Bell, G.; Hey, T.; Szalay, A. (2009). "COMPUTER SCIENCE: Beyond the Data Deluge". Science. 323 (5919): 1297–1298.
  7. "ASA Statement on the Role of Statistics in Data Science". AMSTATNEWS. American Statistical Association.
  8. A Design Thinking Mindset for Data Science. Towards Data Science
pFad - Phonifier reborn

Pfad - The Proxy pFad of © 2024 Garber Painting. All rights reserved.

Note: This service is not intended for secure transactions such as banking, social media, email, or purchasing. Use at your own risk. We assume no liability whatsoever for broken pages.


Alternative Proxies:

Alternative Proxy

pFad Proxy

pFad v3 Proxy

pFad v4 Proxy