Phân tích dữ liệu – Data Analysis (DA) là khoa học phân tích dữ liệu thô được tiến hành để đưa ra kết luận về các thông tin chứa trong các tập dữ liệu đó. Nhiều kỹ thuật và quy trình phân tích dữ liệu đã được tự động hóa thành các quy trình và thuật toán cơ học hoạt động trên dữ liệu thô phục vụ đời sống con người.

Phân tích dữ liệu – Data Analysis (DA)

Các kỹ thuật phân tích dữ liệu có thể tiết lộ các xu hướng và số liệu tạo thành các thông tin có ý nghĩa. Các thông tin này sau đó có thể được sử dụng để tối ưu hóa các quy trình để tăng hiệu quả tổng thể của một doanh nghiệp hoặc một hệ thống. Nói một cách đơn giản thì dữ liệu xuất hiện ở mọi nơi trong đời sống của chúng ta.

Lấy ví dụ: giá vàng SJC hôm nay tại Việt Nam được bán ra là 37.28 triệu đồng/lượng. Đọc qua thì thấy thông tin này có vẻ vô nghĩa trừ việc ta đã mô tả về giá vàng. Tuy nhiên với việc kết nối các quan hệ dữ liệu lại với nhau, các thông tin có ý nghĩa về giá vàng sẽ bắt đầu xuất hiện và chúng ta sẽ được mở rộng kiến thức vế việc dự đoán giá vàng dựa trên dữ liệu đã có thay vì sử dụng cảm tính. Khi chúng ta sở hữu dữ liệu giá vàng được thu thập theo thời gian, cụ thể là giá tăng liên tục từ 36 triệu lên 37.28 triệu/ lượng trong 3 ngày thì có khả năng giá vàng sẽ giảm vào ngày tiếp theo.

Dữ liệu tạo ra thông tin, kết hợp với kiến thức sẽ tạo ra quyết định cho doanh nghiệp hoặc cho bản thân mỗi người. Lấy ví dụ về quy trình phân tích dữ liệu giá vàng bán ra được mô tả trong hình dưới đây:

Quy trình phân tích dữ liệu giá vàng bán ra

Quy trình phân tích dữ liệu giá vàng bán ra

Phân tích và xử lý dữ liệu

Dữ liệu ngày càng lớn và đa dạng hơn mỗi ngày. Vì vậy, phân tích và xử lý dữ liệu để nâng cao kiến thức của con người hoặc tạo ra giá trị là một thách thức lớn. Để giải quyết những thách thức này, ta sẽ cần kiến thức nghiệp vụ và nhiều kỹ năng, xuất phát từ các lĩnh vực như khoa học máy tính, trí tuệ nhân tạo (AI) và học máy (ML), thống kê và toán học:

Kiến thức sử dụng trong quy trình xử lý dữ liệu

Các bước cơ bản trong quy trình phân tích dữ liệu:

Data Requirements – Yêu cầu về dữ liệu: xác định loại dữ liệu sẽ được thu thập dựa trên yêu cầu và vấn đề cần phân tích. Ví dụ để phân tích hành vi đọc báo mạng của người dùng, chúng ta cần biết những trang nào người dùng đã truy cập, ngày tháng, các chuyên mục báo và thời gian người dùng dành cho việc đọc báo trên các trang khác nhau.

Data Collection – Thu thâp dữ liệu: dữ liệu có thể đến từ nhiều nguồn: điện thoại, máy tính cá nhân, camera, các thiết vị lưu trữ, … Chúng cũng có thể được thu thập theo nhiều cách: giao tiếp, các sự kiện, giữa người với thiết bị, giữa thiết bị với thiết bị, …

Dữ liệu xuất hiện ở bất cứ đâu và ở bất cứ thời điểm nào trên Trái Đất này. Vấn đề là làm thế nào chúng ta có thể tìm và thu thập được các dữ liệu cho việc giải quyết vấn đề? Đây chính là nhiệm vụ của bước thu thập dữ liệu.

Data Processing – Xử lý dữ liệu: dữ liệu thu được ban đầu phải được xử lý hoặc tổ chức để phân tích. Đây là bước khá nhạy cảm trong việc phân tích dữ liệu liên quan đến hiệu suất phân tích. Câu hỏi được đặt ra là ta có thể tạo, thêm, cập nhật hoặc truy vấn dữ liệu nhanh đến mức nào?

Khi xây dựng một sản phẩm thực sự đòi hỏi phải xử lý dữ liệu lớn, bước này là tối quan trọng. Chúng ta nên sử dụng loại cơ sở dữ liệu nào để lưu trữ dữ liệu? Loại cấu trúc dữ liệu nào, chẳng hạn như phân tích, thống kê hoặc trực quan hóa, phù hợp với mục đích để giải quyết vấn đề?

Data Cleaning – Làm sạch dữ liệu: chắc chắn đôi khi ta sẽ gặp phải tình trạng dữ liệu bị lặp lại hoặc xảy ra lỗi vì vậy bước làm sạch dữ liệu là cần thiết để đem lại kết quả hữu ích và chính xác hơn. Tùy thuộc vào loại dữ liệu, chúng ta có thể áp dụng một số cách làm sạch dữ liệu.

Ví dụ: lịch sử truy cập của một người dùng vào một trang web tin tức có thể chứa rất nhiều hàng link trùng lặp, vì người dùng có thể đã F5 (tải lại) một số trang nhất định nhiều lần. Các hàng link này có thể không mang bất kỳ ý nghĩa nào khi khám phá hành vi của người dùng vì vậy chúng nên bị loại bỏ trước khi lưu vào cơ sở dữ liệu.

Exploratory Data Analysis – Phân tích khám phá dữ liệu: bắt đầu việc phân tích dữ liệu bằng các kỹ thuật phân tích đa dạng. Ở bước này, ta có thể phát hiện thêm các vấn đề trong việc làm sạch dữ liệu hoặc khám phá các yêu cầu để có thêm dữ liệu. Vì vậy, các bước này có thể lặp đi lặp lại trong toàn bộ quá trình phân tích dữ liệu.

Một trong những kỹ thuật phổ biến nhất đó là Trực quan hóa dữ liệu (Data Visualization) – biểu diễn dữ liệu dưới dạng đồ thị hoặc biểu đồ. Trực quan hóa dữ liệu sẽ tăng sự hiểu biết về các tập dữ liệu đặc biệt là các tập dữ liệu lớn và đa chiều.

Modelling & Algorithms – mô hình hóa và dùng thuật toán: rất nhiều công thức toán học và thuật toán có thể được áp dụng để phát hiện hoặc dự đoán các thông tin hữu ích từ dữ liệu thô. Ví dụ: chúng ta có đề xuất các bài viết quan tâm cho người dùng dựa vào hành vi đọc tin tức báo mạng của họ. Nâng cao hơn, ta có thể phát hiện giới tính của người dùng dựa trên hành vi đọc tin tức của họ bằng cách áp dụng các mô hình phân loại như Support Vector Machine (SVM) hoặc hồi quy tuyến tính.

Tùy thuộc vào vấn đề cần giải quyết, ta có thể sử dụng các thuật toán khác nhau để có được các kết quả chấp nhận được. Để đánh giá độ chính xác của các thuật toán mất rất nhiều thời gian và quan trọng hơn là đánh giá, lựa chọn một thuật toán tốt nhất để thực hiện cho một sản phẩm nhất định.

Data Product – sản phẩm dữ liệu: mục tiêu của bước cuối cùng này là xây dựng các sản phẩm dữ liệu nhận dữ liệu đầu vào (input) và tạo đầu ra (output) theo yêu cầu của vấn đề. Chúng ta sẽ áp dụng các kiến thức về khoa học máy tính để thực hiện các thuật toán đã chọn cũng như quản lý việc lưu trữ dữ liệu.

Bài viết này đã tìm hiểu cơ bản về định nghĩa phân tích dữ liệu và quy trình xử lý, phân tích dữ liệu. Hy vọng bạn sẽ có được những thông tin hữu ích từ bài viết này. Nếu có bất kỳ câu hỏi nào về phân tích dữ liệu thì đừng ngần ngại chia sẻ nhé :).

Nguồn tham khảo:

https://www.investopedia.com/terms/d/data-analytics.asp

Python Data Analytics & Visualization Book