Làm thế nào để phát hiện ra dữ liệu bị đánh cắp bằng cách sử dụng Hadoop và dữ liệu lớn?

Trộm cắp dữ liệu là một vấn đề lớn trong một thời gian khá. Thời gian dài thực hiện để xác định các hành vi trộm cắp những gì thêm cho vấn đề là. Còn phải mất để phát hiện hành vi trộm cắp dữ liệu, các khó khăn hơn là tìm một giải pháp. Hadoop và Big Data có thể giúp các tổ chức giảm thời gian để xác định hành vi trộm cắp dữ liệu và tìm một giải pháp. Một vài tổ chức, như bài viết này sẽ trình bày trong khóa học do, có được sử dụng Hadoop và Big Data để phát hiện hành vi trộm cắp dữ liệu một cách nhanh chóng. Still, giải pháp trộm cắp dữ liệu khả thi chỉ mới bắt đầu đến và vẫn có một thời gian dài trước khi chúng ta có thể phát triển phòng thủ chống lại trộm cắp dữ liệu âm thanh.

Trộm cắp dữ liệu: một số thống kê đáng sợ

Nhãn hiệu có uy tín trên toàn thế giới đã bị mất mát rất lớn của danh tiếng và tiền bạc vì hành vi trộm cắp dữ liệu. Hãy xem xét các số liệu thống kê sau đây:

Tại Hoa Kỳ, hơn 8 năm, một hacker nhắm mục tiêu nhóm ngân hàng, cửa hàng và xử lý thanh toán các phòng ban và lấy trộm hơn 160 triệu số thẻ tín dụng và thẻ ghi nợ.
KT Corp, các hãng di động Hàn Quốc phải chịu một mất mát rất lớn của danh tiếng khi hai nghi phạm được báo cáo đạt doanh thu hơn $850,000 bằng cách bán các chi tiết kế hoạch và thông tin liên lạc của hơn 8.7 triệu thuê bao KT.
Experian, một trong những công ty theo dõi dữ liệu lớn nhất thế giới, tiết lộ một vi phạm lớn các dữ liệu của khách hàng đã được áp dụng cho các dịch vụ tại T-Mobile. Các dữ liệu bao gồm tên, địa chỉ, Số An Sinh Xã Hội, Các chi tiết về hộ chiếu và giấy phép lái xe chi tiết.
JP Morgan Chase thua lỗ hơn 76000000 hồ sơ khách hàng khi tin tặc đã đánh cắp số tài khoản của khách hàng, tên và ID email. Có gì thêm vào vấn đề là các hành vi trộm cắp đã được phát hiện gần một tháng sau.
Home Depot phải đối mặt với một mất mát lớn của dữ liệu nhạy cảm khi thông tin thẻ tín dụng lên đến 56 triệu khách hàng đã bị đánh cắp từ các hệ thống máy tính tiền của nó. Vi phạm này đã được thực hiện bởi phần mềm độc hại được cài đặt bởi các hacker Nga và Ucraina trong các hệ thống máy tính tiền.

Có rất nhiều sự cố như vậy xảy ra mỗi ngày. Các quan sát sau đây có thể được suy ra từ các mẫu ở trên:

Trộm cắp dữ liệu có thể làm thủng mạnh của hệ thống bởi vì các phương pháp đánh cắp dữ liệu được phát triển với các phương pháp chống trộm cắp dữ liệu.
Trộm cắp dữ liệu không thể được loại bỏ nhưng nó có thể được quản lý tốt hơn.
Nếu hệ thống của các thương hiệu có uy tín như vậy giống như JP Morgan Chase và Experian và có thể được vi phạm, sau đó hầu như không có gì là an toàn.
Hệ thống bảo vệ trộm cắp dữ liệu cần kích thước khác như là tốt và không chỉ tập trung vào việc bảo vệ dữ liệu. For example, có một nhu cầu để nhanh chóng xác định hành vi trộm cắp dữ liệu và xác định những dấu chân.

Vai trò của Hadoop và Big Data trong việc khôi phục dữ liệu bị đánh cắp

Nó không phải là có thể để quét sạch vi trộm cắp dữ liệu và nó có thể tấn công bất cứ lúc nào bất cứ nơi nào. Nhưng cách tiếp cận đối với hành vi trộm cắp dữ liệu cần sửa đổi. Trong khi các hệ thống bảo mật dữ liệu được nâng cấp, phát hiện hành vi trộm cắp sớm và phục hồi dữ liệu bị mất cũng cần quan tâm. Hadoop và Big Data có thể đóng một vai trò trong việc nhanh chóng xác định một sự cố trộm cắp dữ liệu. Một vài công ty đã làm việc vào việc tìm kiếm các giải pháp trộm cắp dữ liệu. Họ thậm chí không cố gắng để ngăn chặn hành vi trộm cắp dữ liệu - đó là không thể. Họ đang làm việc tại hai điều sau đây:

Xác định các hành vi trộm cắp dữ liệu càng nhanh càng tốt để các dữ liệu có thể được theo dõi mà không lãng phí thời gian.
Theo dõi dữ liệu bị đánh cắp trên Internet và Web đen.

Các khái niệm đằng sau các giải pháp trộm cắp dữ liệu

Giả định đằng sau các giải pháp trộm cắp dữ liệu là nó gần như là không thể ngăn chặn hành vi trộm cắp dữ liệu. Cách tốt nhất để tiếp cận một tình hình trộm cắp dữ liệu là giả định rằng nó là không thể tránh khỏi và nhanh chóng bắt đầu tìm kiếm các dữ liệu trước khi nó bị mất.

Có một sự khác biệt cơ bản giữa các sự cố ăn cắp một tốt hữu hình và dữ liệu. Không giống như một hữu hình tốt, tên trộm dữ liệu chỉ có thể ăn cắp một bản sao của dữ liệu. Các dữ liệu ban đầu có thể giúp theo dõi bản sao của nó trong web. Đó là khoảng cách so sánh bản gốc và bản sao của nó.

Để phù hợp với bản gốc và bản sao của nó, bạn cần phải tạo một mã băm của bản gốc và phù hợp với nó với điều đó của bản sao. Một mã băm là một số duy nhất hoặc xác định được gán cho một đoạn dữ liệu. Các kỹ thuật để tạo mã băm được biết đến như băm mật mã. Theo các chuyên gia trong lĩnh vực này, một công ty dữ liệu tình báo chuyên về các giải pháp trộm cắp dữ liệu, "" Đó không phải là mã được nhúng trong các dữ liệu quá nhiều như là một tính toán được thực hiện trên các dữ liệu chính nó ". Bạn cần phải đầu tiên chia dữ liệu thành nhiều mẩu và sau đó chạy mỗi mẩu thông qua một hàm toán học để tạo ra một mã băm. Sau đó, bạn thu thập dữ liệu web và phù hợp với mã băm với các dữ liệu tìm thấy trên web. Nếu mã băm của bản gốc phù hợp với các dữ liệu khác, bạn đã tìm thấy dữ liệu bị đánh cắp của bạn.

Một vài công ty cũng kêu gọi toàn bộ quá trình Matching vân tay. Các mã hash của các khối dữ liệu được gọi là dấu vân tay của dữ liệu và hành động phù hợp với các mã băm được gọi là khớp dấu vân tay.

Các giải pháp trộm cắp dữ liệu là khá mạnh mẽ bởi vì họ có thể thu thập dữ liệu ngay cả những Web tối nơi mà các trang web có thể che giấu danh tính của họ. thực tế, Crawling Dark Web được tuyên bố là một trong những đặc điểm trung tâm của giải pháp trộm cắp dữ liệu.

Một số giải pháp trộm cắp dữ liệu cũng cung cấp các phân tích và khả năng báo cáo cho khách hàng của họ. Những giải pháp này có thể được tích hợp với hầu như bất kỳ thông tin bảo mật và quản lý sự kiện (SIEM) hệ thống. Các Siems có thể nhận thông báo.

Sau đây là một sơ đồ dòng chảy công việc điển hình cho một ứng dụng bảo mật tiêu chuẩn.

Sơ đồ dòng chảy

Vai trò của Hadoop và Big Data trong việc tìm kiếm dữ liệu bị đánh cắp

Chắc chắn, để phù hợp với dấu vân tay dữ liệu, Matchlight cần phải xử lý một khối lượng lớn dữ liệu.

Toàn bộ quá trình phá vỡ thành nhiều phần dữ liệu và tạo mã băm liên quan đến khối lượng dữ liệu khổng lồ. Đó là tưởng tượng rằng các cơ sở dữ liệu của mỗi công ty quản lý dữ liệu đánh cắp phải được tràn đầy dữ liệu. Để xử lý một số lượng lớn như vậy dữ liệu, các công ty cần có một nền tảng Hadoop đáng tin cậy. Không phải bất kỳ giải pháp Hadoop sẽ làm. Nó cần phải được một cái gì đó giống như một phiên bản doanh nghiệp-lớp của Hadoop được thực hiện trong mã nguồn gốc và không phải trên máy ảo Java. Điều này làm cho Hadoop nhiều tài nguyên hiệu quả.

Các giải pháp trộm cắp dữ liệu trên thị trường hoàn toàn phụ thuộc vào khối dữ liệu hoặc bộ dữ liệu. Các bộ dữ liệu hơn, cao hơn là cơ hội để phù hợp với dấu vân tay. So, có một nhu cầu của một hệ thống có thể xử lý khối lượng lớn dữ liệu. Chỉ Hadoop và Big Data có khả năng làm điều đó. Theo Danny Rogers, "Chúng tôi chỉ là tốt như các dữ liệu chúng tôi thu thập, và khả năng của chúng tôi để thu thập dữ liệu nhiều hơn phụ thuộc vào mảnh này quan trọng của công nghệ. "

Vai trò nêu trên của Hadoop trong việc tìm kiếm dữ liệu bị đánh cắp có thể thiết lập một khuôn mẫu để theo dõi dữ liệu bị đánh cắp. Bạn cần một quy mô lớn và tự động hóa dựa trên đám mây với một phân bố của khối doanh nghiệp để tìm ra dữ liệu bị đánh cắp. Hadoop đóng hai vai trò trong bối cảnh này: quản lý dữ liệu và xử lý dữ liệu. Đối với bất kỳ tổ chức mà cố gắng để phù hợp với dấu vân tay của tập dữ liệu để tìm dữ liệu bị đánh cắp, nó sẽ có để lưu trữ và xử lý khối lượng lớn các tập dữ liệu. Cho rằng, nó sẽ cần một quản lý dữ liệu âm thanh và hệ thống xử lý.

Summary

Sự phát triển của hệ thống phát hiện hành vi trộm cắp dữ liệu đại diện cho một sự thay đổi trong cách tiếp cận đối với hành vi trộm cắp dữ liệu trong một cảm giác. Nó là tốt mà các doanh nghiệp đang thực hiện tiềm năng Hadoop trong việc phát hiện dữ liệu bị đánh cắp. Hadoop bổ sung hệ thống theo dõi đánh cắp dữ liệu. Kỹ thuật phù hợp với dấu vân tay cần được hỗ trợ bởi đủ lưu trữ dữ liệu và khả năng xử lý. However, như đã nói trong bài viết này, đây là những ngày đầu trong sự phát triển như thế này. Góc độ khác có thể đảm bảo sự an toàn của hệ thống lưu trữ dữ liệu mà có thể là mục tiêu cho các cuộc tấn công trong tương lai như các hệ thống lưu trữ một lượng lớn dữ liệu. Trong trường hợp này, cơ sở dữ liệu doanh nghiệp và Hadoop có thể phải đối mặt với các cuộc tấn công từ hacker như nhau.

Share on Facebook

Save

TechAlpine – All About Technology

www.techalpine.com

Làm thế nào để phát hiện ra dữ liệu bị đánh cắp bằng cách sử dụng Hadoop và dữ liệu lớn?

Thưởng thức blog này,,en,làm ơn mở rộng vốn từ,,en,techalpine.com/apache-mahout-and-machine-learning,,en? Please spread the word :)