论文标题

部分可观测时空混沌系统的无模型预测

Large Scale Enrichment and Statistical Cyber Characterization of Network Traffic (Enriquecimiento a gran escala y caracterización cibernética estadística del tráfico de red)

论文作者

Kawaminami, Ivan, Estrada, Arminda, Elsakkary, Youssef, Jananthan, Hayden, Buluç, Aydın, Davis, Tim, Grant, Daniel, Jones, Michael, Meiners, Chad, Morris, Andrew, Pisharody, Sandeep, Kepner, Jeremy

论文摘要

现代网络传感器不断产生大量的原始数据,这些数据超出了人类分析师的能力。网络传感器的互相关通过使用其他元数据丰富每个网络事件来增加这一挑战。这些大量丰富的网络数据提供了统计表征网络流量的机会,并迅速回答一个关键问题:“我的网络数据的主要网络特征是什么?” Python Graphblas和PYD4M分析框架使匿名统计分析能够在非常大的网络数据集上快速有效地执行。使用来自最大的Internet天文台(CAIDA望远镜)的数十亿个匿名网络数据样本和数千万匿名记录,从最大的市售背景丰富能力(Greynoise)中测试了这种方法。分析证实,大多数富集变量遵循预期的重尾分布,而网络流量的很大一部分是由于少量网络活动所致。该信息可以通过基于统计流行率实现网络活动的优先级来简化网络分析师的任务。 - - Los Sensores de Red Modernos生产的巨大镜头datos sin sin procesar queestánmásAlládela la a aanálisishanálisishumano。 unacorrelacióncruzadade Sensores de Red se Convierte en undesafíoAlEnriquecer Cada Evesto de Red Con Con Metadatos Adicionales。 Estos Grandesvolúmenesdeatos de datos de datos de Red enriquecidos theran una una oportunidad para caracterizarestadísticamenteeltráficodede red y responder a la pregunta:“? Los Esquemas deAnálisisde Python Graphblas y D4M许可证AnálisisSestadísticosAnónimos,Rápidosy eficientes y eficientes en conjuntos en conjuntos datos deatos de datos de de Red。 Este Enfoque Se Prueba Utilizando Miles de Millones datos datos de Datos de RedAnónimosdel observatorio de InternetMásGrande(Telescopio caida)Y Decenas decenas de Millones de incormons de incormons de incormorsanónimosanónimosdel fordo fordo fordo fordo fordo fordo cormercial concoccilection con la Moyor con Mouth la Moyor copacidad de liquecimiento(Greynoise)。 ElAnálisiscorkerna que laMayoríaDelas变量Enriquecidas siguen las distresses de cola pesada y que una gran granfraccióndeltráficoDetráficode Red se debe a una pequena pequena pequena cantidad de Advistidescibernéticascibernéticascibernéticas。 estaInformaciónPuede简化了La tarea de los Analistascibernéticosal persiair lapriorchizacióndelas acividadescibernéticasenenfuncióndela la devevalenciaestadística。

Modern network sensors continuously produce enormous quantities of raw data that are beyond the capacity of human analysts. Cross-correlation of network sensors increases this challenge by enriching every network event with additional metadata. These large volumes of enriched network data present opportunities to statistically characterize network traffic and quickly answer a key question: "What are the primary cyber characteristics of my network data?" The Python GraphBLAS and PyD4M analysis frameworks enable anonymized statistical analysis to be performed quickly and efficiently on very large network data sets. This approach is tested using billions of anonymized network data samples from the largest Internet observatory (CAIDA Telescope) and tens of millions of anonymized records from the largest commercially available background enrichment capability (GreyNoise). The analysis confirms that most of the enriched variables follow expected heavy-tail distributions and that a large fraction of the network traffic is due to a small number of cyber activities. This information can simplify the cyber analysts' task by enabling prioritization of cyber activities based on statistical prevalence. -- Los sensores de red modernos producen enormes cantidades de datos sin procesar que están más allá de la capacidad del análisis humano. Una correlación cruzada de sensores de red se convierte en un desafío al enriquecer cada evento de red con metadatos adicionales. Estos grandes volúmenes de datos de red enriquecidos presentan una oportunidad para caracterizar estadísticamente el tráfico de red y responder a la pregunta: "?Cuáles son las principales características cibernéticas de mis datos de red?" Los esquemas de análisis de Python GraphBLAS y D4M permiten realizar análisis estadísticos anónimos, rápidos y eficientes en conjuntos grandes de datos de red. Este enfoque se prueba utilizando miles de millones de muestras de datos de red anónimos del observatorio de Internet más grande (Telescopio CAIDA) y decenas de millones de registros anónimos del fondo comercial con la mayor capacidad de enriquecimiento (GreyNoise). El análisis confirma que la mayoría de las variables enriquecidas siguen las distribuciones de cola pesada y que una gran fracción del tráfico de red se debe a una pequena cantidad de actividades cibernéticas. Esta información puede simplificar la tarea de los analistas cibernéticos al permitir la priorización de las actividades cibernéticas en función de la prevalencia estadística.

扫码加入交流群

加入微信交流群

微信交流群二维码

扫码加入学术交流群,获取更多资源