Graph Mininng
Fundamentals + Random Graph + Motif
Our further goals are focused on :
1. Bigdata Processing
⭐️ 2. Graph Mining
Why GRAPH?
Most data is structured from Network
Network - A Complex System Consisting of Interacting Entities
![](https://velog.velcdn.com/images/u_u/post/1a09be91-3653-4332-a438-1643888ee2b6/image.png)
Nodes : v1, v2, v3
e12 : Edge of 1 to 2
Embedding - 수치에 대해 직접적인 관계는 없지만 다른 상호작용을 보고 연관성을 유추할 수 있다.
![](https://velog.velcdn.com/images/u_u/post/2b271564-c952-436c-8c1a-64a733edf3ee/image.png)
직접적인 v, u 노드 간의 연결은 없지만
ex) U1에 V1,V2가 연결되어 있는 것을 보고 관계를 유추할 수 있다.
Relation - 유사성을 보고 관계를 유추하고 W를 측정할 수 있다.
Why Networks (Graph)? And Why now?
- Universal language for describing complex data
- Networks from science, nature, and technology are more similar than one would expect
- Shared vocabulary between fields
- COmputaer Science, Social Science, Physics, Economics, Statistics, Biology
- Data availability & computational challenges
- Web/mobile, bio, health, and medical
- Impact!
- Social networking, Drug design, AI reasoning
- 복합형 인재,
Revisit : Graph Definition
Graph Types
-
Directed Graph
-
Unweighted Graph
Degrees
In degree - 나에게 들어오는 노드의 개수
Out degree - 나에게서 나가는 노드의 개수
Repersenting a Graph : Adjeacent Matrix
![](https://velog.velcdn.com/images/u_u/post/54fb87c6-0401-48ad-bb82-2572524a718f/image.png)
0이 많으면 메모리 공간 차지가 큼 이걸 줄이고 싶어함.
Tree
- A type
- All nodes are connected
- No cycles
Graph analysis
Network Properties : A first measure for graph
- Degree distribution
- Path length(Distance 거리)
- Clustering coefficient(나를 중심으로 얼마나 뭉처져 있는가)
- Connected components(연결성, 연결되어 있는/안되어 있는지)
Degree Distribution
![](https://velog.velcdn.com/images/u_u/post/b8e79c06-5f82-426b-b053-1dfcbbeb98f1/image.png)
Paths in a Graph
Shortest Path
Diameter & APL
APL - path length의 평균 (Average Path Length)
Clustering Coefficient
![](https://velog.velcdn.com/images/u_u/post/ae18324b-05de-4359-ad13-599e8d2724c9/image.png)
_n_C2로 나누는 것
Connectivity
Generating Random Graph (Erdos-Renyi)
똑같은 갯수의 노드와 엣지를 가지고 랜덤 그래프를 그려야 한다.
Simple Algorithm to Generate a Random Graph
Gnp : 노드와 확률을 주어짐
Gnm : 노드와 엣지의 개수가 주어짐
Random Graph Model
![](https://velog.velcdn.com/images/u_u/post/9f648145-f3af-4d24-a72c-6b6d968ad6a4/image.png)
- Degree distribution 동일하게 뽑기 때문에 정규분포의 형태를 띈다.
Ramdom Graph Gnp Does NOT Reflect Real_World
- Degree distribution 모양이 다르다
- Avg.Clustering coef. 가 너무 낮다
THe Problem Comes from "Edge Locality"
![](https://velog.velcdn.com/images/u_u/post/0bbba504-c1c6-4f13-9f85-fdb4f4ee6c85/image.png)
엣지가 존재하는 주변에 연결된 엣지가 존재할 확률이 높다.
diameter - (distance가 가장 높은 것) 또한 높다.