본문 바로가기

AI

“CityLens: 대형 언어-비전 모델로 세계 도시의 사회경제적 패턴을 ‘읽다’—가능성과 한계를 가르는 다중 모달·다중 평가 혁신”

안녕하세요. 오늘은 ‘CityLens’라는 논문을 중심으로 대형 언어-비전 모델(LLVMs)이 도시의 사회경제적 지표를 예측하는 데 어떤 가능성과 한계가 있는지 살펴보고, 기존 연구들과의 차이점을 중심으로 소개해 드리겠습니다.

 

---

 

## CityLens: 대형 언어-비전 모델, 도시를 얼마나 잘 ‘읽을’ 수 있을까?

 

도시 계획이나 정책 수립에 있어 ‘소득 수준, 교육, 건강, 교통 등’ 도시 내 여러 사회경제적 지표를 정확히 파악하는 것은 필수적입니다. 전통적으로 이 작업은 통계 데이터나 현장 조사에 크게 의존했는데, 최근엔 위성사진이나 스트리트뷰 같은 ‘시각 데이터’에서 단서를 찾아내려는 연구들이 늘고 있어요.

 

CityLens는 이런 시각 데이터를 활용할 때 ‘대형 언어-비전 모델’이라는 최신 AI 기술이 사회경제적 지표 예측에서 얼마나 효과적인지 평가하기 위한 대규모 벤치마크를 처음으로 만들었습니다.

 

---

 

## 기술적 가치와 기존 연구와의 차별점

 

### 1. 다중 모달, 글로벌 도시 커버리지

 

CityLens는 세계 6개 대륙, 총 17개 도시를 아우르며 위성 이미지와 스트리트뷰 두 가지 모달리티를 동시에 사용합니다. 기존 연구들이 주로 단일 국가나 도시, 예컨대 ‘미국 내 몇몇 도시 스트리트뷰’에 국한된 것과 절대적인 차이가 있죠.

 

국가별로 상이한 데이터 출처(예: 미국 Zillow 주택가격, 영국 MSOA 단위 데이터, 중국 LianJia 부동산 데이터)를 합쳐 11개 사회경제 지표를 평가 대상으로 선정했습니다. 이런 ‘범세계적·다지표·다모달’ 데이터 구축과 평가 체계는 CityLens만의 큰 기술적 자산입니다.

 

### 2. 평가 패러다임의 다양성 — Direct, Normalized, Feature-Based

 

기존 접근법은 주로 지도 학습이나 단순 회귀를 썼지만, CityLens는 매우 흥미로운 세 가지 평가 방식(여기서 LLVM 역할을 다르게 봄)을 도입했어요.

 

- 직접 예측(Direct Metric Prediction): 이미지 보고 수치 바로 답하기. 그야말로 ‘직관적’ 방식.

- 정규화 예측(Normalized Metric Estimation): 원래 값 대신 0~9.9 범위 내에서 상대적 순위 예측. 더 ‘거칠게’ 보고 비교하는 방안.

- 특징 기반 회귀(Feature-Based Regression): AI가 스트리트뷰 이미지별로 13가지 시각 속성(나무, 차량, 보도 등)을 점수 매기고, 별도 회귀모델을 이용해 결과 예측.

 

재밌는 점은 ‘특징 기반 회귀’가 나머지 두 ‘직접/정규화 예측’보다 성능이 훨씬 뛰어났다는 겁니다. 이는 LLVM이 아직 ‘직접적 수치 예측’ 능력보다 ‘구조화된 시각 특성 추출’에 더 강하다는 시사점이죠.

 

### 3. 혁신성: 다양한 모델, 꼼꼼한 성능 비교, 세밀한 분석

 

CityLens에서는 최신 LLVM 17종(Gemma, Qwen, Llama, GPT-4 mini 등)을 평가했으며, 모델 크기나 아키텍처가 예측 성능에 미치는 영향도 톺아봤습니다.

 

예를 들어, 모델이 커진다고 항상 성능이 좋아지는 건 아니라는 점이 밝혀졌는데요. Gemma3-12B가 Gemma3-27B보다 GDP 예측에서 나은 결과를 낸 점이 대표적입니다. 이는 도시 데이터 자체가 ‘복잡하고 미묘한 패턴’을 담고 있기 때문에, 단순히 규모 큰 모델보다 ‘특화된 학습 구조’가 중요함을 보여줍니다.

 

또한 지표별로 성능 편차가 컸는데, 건물 높이나 대중교통처럼 ‘시각적으로 명확한’ 지표는 어느 정도 잘 맞췄지만, 정신 건강이나 기대 수명처럼 ‘시각 정보와 직접 연결이 어려운’ 지표는 일관성 없이 낮은 성능을 보였어요.

 

---

 

## 기존 연구들과는 어떻게 다를까요?

 

* 범위와 규모: 기존 연구([liu2023knowcl](https://arxiv.org/html/2506.00530v1#bib.bib27), [fan2023uvi](https://arxiv.org/html/2506.00530v1#bib.bib14) 등)는 특정 국가, 제한적 도시 혹은 단일 모달리티(주로 스트리트뷰)에 집중했다면, CityLens는 다양한 국가, 도시, 두 가지 시각 모달리티(위성+스트리트뷰)를 아우릅니다.

 

* 평가 방식: 단순 지도학습이 아니라 직접 예측, 정규화한 순위 예측, 그리고 특징 기반 회귀라는 세 가지 관점에서 모델 능력을 평가합니다. 이 중 기존 연구들은 주로 ‘지도학습+회귀’에 머문 반면, CityLens의 다중 패러다임 구성은 더 입체적인 모델 진단이 가능합니다.

 

* 대상 모델과 세밀한 분석: 최신 LLVM 17종을 도입하고, 도시별로 성능 차이를 분석해 ‘지역 특성’과 ‘비주얼 커버리지’가 결과에 미치는 영향까지 면밀히 파악했습니다. 이전 연구들이 모델별 성능 차별성을 다룬 경우가 드물다는 점에서 독보적입니다.

 

---

 

## 제가 본 CityLens의 의미 있는 기술적 가치

 

- 확장성 있는 도시 분석을 위한 표준화된 벤치마크 세트: AI 기반 도시 분석 실험을 할 때 기준점이 되어, 서로 다른 AI 모델의 비교를 공정하게 할 수 있습니다.

 

- 대형 다중모달 모델의 한계 명확화 및 가능성 확인: 모델이 시각 정보를 해석하는 능력은 분명 있지만, 숫자 예측 능력엔 아직 취약하다는 점 이해에 도움돼요.

 

- 미래 연구의 실마리 제시: 예를 들어, ‘특징 기반 접근’에서 성능이 더 좋으니 거기서 출발해 ‘모델 파인튜닝’이나 ‘심층적인 체인오브씽킹(Chain-of-Thought) 프롬프트 설계’를 접목할 가능성이 큽니다.

 

---

 

## 마무리하며

 

CityLens는 우리가 흔히 보는 도시 이미지 데이터를, 대형 언어-비전 AI가 어떻게 사회경제적 맥락으로 연결할 수 있는지 최초로 광범위하고 체계적으로 시험하는 시도입니다. 모델들이 아직은 완벽하지 않지만, 특히 구조화된 시각특성 추출에서는 희망적인 가능성을 보여줬지요.

 

궁극적으로 CityLens가 계속 발전하면, 실제 도시 설계나 정책 입안에서 AI가 조금 더 세밀하고 신뢰할 만한 사회지도 정보를 제공해, ‘모두가 더 나은 삶을 사는 도시’를 만드는데 크게 이바지할 수 있을 거라고 기대합니다.

 

---

 

더 깊은 기술적 내용이나 벤치마크 소스 코드는 아래 링크에서 확인 가능합니다.

 

👉 [CityLens GitHub Repository](https://github.com/tsinghua-fib-lab/CityLens)

 

읽어주셔서 감사합니다. 다음에도 최신 AI 연구, 쉽고 재미있게 전해드릴게요!